有一些HTML文件,例如下面结构:- <!doctype html>
- <html>
- <head>
- …………
- …………
- …………
- <h1>cosplay《尼尔:机械纪元》尤尔哈2B (2 / 11)</h1>
- …………
- …………
- …………
- <a href="1209.html">上一页</a>
- <a href="1209.html">1</a><b>2</b>
- <a href="1209_3.html">3</a>
- <a href="1209_4.html">4</a>
- <a href="1209_5.html">5</a>
- <a href="1209_6.html">6</a>
- <a href="1209_3.html">下一页</a>
- …………
- …………
- …………
- </body>
- </html>
复制代码 提取<h1>行后,获得(2 / 11)内的数值,
数字2表示在第二页,不需要,
数字11表示最大11页,需要提取的就是这个;
提取下一页</a>这一行,获得1209_3.html,
主要是在这里生成,- http://www.xxxxx.com/cosplay/img/1029/1209.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_2.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_3.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_4.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_5.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_6.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_7.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_8.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_9.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_10.jpg
- http://www.xxxxx.com/cosplay/img/1029/1209_11.jpg
复制代码 将生成的jpg链接内容保存为新的文件,和网页文件一致并且在后面添加。TXT
如果<h1>后面的内容是(1 / 1)或没有内容,则不提取- <h1>cosplay《尼尔:机械纪元》尤尔哈2B (1 / 1)</h1>
- <h1>cosplay《尼尔:机械纪元》尤尔哈2B</h1>
复制代码
|