[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[其他] 批处理如何用wget下载指定网页的指定规则标题的网页?

本帖最后由 3518228042 于 2017-7-23 22:05 编辑

网页地址
http://www.yssm.org/uctxt/109/109767/
查看代码下载指定区域内的标题,这个只是测试内容
<dd> <a style=""=style="" href="5837833.html">第四百九十章 主动</a></dd>
<dd> <a style=""=style="" href="5837834.html">七月,求下月票啦</a></dd>
<dd> <a style=""=style="" href="5837881.html">第四百九十章 群雄汇聚</a></dd>
<dd> <a style=""=style="" href="5837884.html">第四百九十一章 群雄汇聚</a></dd>
<dd> <a style=""=style="" href="5837903.html">第四百九十二章 赴会</a></dd>
<dd> <a style="color:Gray;"=style="color:Gray;" href="5837939.html">有些事,更新推迟下</a></dd>
<dd> <a style=""=style="" href="5837960.html">第四百九十三章 盛会</a></dd>
<dd> <a style=""=style="" href="5837993.html">第四百九十四章 天神</a></dd>
<dd> <a style=""=style="" href="5838085.html">第四百九十五章 悲惨的魔</a></dd>

但是不要下载这种链接的网页
<dd> <a style=""=style="" href="5837834.html">七月,求下月票啦</a></dd>
<dd> <a style="color:Gray;"=style="color:Gray;" href="5837939.html">有些事,更新推迟下</a></dd>

合并4楼,
选取下载范围: 第四百九十章 主动这一整行字符串到第四百九十五章 悲惨的魔 这一行末尾结束,
然后提取第*章前面的*.html链接,文件有这么多,
5837833.html
5837881.html
5837884.html
5837903.html
5837960.html
5837993.html
5838085.html
添加后的下载链接进行下载,链接如下
http://www.yssm.org/uctxt/109/109767/5837833.html
http://www.yssm.org/uctxt/109/109767/5837881.html
http://www.yssm.org/uctxt/109/109767/5837884.html
http://www.yssm.org/uctxt/109/109767/5837903.html
http://www.yssm.org/uctxt/109/109767/5837960.html
http://www.yssm.org/uctxt/109/109767/5837993.html
http://www.yssm.org/uctxt/109/109767/5838085.html
输出txt用wget下载,这个没搞定

正则提取这个区域后,匹配章标题后wget下载怎么弄?这个下载500章以后的,wget下载弄不了,怎么弄进去将index.html.txt的链接下载?
  1. @set @n=0;/* & echo off
  2. setlocal enabledelayedexpansion
  3. del /a /f /q index.html.txt 2>nul
  4. curl -o index.html http://www.yssm.org/uctxt/109/109767/
  5. wfr index.html -any -encin:utf-8 -encout:gbk -force
  6. dir /b index.html|cscript -nologo -e:jscript "%~0"
  7. pause & exit/b & rem */
  8. fso = new ActiveXObject("Scripting.FileSystemObject");
  9. while (!WSH.StdIn.AtEndOfStream) {
  10.     f = WSH.StdIn.ReadLine();
  11.     txt = fso.OpenTextFile(f, 1).ReadAll();
  12.     txt = txt.replace(/<a .*href=\"[^\"]+\.html\">第?(一|0*1)[章节][\s\S]*(<a .*href=\"[^\"]+\.html\">第?五百章)/g, '$2')
  13.     .replace(/(href=\")([0-9]+\.html)/g, '$1http://www.yssm.org/uctxt/109/109767/$2');
  14.     s = "";
  15.     re = /(<a .*href=\")([^\"]+\.html)(\">第?.+章)/ig;
  16.     //提取内容
  17.     while ((ar = re.exec(txt)) != null) {
  18.     s += ar[2] + "\r\n";
  19.     };
  20.     fso.OpenTextFile(f + ".txt" ,2, true).Write(s);
  21. }
复制代码

TOP

返回列表