[其他] 批处理如何用wget下载指定网页的指定规则标题的网页？

本帖最后由 3518228042 于 2017-7-23 22:05 编辑

网页地址
http://www.yssm.org/uctxt/109/109767/
查看代码下载指定区域内的标题，这个只是测试内容
<dd> <a style=""=style="" href="5837833.html">第四百九十章主动</a></dd>
<dd> <a style=""=style="" href="5837834.html">七月,求下月票啦</a></dd>
<dd> <a style=""=style="" href="5837881.html">第四百九十章群雄汇聚</a></dd>
<dd> <a style=""=style="" href="5837884.html">第四百九十一章群雄汇聚</a></dd>
<dd> <a style=""=style="" href="5837903.html">第四百九十二章赴会</a></dd>
<dd> <a style="color:Gray;"=style="color:Gray;" href="5837939.html">有些事,更新推迟下</a></dd>
<dd> <a style=""=style="" href="5837960.html">第四百九十三章盛会</a></dd>
<dd> <a style=""=style="" href="5837993.html">第四百九十四章天神</a></dd>
<dd> <a style=""=style="" href="5838085.html">第四百九十五章悲惨的魔</a></dd>

但是不要下载这种链接的网页
<dd> <a style=""=style="" href="5837834.html">七月,求下月票啦</a></dd>
<dd> <a style="color:Gray;"=style="color:Gray;" href="5837939.html">有些事,更新推迟下</a></dd>

合并4楼，
选取下载范围：第四百九十章主动这一整行字符串到第四百九十五章悲惨的魔这一行末尾结束，
然后提取第*章前面的*.html链接，文件有这么多，
5837833.html
5837881.html
5837884.html
5837903.html
5837960.html
5837993.html
5838085.html
添加后的下载链接进行下载，链接如下
http://www.yssm.org/uctxt/109/109767/5837833.html
http://www.yssm.org/uctxt/109/109767/5837881.html
http://www.yssm.org/uctxt/109/109767/5837884.html
http://www.yssm.org/uctxt/109/109767/5837903.html
http://www.yssm.org/uctxt/109/109767/5837960.html
http://www.yssm.org/uctxt/109/109767/5837993.html
http://www.yssm.org/uctxt/109/109767/5838085.html
输出txt用wget下载，这个没搞定

3518228042

一级士官

Rank: 2

帖子: 56
积分: 100
技术: 8
捐助: 0
注册时间: 2017-4-29

2楼

发表于 2017-7-23 22:08 | 显示全部帖子

正则提取这个区域后，匹配章标题后wget下载怎么弄？这个下载500章以后的，wget下载弄不了，怎么弄进去将index.html.txt的链接下载？

@set @n=0;/* & echo off
setlocal enabledelayedexpansion

del /a /f /q index.html.txt 2>nul
curl -o index.html http://www.yssm.org/uctxt/109/109767/
wfr index.html -any -encin:utf-8 -encout:gbk -force

dir /b index.html|cscript -nologo -e:jscript "%~0"
pause & exit/b & rem */
fso = new ActiveXObject("Scripting.FileSystemObject");
while (!WSH.StdIn.AtEndOfStream) {
    f = WSH.StdIn.ReadLine();
    txt = fso.OpenTextFile(f, 1).ReadAll();
    txt = txt.replace(/<a .*href=\"[^\"]+\.html\">第?(一|0*1)[章节][\s\S]*(<a .*href=\"[^\"]+\.html\">第?五百章)/g, '$2')
    .replace(/(href=\")([0-9]+\.html)/g, '$1http://www.yssm.org/uctxt/109/109767/$2');
    s = "";
    re = /(<a .*href=\")([^\"]+\.html)(\">第?.+章)/ig;
    //提取内容
    while ((ar = re.exec(txt)) != null) {
    s += ar[2] + "\r\n";
    };
    fso.OpenTextFile(f + ".txt" ,2, true).Write(s);
}
复制代码

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[其他] 批处理如何用wget下载指定网页的指定规则标题的网页？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]