Rank: 8 Rank: 8

帖子: 1348
积分: 5195
技术: 146
捐助: 501
注册时间: 2007-10-25

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2011-5-7 16:05 | 只看该作者

[网络工具] 批处理整理读览天下网站中部分杂志的精选文章

　　最近用批处理抓取/整理网络数据成瘾，应网友的请求，写了个整理读览天下（http://www.dooland.com）网站中部分杂志精选文章的代码，在本人机器上跑了几天，测试后较为满意，发出来与大家一起分享。至于txt文本的用途，大家自行发掘，不在本文的讨论范畴。

　　与写教程相比，写代码是件比较惬意的事情。

　　写代码，我可以天马行空胡思乱想，不求他人看得懂，惟愿功能可实现。写教程，还得考虑广大受众的技术水平：写简洁了，老鸟们会连声叫好，小鸟们会不知所云；写详细了，老鸟们就觉得长不可耐，小鸟们可能会觉得正中下怀，但也不见得就能解决了所有的疑惑。对我而言，写短了，任务轻松，但会觉得有点失败，因为肯定有大部分人看不懂；写长了，还得费尽心思在何处尽力着墨，在何处可以大大俭省，还得考虑语言通俗易懂、生动有趣……无论是长是短，都会有人痛不欲生。

　　我非地藏菩萨，没有“我不入地狱谁入地狱”的大无畏精神，只能“牺牲大多数，幸福我一人”，在此处只能简要地提一提这段代码的前世今生了。

　　最开始，该网友想下载所有杂志的文字版本。

　　进网站四处指指戳戳，折腾了一圈，发现每种杂志都提供了图片预览，但并不是所有的杂志都提供文字版本，只有为数不多的杂志才有“精选文章”——即使是文字版，也不是全部的文字，而是经过了“精选”的；即使提供了“精选文章”的杂志，也不是都可以用本文所提到的代码来下载，需要做一些微调方可，比如《意林》杂志。

　　既然不能抓取全部的文字版，那退而求其次，就抓“精选文章”吧。

　　理想中的状态是：在某个地方，找到所有提供了“精选文章”的杂志名列表网址，然后顺藤摸瓜，进入每一本杂志的历年列表网址中，从每一期的“精选文章”中抓取具体文章的网页文件，最后，对这些网页文件做去除html代码、提取文章正文内容等一系列处理，得到“精选文章”文字版。

　　所有操作的关键，就是要找到各种网页的真实下载地址。

　　那就开始摸索吧。

　　首先，要寻找有哪些杂志提供了“精选文章”。

　　这是个体力活，没有任何技巧可言，能否找全，不需要人品，也不需要智商，只需要耐心，一个一个地点开来看吧。要担心找漏或找重复了，就在网站首页的左侧，找到“杂志分类”，一个类别一个类别地点开来找吧。想当初，我花了两晚上，终于把提供“精选文章”的杂志找全了，度过了一个因枯燥乏味而令人难以忘怀的5.1劳动节。如果你不想再次重复这个乏味的过程，那就直接使用我整理出来的杂志列表吧。一个额外的收获是：这个网站的分类真的不咋地，有的重复了，有的分错了——您说“计算机世界”是不是应该划到“教育科技”下的“计算机”分类里去？但是这个网站它偏不，它就有胆量给划到“商业财经”的“互联网”中去，对我这种出于职业习惯而喜欢对万事万物进行分类的人而言，这是个令人无法容忍的错误，不过希望大家见了之后置之一笑即可，我可不希望大家都像我这样是个偏执狂^_^。

　　其次，对提供了“精选文章”的杂志，需要列举每一期的网址。

　　以《三联生活周刊》为例。在读览天下网站首页右上角处，搜索框中搜索“三联”字样，在候选框中选择“三联生活周刊”，点搜索按钮，来到《三联生活周刊》历年各期列表页面，网址为：http://lifeweeker.dooland.com。这个列表有两个页面，点“下一页”按钮，来到第二页，注意观察地址栏里网址的变化，已经变为：http://lifeweeker.dooland.com/index.php?p=2&id=7990。点“前一页”按钮返回第一页，网址已经变为：http://lifeweeker.dooland.com/index.php?p=1&id=7990。稍作比较，很快就会发现页码和网址的对应关系：“index.php?p=”后及“&”之前的数字就是页码号码。如果把网址栏中网址的“&id=7990”去掉，再按回车，当前页面不会发生任何变化。由此可以推知，这个id号应当是这个杂志在网站数据库中的流水编号，在网址中是否有它都不会影响网页查询结果。而到了最后一页，网页中不再出现“下一也”按钮。换成其他的杂志来测试，可以证明上述推测是正确的。

　　既然是这样，那么，如果我们把这些杂志的首页地址整理出来了，要找到该杂志所有期别的下载链接，当手到擒来。

　　那就用代码来验证一下以上的推测过程吧。

　　1.下载《三联生活周刊》各期网址链接页面的首页：

wget -O 1.html "http://lifeweeker.dooland.com/index.php?p=1"COPY

　　2.检测当前下载的页面是不是最后一页；如果不是最后一页，则继续下载下一页：

 :loop
set /a page+=1
findstr /i "index\.php\?p=.*下一页" %page%.html >nul&&(
    wget -O %page%.html "http://lifeweeker.dooland.com/index.php?p=%page%"
    goto loop
)COPY

　　期待中的第2页网页文件2.html并没有出现。

　　赶紧排查，原来下载回来的html文件是utf-8编码，而findstr无法读取，需要把html文件转为ASCII编码才行。

　　找来白杨大侠写的文件编码转换工具wfr.exe，修改一下代码：

 :loop
set /a page+=1
wfr %page%.html /any /force /encin:utf-8 /encout:gbk>nul
findstr /i "index\.php\?p=.*下一页" %page%.html >nul&&(
    wget -O %page%.html "http://lifeweeker.dooland.com/index.php?p=%page%"
    goto loop
)COPY

　　从头到尾把这本杂志各期列表网页都下载回来了。

　　分析这些网页，找到各期的具体网址（以1.html里的链接为例）：

 setlocal enabledelayedexpansion
for /f "tokens=3,6 delims== " %%i in ('findstr /ib "<a.href=.http:\/\/www\.dooland\.com\/magazine.*三联生活周刊" 1.html') do (
    set issue="%%k
    set "issue=!issue:~1,-1!"
    md html\!issue! 2>nul
    wget -nv -O html\!issue!\%%~ni %%i
)COPY

　　每一期都会在html文件夹下建立以当前期别为名的文件夹，里面存放一个无后缀名的文本格式的文件，比如《三联生活周刊》11年第18期，它的存放路径是：html\11年第18期\21422——实际上,21422是一个html网页文件，只是保存的时候没有给它添加后缀名，以便和后来下载回来的文章网页文件区分开来。

　　代码验证完毕，接下来就得下载具体文章了。

　　从每一期的文章目录页中读取文章的具体链接下载之（以上一例的21422文件为例）：

 for /f "tokens=3 delims== " %%i in ('findstr /ib "<h2>.*article_.*title" html\11年第18期\21422') do (
    wget -nv -O html\11年第18期\%%~ni.html "http://www.dooland.com/magazine/%%~i"
)COPY

　　下载回来的文件都保存在“html\11年第18期”下，文件名形如article_127096.html、article_127097.html。

　　先把网页文件中的html代码都剔除掉，转换为txt文本，并继续用wfr.exe来改变文件的编码：

 htox32c /IP /O0 html\11年第18期\*.html
wfr html\11年第18期\*.txt /any /force /encin:utf-8 /encout:gbkCOPY

　　经过html→txt、utf-8→gbk的转换之后，正文内容方可被正确提取出来（关键中的关键：文章标题含有“TITLE : ”字样，正文内容都以两个全角的空格打头）：

 md txt 2>nul
(for %%i in (html\11年第18期\*.txt) do (
    (
    for /f "delims=: tokens=2*" %%j in ('findstr /ic:"TITLE : 三联生活周刊:" %%i') do (
        echo %%k&echo.
    )
    findstr /ib "　　" %%i
    echo.)
))>txt\11年第18期.txtCOPY

　　回头梳理一下完整的整理流程：

　　1.整理一份配置表，里面包含杂志名和历年各期列表网址的首页；比如“三联生活周刊 http://lifeweeker.dooland.com/index.php”
　　2.下载上一步整理出来的首页文件，保存为无后缀名的文件1；
　　3.根据文件1中是否含有“下一页”按钮，来决定是否下载后一页，直至所有的页面都下载完毕；这些页面文件，我们暂且称之为：索引页。
　　4.根据索引页中的链接，提取出该杂志每一期的期别名和具体网址，并下载这一期别的首页，我们暂且将这样的网页文件称之为为：目录页。
　　5.从目录页中，提取出每一篇“精选文章”的下载链接，并下载它们的网页文件；
　　6.把“精选文章”的网页文件经过html→txt和utf-8→gbk的转换之后，提取出正文内容，保存到txt文件夹下，并以该期别名命名这个txt文件。

尺有所短寸有所长，学好批处理没商量；
考虑问题复杂化，解决问题简洁化。
心在天山，身老沧州。

namejm

荣誉版主

Rank: 8 Rank: 8

帖子: 1348
积分: 5195
技术: 146
捐助: 501
注册时间: 2007-10-25

2楼

发表于 2011-5-7 16:05 | 只看该作者

完整代码（需配合附件里的内容方可使用，请看文末的注意事项）

 @echo off
title 读览天下网站部分杂志精选文章整理脚本
setlocal enabledelayedexpansion
 
:: 网址严格区分大小写
:: 即使没有账号密码，完整的正文内容仍然被嵌在网页源文件中，只不过采用css限制了完整内容的阅览
:: 所以，无需使用账号即可阅览完整的精选文章
set www=http://www.dooland.com/magazine
 
:Main
cls
title 读览天下杂志精选文章下载脚本
echo.&echo.
echo     选择每个类别前的数字序号
echo     将进入该类别的具体分类进行指定杂志精选文章的下载
echo     每次只能选择一个类别
echo     请勿输入错误的格式，否则，将引发不可预知的错误
echo.
echo ==============================================================
echo.
 
set num=0
set ConfigDir=config
for %%i in (%ConfigDir%\*.txt) do (
    set /a num+=1
    set /a mod=!num!%%3
    set /p=!num!.%%~ni		<nul
    if !mod! equ 0 echo.&echo.
)
echo.
echo ==============================================================
echo.
set ClassID=
set /p ClassID=     请选择类别（1/2/3/……）：
if not defined ClassID goto Main
set Class=
set ClassConfig=
set num=0
for %%i in (%ConfigDir%\*.txt) do (
    set /a num+=1
    if "!num!"=="%ClassID%" (
        set Class=%%~ni
        set ClassConfig=%%i
    )
)
 
cls
title 准备整理 %Class% 分类下的精选文章
echo.
echo     选择每个项目前的数字编号
echo     可以下载该杂志所有期别的精选文章
echo     可以多选，但是必须以空格分隔
echo     多选时不用考虑先后次序
echo     0与其他选项组合时会造成重复下载
echo     已经整理过的期别不会重复整理（即保留整理进度）
echo     请勿输入错误的格式，否则会引发不可预知的错误
echo.
echo ==============================================================
echo.
 
set num=0
for /f "tokens=1-3" %%i in (%ClassConfig%) do (
    set /a num+=1
    set /a mod=!num!%%3
    if !num! leq 9 (
        set /p=%%i.%%j		<nul
        if !mod! equ 0 echo.&echo.
    )
)
if %num% gtr 9 (
    echo.
    echo     更多杂志的编号，请按照打开的文本文件中的内容进行输入
    start "" %ClassConfig%
)
echo.&echo.
set /p=		0.前面的所有杂志     返回上一步请直接回车<nul
echo.
echo ==============================================================
echo.
 
set MagazineID=
set /p MagazineID=     请输入选择代码（0/1/2/3……）：
if not defined MagazineID goto Main
 
for %%i in (%MagazineID%) do (
    for /f "tokens=1-3" %%j in (%ClassConfig%) do (
        set Magazine=%%k
        set UrlIndex=%%l
        if "%%i"=="0" (
            call :DownArticle
        ) else (
            if "%%i"=="%%j" (
                call :DownArticle
            )
        )
    )
)
pause
goto Main
 
 
:DownArticle
cls
md %Class%\%Magazine%\html 2>nul
del /a /f /q %Class%\%Magazine%\html\*.* 2>nul
set page=0
:DownPages
set /a page+=1
title 正在下载 《%Magazine%》 期别索引页中的第 %page% 页
wget -nv -O %Class%\%Magazine%\html\%page% "%UrlIndex%?p=%page%"
:: 下载所有的索引页
wfr %Class%\%Magazine%\html\%page% /any /force /encin:utf-8 /encout:gbk>nul
findstr /i "index\.php\?p=.*下一页" "%Class%\%Magazine%\html\%page%">nul&&(
    goto DownPages
)
 
:: 需要防止文章标题中含空格的情况
:: 已经生成了txt的期别不再下载
:: 如果在期别一栏没有数据，则忽略该期的下载，否则，脚本将无法运行下去
for %%i in (%Class%\%Magazine%\html\*.*) do (
    for /f "tokens=3,6 delims== " %%j in ('findstr /ib "<h1><a.href=.http:\/\/www\.dooland\.com\/magazine.*%Magazine%" %%i') do (
        set issue="%%k
        set "issue=!issue:~1,-1!"
        if defined issue (
            md %Class%\%Magazine%\html\!issue! 2>nul
            if not exist %Class%\!Magazine!\txt\!issue!.txt (
                del /a /f /q %Class%\%Magazine%\html\!issue! 2>nul
                title 正在下载 《%Magazine%》!issue! 的文章列表页面
                wget -nv -O %Class%\%Magazine%\html\!issue!\%%~nj %%j
                wfr %Class%\%Magazine%\html\!issue!\%%~nj /any /force /encin:utf-8 /encout:gbk
                call :GetHtml !issue! %Class%\%Magazine%\html\!issue!\%%~nj
                if defined article call :GetTxt !issue!
            )
        )
    )
    for /f "tokens=3,6 delims== " %%j in ('findstr /ib "<a.href=.http:\/\/www\.dooland\.com\/magazine.*%Magazine%" %%i') do (
        set issue="%%k
        set "issue=!issue:~1,-1!"
        if defined issue (
            md %Class%\%Magazine%\html\!issue! 2>nul
            if not exist %Class%\!Magazine!\txt\!issue!.txt (
                del /a /f /q %Class%\%Magazine%\html\!issue! 2>nul
                title 正在下载 《%Magazine%》!issue! 的文章列表页面
                wget -nv -O %Class%\%Magazine%\html\!issue!\%%~nj %%j
                wfr %Class%\%Magazine%\html\!issue!\%%~nj /any /force /encin:utf-8 /encout:gbk
                call :GetHtml !issue! %Class%\%Magazine%\html\!issue!\%%~nj
                if defined article call :GetTxt !issue!
            )
        )
    )
)
 
:: 若需要保留网页文件，请把下一条语句注释掉或删掉
rd /q /s %Class%\%Magazine%\html 2>nul
 
cls
title 处理完毕
echo 处理完毕
goto :eof
 
:GetHtml
cls
title 正在下载 《%Magazine%》%issue% 的精选文章html数据
set "article="
for /f "tokens=3 delims== " %%i in ('findstr /ib "<h2>.*article_.*title" %2') do (
    set article=exist
    wget -nv -O %Class%\%Magazine%\html\%issue%\%%~ni.html "%www%/%%~i"
)
goto :eof
 
:GetTxt
cls
title 正在转换 《%Magazine%》%issue% 的数据格式
htox32c /ip /o0 %Class%\%Magazine%\html\%issue%\*.html
wfr %Class%\%Magazine%\html\%issue%\*.txt /any /force /encin:utf-8 /encout:gbk
 
cls
title 正在生成 《%Magazine%》%issue% 的文本文件
echo.&echo     正在生成 《%Magazine%》%issue% 的文本文件
echo.&echo     请稍候...
md %Class%\%Magazine%\txt 2>nul
(for %%i in (%Class%\%Magazine%\html\%issue%\*.txt) do (
    (
    for /f "delims=: tokens=2*" %%j in ('findstr /ic:"TITLE : %Magazine%:" %%i') do (
        echo %%k&echo.
    )
    findstr /ib "　　" %%i
    echo.)
))>%Class%\%Magazine%\txt\%issue%.txt
 
del /a /f /q %Class%\%Magazine%\html\%issue%\*.txt 2>nul
 
goto :eofCOPY

配置文件内容示例（为了配合以上代码，配置文件必须放入指定目录下，请下载附件使用）：

;以分号打头的行为注释行
;仅保存含有精选文章的杂志
;条目格式为：序号杂志名杂志索引首页
;字段之间以空格分隔
;杂志名称中不能含有不能作为计算机文件名的各种符号，如半角状态下的:、/、\、>、<、?等
;杂志名称中不能含有半角状态下的空格、等号、分号
;杂志名称必须与网页中的名称保持一致，不得从杂志的封面中获取，否则，将下载不到文章内容

;整理时间 2011.4.30

;科普
1 轻兵器 http://qbq.dooland.com/index.php
2 百科知识 http://bkzs.dooland.com/index.php

;科教
3 大学明天 http://dxmt.dooland.com/index.php

　　注意事项：

　　1.本代码需要wget.exe、wfr.exe和HtoX32c.exe的支持：wget下载网页、wfr对文件编码进行转换、HtoX32c转html为txt；附件已经包含所需的全部文件；
　　2.配置文件必须严格按照其中的说明进行整理，修改配置文件的路径必须在代码中做相应的更改；
　　3.读览天下网站中的“精选文章”，无需账号密码也可下载完整内容——当某天这条不成立的时候，配合账号密码才能使用本代码。
　　4.本文仅谈思路和原理，与读览天下网站类似的网站都可以用这个思路和原理来抓取文本。本人精力有限，不能针对众多网站一一编写代码，请自行修改代码来适应那些类似的网站。

分类下载读览天下的精选文章.rar
http://pan.baidu.com/share/link?shareid=4087843025&uk=1124163200

附件: 您需要登录才可以下载或查看附件。没有帐号？注册

1 评分人数

▄︻┻═┳一: 很厉害技术 + 1

尺有所短寸有所长，学好批处理没商量；
考虑问题复杂化，解决问题简洁化。
心在天山，身老沧州。

TOP

qq3475534

二级士官

Rank: 2

帖子: 106
积分: 194
技术: 1
捐助: 0
注册时间: 2009-1-31

3楼

发表于 2011-5-7 16:30 | 只看该作者

这么强大。。。。

TOP

▄︻┻═┳一

列兵

Rank: 1

帖子: 29
积分: 37
技术: 0
捐助: 0
注册时间: 2011-4-24

4楼

发表于 2011-5-7 19:26 | 只看该作者

下下来的网页文章仅显示部分，能看到完整版的就好了。

TOP

hfg1977

上尉

Rank: 5 Rank: 5

帖子: 425
积分: 1096
技术: 57
捐助: 0
注册时间: 2009-9-14

5楼

发表于 2011-5-7 22:23 | 只看该作者

无论是长是短，都会有人痛不欲生

版主真是YIN荡呀....

TOP

namejm

荣誉版主

Rank: 8 Rank: 8

帖子: 1348
积分: 5195
技术: 146
捐助: 501
注册时间: 2007-10-25

6楼

发表于 2011-5-7 23:44 | 只看该作者

下下来的网页文章仅显示部分，能看到完整版的就好了。
▄︻┻═┳一发表于 2011-5-7 19:26

实际上
正文内容是完整的
不过在网页浏览器里查看的时候被css代码强制隐藏起来了
你查看网页源文件就知道了
这也是本代码不需要账号密码就可以整理出全文的秘密

尺有所短寸有所长，学好批处理没商量；
考虑问题复杂化，解决问题简洁化。
心在天山，身老沧州。

TOP

asnahu

中尉

Rank: 5 Rank: 5

帖子: 206
积分: 963
技术: 16
捐助: 0
注册时间: 2008-3-9

7楼

发表于 2011-5-8 20:35 | 只看该作者

namejm这样会教坏小朋友的

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[网络工具] 批处理整理读览天下网站中部分杂志的精选文章

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】


	设置关闭开启【页面动态效果 + 卡片式布局】关闭【页面动态效果 + 卡片式布局】开启【代码高亮】关闭【代码高亮】代码高亮主题【亮】代码高亮主题【暗】

[网络工具] 批处理整理读览天下网站中部分杂志的精选文章

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

设置 关闭

开启 【页面动态效果 + 卡片式布局】 关闭 【页面动态效果 + 卡片式布局】 开启 【代码高亮】关闭 【代码高亮】代码高亮主题 【亮】代码高亮主题 【暗】

设置关闭

开启【页面动态效果 + 卡片式布局】
关闭【页面动态效果 + 卡片式布局】

开启【代码高亮】
关闭【代码高亮】

代码高亮主题【亮】
代码高亮主题【暗】