找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 31295|回复: 5

[其他] 批处理采集网站的文章+作者

[复制链接]
发表于 2014-4-30 19:30:02 | 显示全部楼层 |阅读模式
我想采集http://www.juzimi.com/  这个网站的文章+作者。
里面的文章其实就是一句话。
我用火车头采集了,但是效果不理想。 很多页面采集不到。

网站的url规则为http://www.juzimi.com/ju/*****     (http://www.juzimi.com/ju/1399  、http://www.juzimi.com/ju/11  等等)但是里面有很多404页面,这个需要判断下。
如果不是404就可以采集了。

采集的时候能设置页数范围(比如说我想采集200页-1200页的内容)

采集回来所有文章+作者都整理到 一行。 txt输出。
发表于 2014-4-30 21:23:56 | 显示全部楼层
说实话 你这个任务我是完成不了,但并不是没有方法,推荐两个帖子
只要下载完这网站的网页,按以下步骤顺序搞定
  1. htox32c /IP /O0 /U1+4 *.html
复制代码
这句代码是html转txt的,来源http://www.bathome.net/thread-7166-1-1.html 涉及的软件也在这里下载

http://www.bathome.net/thread-29885-1-2.html    这个是提取内容的

http://bathome.l3.wuyou.com/thread-29835-1-1.html   这个是合并的

现在返回到开始,下载网页用  网站整站下载器 等一些软件。只要把几个bat组合好,过程就简化成,下载和转换。
发表于 2014-4-30 21:49:01 | 显示全部楼层
本帖最后由 apang 于 2014-5-8 21:15 编辑
  1. Dim xml, fso, i, x, str
  2. Set xml = CreateObject("Microsoft.XMLHTTP")
  3. Set fso = CreateObject("Scripting.Filesystemobject")
  4. For i = 1390 to 1399
  5.     xml.Open "Get", "http://www.juzimi.com/ju/" & i, false
  6.     xml.send()
  7.     x = GetText(xml.responseBody)
  8.     If x <> "" Then str = str & x & vbCrLf
  9. Next
  10. fso.CreateTextFile("Result.txt", true).Write str
  11. Set xml = Nothing : Set fso = Nothing

  12. MsgBox "OK"

  13. Function GetText(s)
  14.     Dim ado
  15.     Set ado = CreateObject("ADODB.Stream")
  16.     ado.Mode = 3
  17.     ado.Type = 1
  18.     ado.Open()
  19.     ado.Write s
  20.     ado.Position = 0
  21.     ado.Type = 2
  22.     ado.Charset = "utf-8"
  23.     GetText = RegEx(ado.ReadText)
  24.     Set ado = Nothing
  25. End Function

  26. Function RegEx(s)
  27.     Dim re, m
  28.     Set re = New RegExp
  29.     re.Pattern = "xqaddqrcode\('(.+?)(《[^《]+)?',"
  30.     re.IgnoreCase = true
  31.     For Each m in re.Execute(s)
  32.         RegEx = m.SubMatches(0)
  33.     Next
  34.     Set re = Nothing
  35. End Function
复制代码

评分

参与人数 1技术 +1 收起 理由
zhanglei1371 + 1 很强大

查看全部评分

发表于 2014-4-30 21:53:05 | 显示全部楼层
只有膜拜了 楼上
 楼主| 发表于 2014-5-7 23:40:51 | 显示全部楼层
回复 3# apang

这个没有输出啊。
发表于 2014-5-8 21:18:50 | 显示全部楼层
回复 5# kabamei


    好吧,改一改有输出了,去掉了书名号后面的东东
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-20 00:21 , Processed in 0.021058 second(s), 9 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表