[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[网络连接] 批处理如何实现采集/提取网站/网页上的指定链接/网址?

本帖最后由 pcl_test 于 2016-11-13 20:27 编辑

例如,我想利用批处理bat或vbs批量获取http://www.55188.com/forum-111-1.html这个网页里的全部帖子的链接网址和标题并输出到文本里(每个链接需是完整的网址包含http://),请问能不能实现呢?希望老师帮助。
下面该咋写呢?希望老师帮我下好吗?
1

评分人数

混了十年论坛,不要一贴多发都不知道。
去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

  1. """
  2. python采集55188.com论坛URL.py
  3. http://bbs.bathome.net/thread-40289-1-1.html
  4. 2016年5月2日 17:28:47 codegay
  5. 参考资料: Python3学习笔记(urllib模块的使用)
  6. http://www.cnblogs.com/Lands-ljk/p/5447127.html
  7. """
  8. print("程序运行中...")
  9. from urllib import request
  10. from time import sleep
  11. import re
  12. rooturl="http://www.55188.com/"
  13. forumurl="http://www.55188.com/forum-111-{}.html"
  14. tidurl="http://www.55188.com/viewthread.php?tid={}\n"
  15. with open("result.txt","w+") as f:
  16.     for r in range(1,210):
  17.         r=request.urlopen(forumurl.format(r))
  18.         txt=r.read().decode("gbk")
  19.         rec=re.compile('''viewthread.php\?tid=(\d+).+#anchorlink''')
  20.         tid=set(rec.findall(txt))#去重复
  21.         for id in tid:
  22.             f.write(tidurl.format(id))
  23.         #sleep(1)
  24.             
  25. input("运行结束,回车退出")
复制代码
去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

本帖最后由 pcl_test 于 2016-11-13 20:32 编辑

举个栗子
  1. //&cls&mshta "%~f0">"结果.txt"&pause&exit
  2. <script src=http://www.bathome.net/lib/diy/Function.js></script>
  3. <script>
  4. var fso = new ActiveXObject('Scripting.Filesystemobject');
  5. var StdOut = fso.GetStandardStream(1);
  6. var url = 'http://www.55188.com/';
  7. //1到10页
  8. for(var i=1;i<=10;i++){
  9.     var txt = '', u = url+ 'forum-111-'+ i +'.html';
  10.     var links = web(u).match(/<span\sid=\"thread_\d+\"[^>]+?>[\s\S]+?<\/span>/g);
  11.     for(var j=0;j<links.length;j++){
  12.         var link = links[j].match(/<a href="([^"]+)/)[1];
  13.         var title = links[j].replace(/<[^>]*>/g, '');
  14.         txt +=url + link + ' '+ title +'\r\n';
  15.     }
  16.     StdOut.Write('page '+i+'\r\n'+txt+'\r\n');
  17. }
  18. close();
  19. </script>
复制代码

TOP

这SB提问完老是把原贴编辑掉。
去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

返回列表