找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 66163|回复: 16

[网络连接] 批处理怎样打开网页代码并搜索特定文字?

[复制链接]
发表于 2011-10-31 14:30:30 | 显示全部楼层 |阅读模式
本帖最后由 pyhx 于 2011-11-1 09:10 编辑

我搞了个服务器,租给了一些人做网站,因为网警经常查,所以我要不定时打开他们的主页看看我服务器上有没有一些色情啊政治啊敏感内容。现在就想通过批处理打开这些网站主页代码,然后查找是否有特定的敏感字眼。那位高手帮忙说说
不好意思,上面说的不是太明白,具体点儿吧
1.txt------网址 如www.0371hz.com;www.baidu.com等
2.txt------敏感字  色情  成人等
要求执行程序,自动访问1.txt;对比是否有2.txt中的文字;有的反馈在3.txt(任意一个词组相符);没有的反馈在4.txt
初步想法是先提取网站主页代码,然后比对,不知道思路是否正确。
发表于 2011-10-31 18:43:51 | 显示全部楼层
这么宽泛的问题估计没人愿意回答哦,毕竟别人并不是都有充足的时间,解答问题也是很有针对性的,也就是都乐意回答那种比较细比较具体的问题。
发表于 2011-10-31 21:59:09 | 显示全部楼层
wget
curl
grep
findstr
 楼主| 发表于 2011-11-1 08:30:19 | 显示全部楼层
不好意思,上面说的不是太明白,具体点儿吧
1.txt------网址 如www.0371hz.com;www.baidu.com等
2.txt------敏感字  色情  成人等
要求执行程序,自动访问1.txt;对比是否有2.txt中的文字;有的反馈在3.txt(任意一个词组相符);没有的反馈在4.txt
初步想法是先提取网站主页代码,然后比对,不知道思路是否正确。
发表于 2011-11-1 09:00:23 | 显示全部楼层
希望楼主下次发帖求助能把问题在顶楼一次性说清楚,正如2楼说的,大家都没有很充足的时间来等你把问题说清楚了再回答。所有,你有没发现此贴没什么人回答?
发表于 2011-11-1 12:33:57 | 显示全部楼层
你在本论坛搜索 wget 工具,把它跟批处理放一起运行
  1. @echo off
  2. rem 1.txt每行一个网址
  3. rem 2.txt关键词用空格隔开,写在一行
  4. for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
  5. for /f "delims=" %%i in (1.txt) do (
  6.         wget -O $ %%i
  7.         findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
  8. )
  9. del $ /q
复制代码
 楼主| 发表于 2011-11-1 14:24:41 | 显示全部楼层
不好意思,为什么总反馈1.txt中所有的网址,没有比对出来啊
发表于 2011-11-1 14:36:43 | 显示全部楼层
回复 7# pyhx


    我是测试成功了才发出来的。
而且,你直接问为什么,我很难回答你的问题。你又忘了我前面说过的话了?
 楼主| 发表于 2011-11-1 15:00:51 | 显示全部楼层
呵呵,不好意思
能不能把qq号码给我
--14:34:09--  http://www.0371hz.com:80/
           => `$'
Connecting to www.0371hz.com:80... connected!
HTTP request sent, awaiting response...
Read error (No such file or directory) in header
Giving up.

--14:34:10--  http://www.zy56.com.cn:80/
           => `$'
Connecting to www.zy56.com.cn:80... connected!
HTTP request sent, awaiting response... 200 OK
Length: 23,379 [text/html]

    0K -> .......... .......... ..

14:59:20 (15.49 B/s) - `$' saved [23379/23379]
结果只反馈了一个4.txt,并且里面是所有的地址
 楼主| 发表于 2011-11-1 15:08:11 | 显示全部楼层
我刚才又试了一下,如果我输入的敏感词是河南,则反馈了结果。如果我输入的是成人,就查不出来了。
可是http://www.0371hz.com,明明主页代码里面就有啊
发表于 2011-11-1 15:12:48 | 显示全部楼层
回复 9# pyhx


    我知道哪里出错了。你的网页有的下载不了,有的可以下载,所以就造成了这个现象。
 楼主| 发表于 2011-11-1 15:24:52 | 显示全部楼层
网页有的下载不了,那该咋办啊?版主
我真的不是太了解
 楼主| 发表于 2011-11-1 16:08:40 | 显示全部楼层
我可以用浏览器打开上面http://www.0371hz.com/,但是不能用批处理打开。为啥,该咋解决啊
发表于 2011-11-1 18:03:30 | 显示全部楼层
换curl工具试试看:http://bbs.bathome.net/thread-1761-1-1.html
  1. @echo off
  2. rem 1.txt每行一个网址
  3. rem 2.txt关键词用空格隔开,写在一行
  4. for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
  5. for /f "delims=" %%i in (1.txt) do (
  6.         curl -o $ %%i
  7.         findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
  8. )
  9. del $ /q
复制代码
发表于 2011-11-1 18:59:32 | 显示全部楼层
至于能下载的网站,我仅想说处理好"编码"是关键,
注:以上的代码我并没有实践
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-18 06:55 , Processed in 0.019904 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表