Board logo

标题: [网络连接] 批处理怎样打开网页代码并搜索特定文字? [打印本页]

作者: pyhx    时间: 2011-10-31 14:30     标题: 批处理怎样打开网页代码并搜索特定文字?

本帖最后由 pyhx 于 2011-11-1 09:10 编辑

我搞了个服务器,租给了一些人做网站,因为网警经常查,所以我要不定时打开他们的主页看看我服务器上有没有一些色情啊政治啊敏感内容。现在就想通过批处理打开这些网站主页代码,然后查找是否有特定的敏感字眼。那位高手帮忙说说
不好意思,上面说的不是太明白,具体点儿吧
1.txt------网址 如www.0371hz.com;www.baidu.com等
2.txt------敏感字  色情  成人等
要求执行程序,自动访问1.txt;对比是否有2.txt中的文字;有的反馈在3.txt(任意一个词组相符);没有的反馈在4.txt
初步想法是先提取网站主页代码,然后比对,不知道思路是否正确。
作者: weichenxiehou    时间: 2011-10-31 18:43

这么宽泛的问题估计没人愿意回答哦,毕竟别人并不是都有充足的时间,解答问题也是很有针对性的,也就是都乐意回答那种比较细比较具体的问题。
作者: awk    时间: 2011-10-31 21:59

wget
curl
grep
findstr
作者: pyhx    时间: 2011-11-1 08:30

不好意思,上面说的不是太明白,具体点儿吧
1.txt------网址 如www.0371hz.com;www.baidu.com等
2.txt------敏感字  色情  成人等
要求执行程序,自动访问1.txt;对比是否有2.txt中的文字;有的反馈在3.txt(任意一个词组相符);没有的反馈在4.txt
初步想法是先提取网站主页代码,然后比对,不知道思路是否正确。
作者: broly    时间: 2011-11-1 09:00

希望楼主下次发帖求助能把问题在顶楼一次性说清楚,正如2楼说的,大家都没有很充足的时间来等你把问题说清楚了再回答。所有,你有没发现此贴没什么人回答?
作者: broly    时间: 2011-11-1 12:33

你在本论坛搜索 wget 工具,把它跟批处理放一起运行
  1. @echo off
  2. rem 1.txt每行一个网址
  3. rem 2.txt关键词用空格隔开,写在一行
  4. for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
  5. for /f "delims=" %%i in (1.txt) do (
  6. wget -O $ %%i
  7. findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
  8. )
  9. del $ /q
复制代码

作者: pyhx    时间: 2011-11-1 14:24

不好意思,为什么总反馈1.txt中所有的网址,没有比对出来啊
作者: broly    时间: 2011-11-1 14:36

回复 7# pyhx


    我是测试成功了才发出来的。
而且,你直接问为什么,我很难回答你的问题。你又忘了我前面说过的话了?
作者: pyhx    时间: 2011-11-1 15:00

呵呵,不好意思
能不能把qq号码给我
--14:34:09--  http://www.0371hz.com:80/
           => `$'
Connecting to www.0371hz.com:80... connected!
HTTP request sent, awaiting response...
Read error (No such file or directory) in header
Giving up.

--14:34:10--  http://www.zy56.com.cn:80/
           => `$'
Connecting to www.zy56.com.cn:80... connected!
HTTP request sent, awaiting response... 200 OK
Length: 23,379 [text/html]

    0K -> .......... .......... ..

14:59:20 (15.49 B/s) - `$' saved [23379/23379]
结果只反馈了一个4.txt,并且里面是所有的地址
作者: pyhx    时间: 2011-11-1 15:08

我刚才又试了一下,如果我输入的敏感词是河南,则反馈了结果。如果我输入的是成人,就查不出来了。
可是http://www.0371hz.com,明明主页代码里面就有啊
作者: broly    时间: 2011-11-1 15:12

回复 9# pyhx


    我知道哪里出错了。你的网页有的下载不了,有的可以下载,所以就造成了这个现象。
作者: pyhx    时间: 2011-11-1 15:24

网页有的下载不了,那该咋办啊?版主
我真的不是太了解
作者: pyhx    时间: 2011-11-1 16:08

我可以用浏览器打开上面http://www.0371hz.com/,但是不能用批处理打开。为啥,该咋解决啊
作者: broly    时间: 2011-11-1 18:03

换curl工具试试看:http://bbs.bathome.net/thread-1761-1-1.html
  1. @echo off
  2. rem 1.txt每行一个网址
  3. rem 2.txt关键词用空格隔开,写在一行
  4. for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
  5. for /f "delims=" %%i in (1.txt) do (
  6.         curl -o $ %%i
  7.         findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
  8. )
  9. del $ /q
复制代码

作者: wc726842270    时间: 2011-11-1 18:59

至于能下载的网站,我仅想说处理好"编码"是关键,
注:以上的代码我并没有实践
作者: pyhx    时间: 2011-11-2 08:58

我试了一下,还是一样的情况,那个http://www.0371hz.com打不开。
换个思路,能不能把这些网站的ip地址显示出来?
作者: pyhx    时间: 2011-11-2 17:02

各位大哥,谁帮帮忙啊




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2