批处理怎样打开网页代码并搜索特定文字？

pyhx · 发表于 2011-10-31 14:30:30

本帖最后由 pyhx 于 2011-11-1 09:10 编辑

我搞了个服务器，租给了一些人做网站，因为网警经常查，所以我要不定时打开他们的主页看看我服务器上有没有一些色情啊政治啊敏感内容。现在就想通过批处理打开这些网站主页代码，然后查找是否有特定的敏感字眼。那位高手帮忙说说
不好意思，上面说的不是太明白，具体点儿吧
1.txt------网址如www.0371hz.com;www.baidu.com等
2.txt------敏感字色情成人等
要求执行程序，自动访问1.txt；对比是否有2.txt中的文字；有的反馈在3.txt（任意一个词组相符）；没有的反馈在4.txt
初步想法是先提取网站主页代码，然后比对，不知道思路是否正确。

weichenxiehou · 发表于 2011-10-31 18:43:51

这么宽泛的问题估计没人愿意回答哦，毕竟别人并不是都有充足的时间，解答问题也是很有针对性的，也就是都乐意回答那种比较细比较具体的问题。

awk · 发表于 2011-10-31 21:59:09

wget
curl
grep
findstr

pyhx · 发表于 2011-11-1 08:30:19

不好意思，上面说的不是太明白，具体点儿吧
1.txt------网址如www.0371hz.com;www.baidu.com等
2.txt------敏感字色情成人等
要求执行程序，自动访问1.txt；对比是否有2.txt中的文字；有的反馈在3.txt（任意一个词组相符）；没有的反馈在4.txt
初步想法是先提取网站主页代码，然后比对，不知道思路是否正确。

broly · 发表于 2011-11-1 09:00:23

希望楼主下次发帖求助能把问题在顶楼一次性说清楚，正如2楼说的，大家都没有很充足的时间来等你把问题说清楚了再回答。所有，你有没发现此贴没什么人回答？

broly · 发表于 2011-11-1 12:33:57

你在本论坛搜索 wget 工具，把它跟批处理放一起运行

@echo off
rem 1.txt每行一个网址
rem 2.txt关键词用空格隔开，写在一行
for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
for /f "delims=" %%i in (1.txt) do (
wget -O $ %%i
findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
)
del $ /q

复制代码

pyhx · 发表于 2011-11-1 14:24:41

不好意思，为什么总反馈1.txt中所有的网址，没有比对出来啊

broly · 发表于 2011-11-1 14:36:43

回复 7# pyhx

我是测试成功了才发出来的。
而且，你直接问为什么，我很难回答你的问题。你又忘了我前面说过的话了？

pyhx · 发表于 2011-11-1 15:00:51

呵呵，不好意思
能不能把qq号码给我
--14:34:09--  http://www.0371hz.com:80/
         => `$'
Connecting to www.0371hz.com:80... connected!
HTTP request sent, awaiting response...
Read error (No such file or directory) in header
Giving up.

--14:34:10--  http://www.zy56.com.cn:80/
         => `$'
Connecting to www.zy56.com.cn:80... connected!
HTTP request sent, awaiting response... 200 OK
Length: 23,379 [text/html]

0K -> .......... .......... ..

14:59:20 (15.49 B/s) - `$' saved [23379/23379]
结果只反馈了一个4.txt，并且里面是所有的地址

pyhx · 发表于 2011-11-1 15:08:11

我刚才又试了一下，如果我输入的敏感词是河南，则反馈了结果。如果我输入的是成人，就查不出来了。
可是http://www.0371hz.com，明明主页代码里面就有啊

broly · 发表于 2011-11-1 15:12:48

回复 9# pyhx

我知道哪里出错了。你的网页有的下载不了，有的可以下载，所以就造成了这个现象。

pyhx · 发表于 2011-11-1 15:24:52

网页有的下载不了，那该咋办啊？版主
我真的不是太了解

pyhx · 发表于 2011-11-1 16:08:40

我可以用浏览器打开上面http://www.0371hz.com/，但是不能用批处理打开。为啥，该咋解决啊

broly · 发表于 2011-11-1 18:03:30

换curl工具试试看：http://bbs.bathome.net/thread-1761-1-1.html

@echo off
rem 1.txt每行一个网址
rem 2.txt关键词用空格隔开，写在一行
for /f "delims=" %%i in (2.txt) do set "keyword=%%i"
for /f "delims=" %%i in (1.txt) do (
curl -o $ %%i
findstr /i /r %keyword% $ && echo %%i>>3.txt || echo %%i>>4.txt
)
del $ /q

复制代码

wc726842270 · 发表于 2011-11-1 18:59:32

至于能下载的网站,我仅想说处理好"编码"是关键,
注:以上的代码我并没有实践

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[网络连接] 批处理怎样打开网页代码并搜索特定文字？