[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

【已解决】抓取两个网站的文章

本帖最后由 lxh623 于 2018-10-7 08:06 编辑

http://www.ceasm.com/
http://www.1juzi.com/juzidaquan/


两个都有八个一级栏目。二级栏目,第一个在下面“栏目导航”那里,第二个就在下面粉色的文字。
希望是进到二级栏目,抓取文章,有些文章有多页。文章标题加A 。正文在标题后面,每一段落为文本的一行。
比如,第一个网站第一个二级栏目的第一篇:(行首空格,我可以删除的。)

A不到不可怕,守不住才是个笑话
经典语录:不到不可怕,守不住才是个笑话
1、我看我自己看了20多年才看顺眼,你看我不顺眼很正常。我活着也不是为了取悦你。
2、我要的,只是简单而安稳的生活,最好的幸福,是你给的在乎。

一个网站 30元,谢谢大家!!

回复 6# WHY
麻烦帮我看一看。经典语录这里退出了。谢谢!
祝大家国庆节快乐!!

TOP

回复 8# WHY
谢谢!使用中有个想法,以后,是不是尽可能用网页字符代码。

TOP

回复 5# WHY
求保持网页代码的办法。因为有乱码。

TOP

回复 12# WHY
http://www.1juzi.com/new/6228.html
还有签名大全里面有很多自创字符,EmEditor打开编辑后有乱码。

另一个兄弟是保存为同一编码的文本。

所以,我觉得,编码可能一样更好。UTF-8和GB,有些字符会变化。
谢谢!国庆节快乐!

TOP

有些标题没有抓到,请再帮我看看。
比如,http://www.1juzi.com/new/122019.html
我试着抓了一千页,没有得到该页标题。
谢谢!

TOP

本帖最后由 lxh623 于 2018-10-3 16:36 编辑

再来一个网站。
http://www.lz13.cn/
二级链接就是上面两行栏目的链接。以及最下面一行的“资料”及倒数第二行作文大全 诗词名句 读后感 观后感 读书笔记 好词好句 祝福语 经典台词 个性签名 教育教学 日志大全 等等。
暂时不知道网页还有更多的链接不。
要求与上面一样。标题加个A 。
谢谢!!

TOP

回复 16# WHY
第25(或者15)行第五个字符。退出了。
大约http://www.1juzi.com/new/4099.html后面。
谢谢!

TOP

回复 21# flashercs
站内短信,您没有回复。另一个您可以问一问。
这个脚本下载了1860k,就停了。
昨天,我自己把网页下载了,也是个办法。我也是觉得做成字典,可以自己看看,别人写作也可以参考,不是赚钱的。花一点点钱,玩一玩。当然,感谢大家帮助。

TOP

返回列表