[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

【已解决】30元扒网站数据

本帖最后由 lxh623 于 2018-9-25 19:50 编辑

http://www.chinapoesy.com/XianDaiAuthorList_1.html
有十个栏目,别的栏目左上,点击“XX诗人”可以到类似上面的网页。只有全唐诗好像没有。
想得到标题,如里面的链接文字。http://www.chinapoesy.com/XianDa ... A-3F3847ED3F05.html
点开这个得到诗歌名字、作者名字,和正文。作者前面,最好加个“作者:”。
正文最好就是那部分的html代码。
四个字段一行。用制表符或者别的规则符号隔开。

想做一个MDX字典。
不太懂电脑。有个最简单的例子。下面的文本可以做成字典。(说实话,我自己希望,下载了再来自己编辑标题字段,按照人气数据排序。再打包。)

05-第五课
第五课<br>系<br>我系屋企<br>餐厅系一楼<br>车站系对面<br>厕所系左手边<br>说说看,看图来记忆:<br>我住系附近<br>公园<br>图书馆<br>百货公司<br>医院<br>超级市场<br>邮局<br> 会话一<br>厕所系边度呀?<br>系前面转左。<br>唔该。<br>会话二<br>系边度等你呀?<br>系火车站出口。<br>好呀。<br> 小词库<br>厕所、<br>边度、<br>前面、<br>转左、<br>火车站、<br>出口
</>
06-第六课
第六课<br>系边度呀?<br>海关系边度呀?<br>差馆系边度呀?<br>医院系边度呀?<br>课室系边度呀?<br>说说看,看图来记忆:<br>系边度呀?<br>邮局<br>车站<br>学校<br>银行<br>差馆<br>餐厅<br>会话一:<br>唔该地铁站系边度呀?<br>系前面转右。<br>好呀,唔该。<br>会话二:<br>边度有快餐店呀?<br>系车站隔离。<br>唔该晒。<br> 小词库:<br>地铁站、<br>前面、<br>转右、<br>快餐店、<br>隔离、<br>唔该晒
</>

谢谢诸位!!!

回复 2# flashercs
想获得更多的栏目,不只是唐诗。
另外,想得到带有人气数据那一个作为标题。
谢谢!!

TOP

本帖最后由 lxh623 于 2018-9-22 15:38 编辑

回复 6# WHY
各位大侠,想得到第二个链接的人气数字。
文本格式,用制表符分隔。
最后一个字段——正文的转行用html原有的,或者容易替换到“<br>”的。
谢谢!!

TOP

本帖最后由 lxh623 于 2018-9-22 15:48 编辑

回复 8# WHY
爱情故事 (136569)        爱情故事        北岛        毕竟,只有一个世界<br>为我们准备了成熟的夏天<br>我们却按成年人的规则<br>继续着孩子的游戏<br>不在乎倒在路旁的人<br>也不在乎搁浅的船<br><br>然而,造福于恋人的阳光<br>也在劳动者的脊背上<br>铺下漆黑而疲倦的夜晚<br>即使在约会的小路上<br>也会有仇人的目光相遇时<br>降落的冰霜<br><br>这不再是一个简单的故事<br>在这个故事了<br>有你和我,还有很多人<br>

网页不是<br>,可以用网页的 <br />等等。

另外一个朋友的代码,没有第一个字段,也没有转行代码。

谢谢!!!

TOP

回复 10# WHY
http://www.chinapoesy.com/TangShi1166.html
这个结果没有转行代码。唐诗多半吧,宋词好得多。
下载了唐诗宋词,就停了。
再麻烦一下。

另外,可以不下载宋词那个栏目。希望是全宋词,http://www.chinapoesy.com/SongCiAllIndex_1.html
追加二十元,全唐诗。既然,做得到。这个要麻烦一些。需要单独一个脚本。
打开http://www.chinapoesy.com/TangShiAllIndex.html
每一卷打开,得到诗人的链接,写入文本。900卷。最后删除重复的,大约二千多诗人。然后每一个链接去获取。而且,每一个诗人可能多页,李白有18页。
做得到的话,也就不用下载唐诗。
祝你开心!

TOP

本帖最后由 lxh623 于 2018-9-23 09:50 编辑

回复 14# WHY
总是一些转行,一些没有,因为网页有不同格式。
比如,http://www.chinapoesy.com/Foreig ... 2-F65E55B14201.html
可能网页没有任何转行代码。

请问,可以获得前三个字段为一行。(有两个制表符,可能用不着加A)
然后,诗歌正文用网页看得见的样子。会不会更好??
例如:
爱情故事 (136569)        爱情故事        北岛        
毕竟,只有一个世界
为我们准备了成熟的夏天
我们却按成年人的规则
继续着孩子的游戏
不在乎倒在路旁的人
也不在乎搁浅的船

然而,造福于恋人的阳光
也在劳动者的脊背上
……………

麻烦了!

TOP

本帖最后由 lxh623 于 2018-9-23 15:01 编辑

回复 16# flashercs
外国诗歌下载1923就停了,大约3245个。
全唐诗怎么下载?
主要这两个。

谢谢!!

TOP

本帖最后由 lxh623 于 2018-9-23 14:59 编辑

回复 13# WHY

全唐诗怎么没有第一个字段,数字那个。
得到42328,网站说43000多。不知道哪里少了?
谢谢!!

TOP

回复 19# flashercs
外国诗歌是我复制到文本,http://www.chinapoesy.com/ForeignAuthorList_1.html,处理得到数字,excel汇总的。您的是报错退出的?
再来一次,还是1923 。

全唐诗明天我再看看,数字字段,我知道,也是最后要处理到的样式。

TOP

回复 16# flashercs
下载了全唐诗,哪里修改代码,不再下载。谢谢!!

TOP

回复 26# WHY

谢谢了!不好意思让您辛苦了!祝您节日快乐!

TOP

返回列表