标题:
[文本处理]
批处理采集51voa美国之音网站内容(curl、htox32c)
[打印本页]
作者:
Vast
时间:
2011-4-8 11:12
标题:
批处理采集51voa美国之音网站内容(curl、htox32c)
本帖最后由 pcl_test 于 2016-11-9 20:54 编辑
http://www.51voa.com/Go_English_1.html
将这个网站下级链接采集成文本文件。
文本内容包含标题,结尾至“这次的美语三级跳就播送到这里。”
如果mp3音频也一并采集下来,最好。
怎么来处理呢?谢谢!
作者:
namejm
时间:
2011-4-8 16:50
本帖最后由 namejm 于 2011-4-9 01:49 编辑
基本思路:curl下载网页、htox32c转换网页为文本、wfr转换utf-8编码为ANSI
代码及教程在此:下载51VOA网站上《美语三级跳 Go English》中的文本及音频(
http://bbs.bathome.net/viewthread.php?tid=11817
)
顺便提醒楼主一下:“网站文本采集”这样的标题过于宽泛,属“标题模糊”的违规情形,请更换一个更加具体的标题,含有更多或更精准的关键词,使得后来的人能通过相关的关键词迅速找到本帖。
欢迎光临 批处理之家 (http://bbs.bathome.net/)
Powered by Discuz! 7.2