[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 批处理采集51voa美国之音网站内容(curl、htox32c)

本帖最后由 pcl_test 于 2016-11-9 20:54 编辑

http://www.51voa.com/Go_English_1.html

将这个网站下级链接采集成文本文件。

文本内容包含标题,结尾至“这次的美语三级跳就播送到这里。”

如果mp3音频也一并采集下来,最好。

怎么来处理呢?谢谢!

本帖最后由 namejm 于 2011-4-9 01:49 编辑

基本思路:curl下载网页、htox32c转换网页为文本、wfr转换utf-8编码为ANSI
代码及教程在此:下载51VOA网站上《美语三级跳 Go English》中的文本及音频(http://bbs.bathome.net/viewthread.php?tid=11817

顺便提醒楼主一下:“网站文本采集”这样的标题过于宽泛,属“标题模糊”的违规情形,请更换一个更加具体的标题,含有更多或更精准的关键词,使得后来的人能通过相关的关键词迅速找到本帖。
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。

心在天山,身老沧州。

TOP

返回列表