注册
登录
论坛
搜索
帮助
导航
私人消息 (0)
公共消息 (0)
论坛任务 (0)
系统消息 (0)
好友消息 (0)
帖子消息 (0)
批处理之家
»
BAT求助&讨论
» 批处理采集51voa美国之音网站内容(curl、htox32c)
[新手上路]
批处理新手入门导读
[视频教程]
批处理基础视频教程
[视频教程]
VBS基础视频教程
[批处理精品]
批处理版照片整理器
[批处理精品]
纯批处理备份&还原驱动
[批处理精品]
CMD命令50条不能说的秘密
[在线下载]
第三方命令行工具
[在线帮助]
VBScript / JScript 在线参考
返回列表
发帖
Vast
发短消息
加为好友
Vast
当前离线
UID
19937
帖子
16
精华
0
积分
126
PB
126
技术
0
捐助
0
阅读权限
20
在线时间
15 小时
注册时间
2009-11-23
最后登录
2019-12-26
一级士官
帖子
16
积分
126
技术
0
捐助
0
注册时间
2009-11-23
1
楼
跳转到
»
倒序看帖
打印
字体大小:
t
T
发表于 2011-4-8 11:12
|
只看该作者
[文本处理]
批处理采集51voa美国之音网站内容(curl、htox32c)
本帖最后由 pcl_test 于 2016-11-9 20:54 编辑
http://www.51voa.com/Go_English_1.html
将这个网站下级链接采集成文本文件。
文本内容包含标题,结尾至“这次的美语三级跳就播送到这里。”
如果mp3音频也一并采集下来,最好。
怎么来处理呢?谢谢!
收藏
分享
namejm
发短消息
加为好友
namejm
(闭关中)
当前离线
批处理代码写手
UID
5
帖子
1348
精华
8
积分
5192
PB
4236
技术
145
捐助
501
阅读权限
254
来自
四川-成都
在线时间
1842 小时
注册时间
2007-10-25
最后登录
2013-6-19
荣誉版主
帖子
1348
积分
5192
技术
145
捐助
501
注册时间
2007-10-25
2
楼
发表于 2011-4-8 16:50
|
只看该作者
本帖最后由 namejm 于 2011-4-9 01:49 编辑
基本思路:curl下载网页、htox32c转换网页为文本、wfr转换utf-8编码为ANSI
代码及教程在此:下载51VOA网站上《美语三级跳 Go English》中的文本及音频(
http://bbs.bathome.net/viewthread.php?tid=11817
)
顺便提醒楼主一下:“网站文本采集”这样的标题过于宽泛,属“标题模糊”的违规情形,请更换一个更加具体的标题,含有更多或更精准的关键词,使得后来的人能通过相关的关键词迅速找到本帖。
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。
心在天山,身老沧州。
TOP
返回列表
批处理专区: BAT CMD DOS
BAT求助&讨论
BAT教程&资料
BAT原创&转载
BAT新大陆
BAT转载代码
新手练功
出题挑战
有偿求助
第三方命令行
开源原创工具
iBAT
Take Command
其他脚本区
PowerShell求助&讨论
PowerShell教程&资料
PowerShell原创&转载
VBS求助&讨论
JS / JScript / JavaScript
VBS教程&资料
VBS原创&转载
UNIX/Linux Shell
Python
Perl
网络资源区
电脑技术研讨
精品软件交流
论坛事务区
站务交流
意见反馈
论坛公告
版主申请
交换链接
建站杂谈
活动专区
论坛总版规
[收藏此主题]
[关注此主题的新回复]
[通过 QQ、MSN 分享给朋友]