[文本处理] 批处理如何提取源代码中的网址？

我的思路
1.源代码保存为a.txt
提取每行<a href="到">之间的内容到b.txt

2.删除b.txt里的重复行生成c.txt

3.在c.txt每行前加http://www.abc.com补全地址

请高手帮忙写写，谢谢！

[attach]2348[/attach]

[ 本帖最后由 daohe 于 2010-4-7 11:25 编辑 ]

namejm

荣誉版主

Rank: 8 Rank: 8

帖子: 1348
积分: 5192
技术: 145
捐助: 501
注册时间: 2007-10-25

2楼

发表于 2010-4-7 11:13 | 只看该作者

请在顶楼给出网页原始文件，不交代任何格式的数据，任你是神仙也无法提取出你想要的部分。
还有，在这个帖子里发表的内容，不要去引用其他帖子里的数据，请直接在这个帖子里发出来——试问谁有这个耐心把你以前所提的问题拿出来细细梳理一遍？浪费别人的时间是求助时的大忌。

尺有所短寸有所长，学好批处理没商量；
考虑问题复杂化，解决问题简洁化。
心在天山，身老沧州。

TOP

asnahu

中尉

Rank: 5 Rank: 5

帖子: 206
积分: 963
技术: 16
捐助: 0
注册时间: 2008-3-9

3楼

发表于 2010-4-7 12:18 | 只看该作者

如斑竹所说你的表达很模糊。大概猜测是想提取网页中的图片：

wget -O - "http://www.alfredangelo.com/Collections/displayCollection.aspx?CategoryId=32e5a88c-cbf1-498f-afcf-dbfca138c5d3" | sed "s/\x22/\n/g" | sed "/^Pro/!d; s/\&amp;/\&/g" | sed "s/^/http:\/\/www.alfredangeloanz.com\/Collections\//"
复制代码

代码中使用了两个第三方软件，本论坛有下载。如想实现更多的功能，还须深入研究网页的构造。

[ 本帖最后由 asnahu 于 2010-4-7 12:32 编辑 ]

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 批处理如何提取源代码中的网址？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]