批处理之家 - Powered by Discuz! Board

标题: [文本处理] 批处理如何提取源代码中的网址？ [打印本页]

作者: daohe 时间: 2010-4-7 11:06 标题: 批处理如何提取源代码中的网址？

我的思路
1.源代码保存为a.txt
提取每行<a href="到">之间的内容到b.txt

2.删除b.txt里的重复行生成c.txt

3.在c.txt每行前加http://www.abc.com补全地址

请高手帮忙写写，谢谢！

[attach]2348[/attach]

[ 本帖最后由 daohe 于 2010-4-7 11:25 编辑 ]

作者: namejm 时间: 2010-4-7 11:13

请在顶楼给出网页原始文件，不交代任何格式的数据，任你是神仙也无法提取出你想要的部分。
还有，在这个帖子里发表的内容，不要去引用其他帖子里的数据，请直接在这个帖子里发出来——试问谁有这个耐心把你以前所提的问题拿出来细细梳理一遍？浪费别人的时间是求助时的大忌。

作者: asnahu 时间: 2010-4-7 12:18

如斑竹所说你的表达很模糊。大概猜测是想提取网页中的图片：

wget -O - "http://www.alfredangelo.com/Collections/displayCollection.aspx?CategoryId=32e5a88c-cbf1-498f-afcf-dbfca138c5d3" | sed "s/\x22/\n/g" | sed "/^Pro/!d; s/\&amp;/\&/g" | sed "s/^/http:\/\/www.alfredangeloanz.com\/Collections\//"
复制代码

代码中使用了两个第三方软件，本论坛有下载。如想实现更多的功能，还须深入研究网页的构造。

[ 本帖最后由 asnahu 于 2010-4-7 12:32 编辑 ]

欢迎光临批处理之家 (http://bbs.bathome.net/)