Board logo

标题: [文本处理] 批处理如何提取源代码中的网址? [打印本页]

作者: daohe    时间: 2010-4-7 11:06     标题: 批处理如何提取源代码中的网址?

我的思路
1.源代码保存为a.txt
            提取每行<a href="到">之间的内容到b.txt


2.删除b.txt里的重复行生成c.txt

3.在c.txt每行前加http://www.abc.com补全地址

请高手帮忙写写,谢谢!

[attach]2348[/attach]

[ 本帖最后由 daohe 于 2010-4-7 11:25 编辑 ]
作者: namejm    时间: 2010-4-7 11:13

请在顶楼给出网页原始文件,不交代任何格式的数据,任你是神仙也无法提取出你想要的部分。
还有,在这个帖子里发表的内容,不要去引用其他帖子里的数据,请直接在这个帖子里发出来——试问谁有这个耐心把你以前所提的问题拿出来细细梳理一遍?浪费别人的时间是求助时的大忌。
作者: asnahu    时间: 2010-4-7 12:18

如斑竹所说你的表达很模糊。大概猜测是想提取网页中的图片:
  1. wget -O - "http://www.alfredangelo.com/Collections/displayCollection.aspx?CategoryId=32e5a88c-cbf1-498f-afcf-dbfca138c5d3" | sed "s/\x22/\n/g" | sed "/^Pro/!d; s/\&amp;/\&/g" | sed "s/^/http:\/\/www.alfredangeloanz.com\/Collections\//"
复制代码


代码中使用了两个第三方软件,本论坛有下载。如想实现更多的功能,还须深入研究网页的构造。

[ 本帖最后由 asnahu 于 2010-4-7 12:32 编辑 ]




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2