标题: [文本处理] 批处理如何提取源代码中的网址? [打印本页]
作者: daohe 时间: 2010-4-7 11:06 标题: 批处理如何提取源代码中的网址?
我的思路
1.源代码保存为a.txt
提取每行<a href="到">之间的内容到b.txt
2.删除b.txt里的重复行生成c.txt
3.在c.txt每行前加http://www.abc.com补全地址
请高手帮忙写写,谢谢!
[attach]2348[/attach]
[ 本帖最后由 daohe 于 2010-4-7 11:25 编辑 ]
作者: namejm 时间: 2010-4-7 11:13
请在顶楼给出网页原始文件,不交代任何格式的数据,任你是神仙也无法提取出你想要的部分。
还有,在这个帖子里发表的内容,不要去引用其他帖子里的数据,请直接在这个帖子里发出来——试问谁有这个耐心把你以前所提的问题拿出来细细梳理一遍?浪费别人的时间是求助时的大忌。
作者: asnahu 时间: 2010-4-7 12:18
如斑竹所说你的表达很模糊。大概猜测是想提取网页中的图片:
- wget -O - "http://www.alfredangelo.com/Collections/displayCollection.aspx?CategoryId=32e5a88c-cbf1-498f-afcf-dbfca138c5d3" | sed "s/\x22/\n/g" | sed "/^Pro/!d; s/\&/\&/g" | sed "s/^/http:\/\/www.alfredangeloanz.com\/Collections\//"
复制代码
代码中使用了两个第三方软件,本论坛有下载。如想实现更多的功能,还须深入研究网页的构造。
[ 本帖最后由 asnahu 于 2010-4-7 12:32 编辑 ]
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |