[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 批处理如何提取源代码中的网址?

我的思路
1.源代码保存为a.txt
            提取每行<a href="到">之间的内容到b.txt


2.删除b.txt里的重复行生成c.txt

3.在c.txt每行前加http://www.abc.com补全地址

请高手帮忙写写,谢谢!

[attach]2348[/attach]

[ 本帖最后由 daohe 于 2010-4-7 11:25 编辑 ]

请在顶楼给出网页原始文件,不交代任何格式的数据,任你是神仙也无法提取出你想要的部分。
还有,在这个帖子里发表的内容,不要去引用其他帖子里的数据,请直接在这个帖子里发出来——试问谁有这个耐心把你以前所提的问题拿出来细细梳理一遍?浪费别人的时间是求助时的大忌。
尺有所短寸有所长,学好批处理没商量;
考虑问题复杂化,解决问题简洁化。

心在天山,身老沧州。

TOP

如斑竹所说你的表达很模糊。大概猜测是想提取网页中的图片:
  1. wget -O - "http://www.alfredangelo.com/Collections/displayCollection.aspx?CategoryId=32e5a88c-cbf1-498f-afcf-dbfca138c5d3" | sed "s/\x22/\n/g" | sed "/^Pro/!d; s/\&amp;/\&/g" | sed "s/^/http:\/\/www.alfredangeloanz.com\/Collections\//"
复制代码


代码中使用了两个第三方软件,本论坛有下载。如想实现更多的功能,还须深入研究网页的构造。

[ 本帖最后由 asnahu 于 2010-4-7 12:32 编辑 ]

TOP

返回列表