[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 批处理如何从多个htm文件中提取有规则url?

求助,求助,

有多个*.htm文件,现要从中提取所需的URL。
如下
  1. <a href="http://item.taobao.com/item.htm?id=8099035641" target="_blank"><img
复制代码
我要提取其中的http://item.taobao.com/item.htm?id=8099035641
然后一行一条放入1.txt文件内

现知,只要符合这个正则表达式<a href="(.+?)" target="_blank"><img 都是需要的URL。
怎么写bat,我看了半天看不懂。T_T

vbs正则提取
Dim FSO, Path, vbStr, File, REGEX
Path = CreateObject("Wscript.Shell").CurrentDirectory
Set FSO = CreateObject("Scripting.FileSystemObject")
For Each File In FSO.GetFolder(Path).Files
...
ArdentMan 发表于 2011-7-10 11:47



没有输出?

TOP

@echo off
(for /f tokens^=2delims^=^" %%i in ('Findstr /c:"1.txt

lvsehuaxue 发表于 2011-7-10 11:13



主要是后缀要符合后面这个条件: target="_blank"><img

这句怎么写呢?
还有运行起来怎么只能一个htm文件有效,多个就无效喽。

TOP

@echo off
(for /f tokens^=2delims^=^" %%i in ('Findstr /c:"1.txt

lvsehuaxue 发表于 2011-7-10 11:13



哦,多少文件都行,刚才我设置错误了,呵呵,现在可以了,但是就是提取出来的,比目标的多,因为我后面需要一个必要条件,后面跟着 target="_blank"><img

这个不知道怎么加。。。

2楼和6楼的,我都试了,2楼的出来就把整个文件用txt格式又重新输出了,6楼输出空白的txt文件。
目前就只有四楼的可以哦。

TOP

如何提取中间的URL

  1. <textarea wrap="hard" cols="70" rows="6" readonly="readonly" onclick="this.select();" id="txt_urlcode" name="foroverflow">http://www.taobao.com/t_1?i=qXssIzFlOef33HI%3D&p=12_10011550_0_0&n=11</textarea>
复制代码
要提取中间的URL,怎么实现呢?

http://www.taobao.com/t_1?i=qXss ... 011150_0_0&n=11

TOP

15# zm900612


用同样的方法,我试了,提取不了我另外一个帖子发的内容。

TOP

返回列表