Rank: 1

帖子: 8
积分: 12
技术: 0
捐助: 0
注册时间: 2010-12-12

1楼 跳转到 » 倒序看帖

字体大小: tT

发表于 2010-12-12 10:27 | 只看该作者

[文本处理] 批处理怎样提取多个文本内的网址？

我电脑上现在有好多个 txt文件 download(1).txt 到 download(10000).txt
里面的内容如下
download(1).txt 内容

 文件名称：AN7173NK.gif 文件大小：11KB 下载地址：
http://www.jddl.net/hm/download/gif/chip/c/CXA11s33.gif

download(2).txt 内容
 文件名称：CXA1191M.gif 文件大小：12KB 下载地址：http://www.jddl.net/hm/download/gif/chip/c/CXA1191M.gif

其他文本内容都大概相似，但是下载地址后缀不都是gif 有pdf的有rar的。现在想把所有文本里的网址都提取出来放到一个新的文本里一行显示一个地址，也就是这样
http://www.jddl.net/hm/download/gif/chip/c/CXA11s33.gif
http://www.jddl.net/hm/download/gif/chip/c/CXA1191M.gif

希望有高人能帮忙解决下

hanyeguxing

荣誉版主

Rank: 8 Rank: 8

帖子: 1739
积分: 4955
技术: 255
捐助: 0
注册时间: 2009-6-11

2楼

发表于 2010-12-12 11:15 | 只看该作者

你提供的两个样本不一致，最好把一个文本直接贴上来或传上来。。。

寒夜孤星：在没有说明的情况下，本人所有代码均运行在 XP SP3 下（有问题请发贴，QQ临时会话已关闭）

TOP

broly

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 881
积分: 2103
技术: 95
捐助: 55
注册时间: 2010-5-23

3楼

发表于 2010-12-12 12:15 | 只看该作者

VBS

'VBS用正则表达式提取网址
'CODE BY Broly
Dim fso,re,f,txt,objm
Set fso=CreateObject("Scripting.Filesystemobject")
Set re=New RegExp
re.Global=True
re.IgnoreCase=True
re.Pattern="http://www\.jddl\.net/hm/download/gif/chip/c/\w+.\w+"
For i=1 To 2
 Set f=fso.OpenTextFile("download("&i&").txt",1,false)
 Set objm=re.Execute(f.ReadAll)
 For Each ma In objm
   s=ma.Value & Chr(13) & Chr(10) & s
 Next
 f.Close
Next
Set txt=fso.CreateTextFile("url.txt",true)
txt.WriteLine(s)
txt.Close
WScript.Echo "已保存为url.txt"  '此行可以删了
复制代码

---学无止境---

TOP

ccfxy

列兵

Rank: 1

帖子: 8
积分: 12
技术: 0
捐助: 0
注册时间: 2010-12-12

4楼

发表于 2010-12-12 12:31 | 只看该作者

用3楼的办法已经解决了多谢 3楼这里真是个好地方

TOP

broly

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 881
积分: 2103
技术: 95
捐助: 55
注册时间: 2010-5-23

5楼

发表于 2010-12-12 12:40 | 只看该作者

回复 4楼的帖子

对了，你把For i=1 To 2
改为For i=1 To 10000吧。
我测试时用2个文本测试。你的文本是有10000个
忘记修改回来了

---学无止境---

TOP

ccfxy

列兵

Rank: 1

帖子: 8
积分: 12
技术: 0
捐助: 0
注册时间: 2010-12-12

6楼

发表于 2010-12-12 12:46 | 只看该作者

又发现个问题那个网址目录结构有好多都不一样而且文件名有中文的都提取不出来不知还有什么方法解决不

TOP

ccfxy

列兵

Rank: 1

帖子: 8
积分: 12
技术: 0
捐助: 0
注册时间: 2010-12-12

7楼

发表于 2010-12-12 12:47 | 只看该作者

http://www.jlgl.net/\w+/\w+/\w+/\w+/\w+.\w+ 我把网址改成这样了但是有的目录层数不一样也提取不出来还有就是中文文件名无法提取

TOP

broly

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 881
积分: 2103
技术: 95
捐助: 55
注册时间: 2010-5-23

8楼

发表于 2010-12-12 13:04 | 只看该作者

re.Pattern="http://www\.jddl\.net/.+\.\w+"
复制代码

---学无止境---

TOP

ccfxy

列兵

Rank: 1

帖子: 8
积分: 12
技术: 0
捐助: 0
注册时间: 2010-12-12

9楼

发表于 2010-12-12 13:42 | 只看该作者

全部搞定多谢Broly

以后得好好学习学习

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 批处理怎样提取多个文本内的网址？

回复 4楼的帖子

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

[文本处理] 批处理怎样提取多个文本内的网址？

回复 4楼 的帖子

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

回复 4楼的帖子