找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 22446|回复: 2

[问题求助] [已解决]VBS如何批量从网页文件中提取出网址内容?

[复制链接]
发表于 2014-3-5 16:47:57 | 显示全部楼层 |阅读模式
本地文件夹有大量的htm、html和mht文件,
里面有网址链接如:
http://www.xxxx/....../xxxx.com
http://www.xxxx/....../xxxx.cn
http://www.xxxx/....../xxxx.html
如何在文件夹内建个vbs从这些网页文件中把链接提取出来,
保存在一个TXT里面,对它们按提取页面顺序排列进行分类并去掉重复。
页面和页面之间可以空行分开。
提取部分:
1.
http://到.com之间的内容
2.
http://到.cn之间的内容
3.
http://到.html之间的内容


比如有个文件有记事本打开,其他的也有部分带这样的链接:
href="http://www.baidu.com"
target=_blank>http://www.baidu.com</A><BR><A
href="http://189.cn"
target=_blank>http://189.cn</A><BR><A
href="http://bbs.xunlei.com/forum-154-1.html"
href="http://bbs.xunlei.com/forum-154-10.html"
href="http://bbs.xunlei.com/forum-154-11.html"
href="http://bbs.xunlei.com/forum-154-12.html"
href="http://bbs.xunlei.com/forum-154-2.html"
href="http://bbs.xunlei.com/forum-154-3.html"
href="http://bbs.xunlei.com/forum-154-4.html"
href="http://bbs.xunlei.com/forum-154-5.html"
href="http://bbs.xunlei.com/forum-154-6.html"
href="http://bbs.xunlei.com/forum-154-7.html"
href="http://bbs.xunlei.com/forum-154-8.html"
href="http://bbs.xunlei.com/forum-154-9.html"

最后把它们弄成下面这样,弄到一个文本里面:

http://www.baidu.com

http://189.cn

http://bbs.xunlei.com/forum-154-1.html
http://bbs.xunlei.com/forum-154-2.html
http://bbs.xunlei.com/forum-154-3.html
http://bbs.xunlei.com/forum-154-4.html
http://bbs.xunlei.com/forum-154-5.html
http://bbs.xunlei.com/forum-154-6.html
http://bbs.xunlei.com/forum-154-7.html
http://bbs.xunlei.com/forum-154-8.html
http://bbs.xunlei.com/forum-154-9.html
http://bbs.xunlei.com/forum-154-10.html
http://bbs.xunlei.com/forum-154-11.html
http://bbs.xunlei.com/forum-154-12.html

评分

参与人数 1PB +2 收起 理由
Batcher + 2 感谢给帖子标题标注[已解决]字样

查看全部评分

发表于 2014-3-5 17:22:00 | 显示全部楼层
选择一个htm文件,压缩,上传,以便大家测试代码。
发表于 2014-3-7 11:34:18 | 显示全部楼层
  1. Set fso = CreateObject("Scripting.FileSystemObject")
  2. For Each f in fso.GetFolder(".").Files
  3.     ext = LCase(fso.GetExtensionName(f))
  4.     If ext = "htm" or ext = "html" or ext = "mht" Then
  5.         txt = fso.OpenTextFile(f).ReadAll
  6.         fso.OpenTextFile(f & ".txt", 2, true).Write GetUrl(txt)
  7.     End If
  8. Next
  9. MsgBox "OK"

  10. Function GetUrl(str)
  11.     Set re = New RegExp
  12.     re.Pattern = "http://[\w\.\-/]+\.(com|cn|html)"
  13.     re.Global = True
  14.     re.IgnoreCase = True
  15.     For Each m in re.Execute(str)
  16.         If InStr(s, m & vbCrLf) = 0 Then s = s & m & vbCrLf
  17.     Next
  18.     GetUrl = s
  19. End Function
复制代码

评分

参与人数 1技术 +1 收起 理由
xp3000 + 1 谢谢很好用

查看全部评分

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-16 22:03 , Processed in 0.023486 second(s), 9 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表