Board logo

标题: [文本处理] sed匹配html遇到的问题(基本解决了,谢谢各位) [打印本页]

作者: netdzb    时间: 2021-5-22 16:50     标题: sed匹配html遇到的问题(基本解决了,谢谢各位)

本帖最后由 netdzb 于 2021-5-22 20:09 编辑

@echo off
echo "</span></a><a href="http://www.360.com:8099/dl.php?MDEzNXRCT09G^" onclick=^"down_process2(^'159979^');"|sed -r "s/(.*)(href=)(\"http:.*\")(.*)/\3/"
上面是在windows控制台测试的代码

希望得到的结果是
"http://www.360.com:8099/dl.php?MDEzNXRCT09G"
实际运行是空行

我把代码改成shell代码,匹配的是贪婪模式,现在我也不知道怎么解决这个问题?

echo "</span></a ><a href=\"http://www.360.com:8099/dl.php?MDEzNXRCT09G\" onclick=\"down_process2(\'159979\');"|sed -r "s/(.*)(href=)(\"http:\/\/.*\")(.*)/\3/"
作者: xp3000    时间: 2021-5-22 17:05

没统计不知道全不全,包括第三方命令时
?<>()! ; ,\|&^="要加^
作者: netdzb    时间: 2021-5-22 17:18

回复 2# xp3000

我去试验一下,谢谢你。
作者: 1152    时间: 2021-5-22 17:24

回复 2# xp3000


    "不用加^
作者: netdzb    时间: 2021-5-22 17:29

回复 2# xp3000

现在难题是sed这个工具没有懒惰模式,我现在匹配出来的结果是

"http://www.360.com:8099/dl.php?MDEzNXRCT09G" onclick="
它会去匹配他最长那个引号的串。
我现在打算用vbs的正则来写不知道可行吗?
作者: netdzb    时间: 2021-5-22 17:32

回复 4# 1152

sed的匹配不支持懒惰模式,不知道有什么可行的方案?
作者: 1152    时间: 2021-5-22 17:34

回复 6# netdzb


    懒惰模式?
作者: cutebe    时间: 2021-5-22 18:24

匹配时不包含"(引号)
  1. sed -r "s#.*(\"http[[:alnum:]:?/.`~!@\#\$%^^^&-_=+(){},]*\").*#\1#" a.html
复制代码

作者: netdzb    时间: 2021-5-22 18:47

本帖最后由 netdzb 于 2021-5-22 19:10 编辑

回复 8# cutebe

运行结果不正确,我把样本fea.txt传上来了,能否帮我看一下,谢谢!
请把http的链接给提取出来。

https://javame.lanzoui.com/irgt9pcxl3e
作者: xp3000    时间: 2021-5-22 20:02

VBS:
  1. Set fso = CreateObject("Scripting.FileSystemObject")
  2. For Each f in fso.GetFolder(".").Files
  3.     ext = LCase(fso.GetExtensionName(f))
  4.     If ext = "htm" or ext = "html" or ext = "txt" Then
  5.         txt = fso.OpenTextFile(f).ReadAll
  6.         fso.OpenTextFile(f & ".txt", 2, true).Write GetUrl(txt)
  7.     End If
  8. Next
  9. MsgBox "OK"
  10. Function GetUrl(str)
  11.     Set re = New RegExp
  12.     re.Pattern = "http://[^""]+(?="")"
  13.     re.Global = True
  14.     re.IgnoreCase = True
  15.     For Each m in re.Execute(str)
  16.         If InStr(s, m & vbCrLf) = 0 Then s = s & m & vbCrLf
  17.     Next
  18.     GetUrl = s
  19. End Function
复制代码
BAT
  1. //&cls&(type *.txt|cscript -nologo -e:jscript "%~0") 2>nul>>"批量提取%~nx0.txt"&pause&exit
  2. WSH.echo(WScript.StdIn.ReadAll().match(/http:\/\/[^\"]+(?=\")/g).join('\r\n'))
复制代码

作者: cutebe    时间: 2021-5-22 21:25

  1. sed -r "s#.*(\"http[[:alnum:]:/.?%%]*\").*#\1#" fea.txt
  2. sed -r "s#.*(\"http[^^\"]*\").*#\1#" fea.txt
  3. ::for中:
  4. for /f "delims=" %%h in ('sed -r "s#.*(\"http[[:alnum:]:/.?%%]*\").*#\1#" fea.txt')do (
  5. echo %%h
  6. )
  7. for /f "delims=" %%h in ('sed -r "s#.*(\"http[^^^^\"]*).*#\1#" fea.txt')do (
  8. echo %%h"
  9. )
复制代码
  1. sed -r "s#\"#\n#g^" fea.txt|sed -n "/^http/p"
  2. sed -r "s#\"#\n#g^" fea.txt|sed "/^http/!d"
  3. sed -r "s#\"#\n#g^" fea.txt|findstr /i "^https:// ^http://"
复制代码





欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2