[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

批处理提取网页中《西游记》原文

本帖最后由 batman 于 2011-4-29 12:10 编辑

要求用批处理提取http://bbs.tt365.net.cn/viewthread.php?tid=161145网页贴子中《西游记》原文。

注意原文都是用【】括起来的,但要进行去重处理。

而这个去重处理包括去除重复出现的原文以及原文中有的短句如:

【一件破烂流丢一口钟】与【一件破烂流丢一口钟】(去除后面这句)

【悟空道:“但凭尊师教诲,只是有些道气儿,弟子便就学了。”】与【只是有些道气儿】(去除后面这句)

最后所有提取的内容输出为a.txt(一行一句),可以使用临时文件,同时请尽量不使用第三方工具。
***共同提高***

我的解:
  1. @echo off&setlocal enabledelayedexpansion
  2. more +27 %~fs0>temp.vbs
  3. temp.vbs&del /q temp.vbs&set /a n+=1
  4. (for /f "delims=" %%a in ('findstr "【" a.txt') do (
  5.     set "str=%%a"
  6.     set "str=!str:【= !"&set "str=!str:】=$ !"
  7.     for %%a in (!str!) do (
  8.         set "a=%%a"&set "flag="&set "var=!a:~,-1!"
  9.         if "!a:~-1!" equ "$" (
  10.            for %%a in (!var!) do (
  11.                if defined str!n! for /l %%b in (1,1,!n!) do if "!str%%b:%%a=!" neq "!str%%b!" set "flag=a"
  12.                if not defined flag (
  13.                   echo 【%%a】
  14.                   for %%b in (!n!) do (
  15.                       set "a=!str%%b! %%a"
  16.                       if "!a:~8000!" equ "" (
  17.                          set "str%%b=!a!"
  18.                          ) else (
  19.                          set /a n+=1&set "str!n!=%%a"
  20.                       )
  21.                   )
  22.                )
  23.             )
  24.          )            
  25.      )
  26. ))>$
  27. move $ a.txt&start a.txt&goto :eof
  28. Set http = createObject("Microsoft.XMLHTTP")
  29. http.Open "get" , "http://bbs.tt365.net.cn/viewthread.php?tid=161145" , 0
  30. http.send()
  31. Set myGet = createObject("ADODB.Stream")
  32. myGet.Mode = 3
  33. myGet.Type = 1
  34. myGet.Open()
  35. myGet.Write(http.responseBody)
  36. myGet.SaveToFile "a.txt" , 2
  37. myGet.Close
  38. Set myGet = Nothing
  39. Set http = Nothing
复制代码
***共同提高***

TOP

35# terse
结果仍有重复,请兄再测试修改。。。
***共同提高***

TOP

等下试外部看怎么样
  1. @echo off
  2. (echo Set oDOM=WScript.GetObject("http://bbs.tt365.net.cn/viewthread.php?tid=161145"^)
  3. echo Do Until oDOM.readyState="complete"
  4. echo WScript.sleep 300
  5. echo Loop
  6. echo WScript.echo oDOM.documentElement.outerText)>%temp%\tem.vbs
  7. setlocal enabledelayedexpansion
  8. (
  9. for /f "delims=" %%i in ('cscript //nologo "%temp%\tem.vbs"^|find "【"') do (
  10.     set var=&set "str=%%i"
  11.     set "str=!str:*【=【!"
  12.     set "str=!str:【= 【!"
  13.     set "str=!str:】=】 !"
  14.     for %%j in (!str!) do (
  15.         set "j=%%j"
  16.         if "%%j" neq  "!j:【=!" (
  17.            if defined var (
  18.               for /f "delims=【】" %%k in ("%%j") do (
  19.                       if "!var:%%k=!" equ "!var!" set var=!var! 【%%k】
  20.               )
  21.            )else set var=%%j
  22.         )
  23.     )
  24.     for %%j in (!var!) do echo %%j
  25. )
  26. )>tem.txt
  27. del %temp%\tem.vbs&start "" tem.txt
  28. pause
复制代码

TOP

“将【替换为 "# ,将】替换为" ,直接达到分句效果”,这个倒是好办法,没想到

TOP

30# zm900612

22?你真的要去小学进修了,哈哈。。。
***共同提高***

TOP

循环1000次也没什么影响的,因为for的输入为空,循环数就只是微调

TOP

固定循环10次=。=
我觉得用我的将【替换为 "# ,将】替换为" ,直接达到分句效果会更好一点,for循环可以直接取出有用的句子。

去除重复,因为整个文章不长,一个变量可以放的下,就再可以用ZM那种按标点符号分句,然后匹配每个小句是否重复。

如果是不确定的长度,10次不确定,一个变量存放整个纹章也不够。

TOP

29# batman


汗,加了那三条echo,忘了改more相应的参数

TOP

28# zm900612
兄弟算法ok,算术不ok。。。
***共同提高***

TOP

本帖最后由 zm900612 于 2011-4-30 12:53 编辑

昨天漏了set str=%%b以便重新进入循环,而且没注意要将长句分段判断是否重复的要求,重写了下
batman说我代码效率很低,其实bat部分是冤枉的,我一向比较关心算法的效率,特别慢的算法好意思拿出来吗?这种小文件还不至于太卡,大文件才可能有明显的减速,主要是vbs下载用时太长...
  1. @echo off&setlocal enabledelayedexpansion
  2. echo %time% 开始下载
  3. more>1.vbs +22 %0
  4. wscript //nologo 1.vbs "http://bbs.tt365.net.cn/viewthread.php?tid=161145" a.htm
  5. echo %time% 下载完成
  6. (for /f "delims=" %%a in ('findstr /rc:"【.*】" a.htm') do (
  7. set str=%%a【
  8. for /l %%b in (1 1 10) do (
  9. if "!str!" neq "" for /f "tokens=1* delims=】" %%c in ("!str:*【=!") do (
  10. if "!.%%c!"=="" (
  11. set tmp=%%c
  12. for %%e in (, 。 “ ” ; : ? !) do set tmp=!tmp:%%e=","!
  13. for %%e in ("!tmp!") do set .%%~e=.
  14. set .%%c=.
  15. echo %%c
  16. )
  17. set str=%%d
  18. )
  19. )
  20. ))>a.txt
  21. echo 处理完成 %time%
  22. pause&exit
  23. iLocal=LCase(Wscript.Arguments(1))
  24. iRemote=LCase(Wscript.Arguments(0))
  25. Set xPost=createObject("Microsoft.XMLHTTP")
  26. xPost.Open "GET",iRemote,0
  27. xPost.Send()
  28. set sGet=createObject("ADODB.Stream")
  29. sGet.Mode=3
  30. sGet.Type=1
  31. sGet.Open()
  32. sGet.Write xPost.ResponseBody
  33. sGet.SaveToFile iLocal,2
复制代码
more的行数差了两行,改下
1

评分人数

    • batman: 小学还要进修下PB + 20

TOP

vbs
  1. Set fso = CreateObject("Scripting.FileSystemObject")
  2. Set dict = CreateObject("Scripting.Dictionary")
  3. downloader "http://bbs.tt365.net.cn/viewthread.php?tid=161145", "E:\test\aaa.htm"
  4. Set oDOM = GetObject("E:\test\aaa.htm", "htmlfile")
  5. Do Until oDOM.readyState="complete" : WScript.Sleep 200 : Loop 'complete
  6. Set tags = oDOM.getElementsByTagName("td")
  7. for each tag in tags
  8.     if 1=InStr(tag.Id,"postmessage_") then
  9.         'WScript.echo tag.innerText
  10.         StrStrReg tag.innerText, "【([^【】]+)】"
  11.     end if
  12. next
  13. Set ts = fso.OpenTextFile("result.txt", 2, true)
  14. for each key in dict.Keys()
  15.     'WScript.echo key
  16.     ts.WriteLine key
  17. next
  18. ts.Close()
  19. function downloader(url, file)
  20.   dim XMLHTTP, AdoStrm
  21.   Set XMLHTTP = CreateObject("Microsoft.XMLHTTP")
  22.   XMLHTTP.Open "GET", url, false
  23.   XMLHTTP.Send()
  24.   set AdoStrm = CreateObject("ADODB.Stream")
  25.   AdoStrm.Mode = 3
  26.   AdoStrm.Type = 1
  27.   AdoStrm.Open()
  28.   AdoStrm.Write XMLHTTP.ResponseBody
  29.   AdoStrm.SaveToFile file, 2
  30. end function
  31. function StrStrReg(srcStr, subStr)
  32.   dim regEx, Matches, Match, ret
  33.   set regEx = CreateObject("VBScript.RegExp")
  34.   regEx.Pattern = subStr
  35.   regEx.Global = true
  36.   regEx.IgnoreCase = false
  37.   set Matches = regEx.execute(srcStr)
  38.   for each Match in Matches
  39.     'ret = ret & Match.subMatches(0) & vbCrLf
  40.     Catch Match.subMatches(0)
  41.   next
  42.   StrStrReg = ret
  43. end function
  44. function Catch(txt)
  45.   for each key in dict.Keys()
  46.     if InStr(key,txt) then exit function
  47.   next
  48.   dict.Add txt, 1
  49. end function
复制代码
1

评分人数

    • batman: 没想到vbs正则真的做到了PB + 20

TOP

25# powerbat
可不视为重复。。。
***共同提高***

TOP

【悟空道:“但凭尊师教诲,只是有些道气儿,弟子便就学了。”】与【只是有些道气儿】
如果短句子在前面呢?怎么处理?

TOP

23# batman


效率低的是vbs部分,那部分我没有一点办法,bat部分可以通过调整for /l循环数来控制用时。至于漏行,我去调试一下吧...

TOP

返回列表