Board logo

标题: [文本处理] [已解决]批处理有没有快速高效的方法实现一字一行? [打印本页]

作者: 每天几分    时间: 2015-4-11 08:46     标题: [已解决]批处理有没有快速高效的方法实现一字一行?

本帖最后由 每天几分 于 2015-4-12 15:34 编辑

我想统计一些网络小说的字频情况,但由于网络小说都是几MB以上的大段文字,用录制宏、或正则([\u4e00-\u9fa5])替换$1\r\n实现一字一行非常缓慢,请问批处理有没有快速高效的方法实现一字一行?
作者: pcl_test    时间: 2015-4-11 15:10

本帖最后由 pcl_test 于 2015-4-12 22:44 编辑

1M大小的文本用时1分10秒±
  1. @echo off
  2. setlocal enabledelayedexpansion
  3. (for /f "delims=" %%a in ('type "测试.txt"') do (
  4. set "str=%%a"
  5. set "str=!str: =!"
  6. set "str=!str:  =!"
  7. for %%b in (! , 。 ? “ ” : ; 《 》 …… - —— 、 ( ) ‘ ’) do set "str=!str:%%b=!"
  8. set "$=!str!#"
  9. set len=&for %%z in (4096 2048 1024 512 256 128 64 32 16) do if !$:~%%z^,1!. neq . set/a len+=%%z&set $=!$:~%%z!
  10. set $=!$!fedcba9876543210 & set/a len+=0x!$:~16,1! &set/a len-=1
  11. for /l %%i in (0 1 !len!) do echo,!str:~%%i,1!
  12. ))>"结果.txt"
  13. pause
复制代码

作者: pcl_test    时间: 2015-4-11 17:14

本帖最后由 pcl_test 于 2015-5-10 10:54 编辑

vbs 1M大小的文本用时8秒±
  1. Dim fso,File1,File2
  2. Set fso = CreateObject("Scripting.FileSystemObject")
  3. Set Reg = CreateObject("vbscript.Regexp")
  4. Set File1= fso.OpenTextFile(".\测试.txt", 1 , True)
  5. Set File2 = fso.CreateTextFile(".\结果.txt", 2 ,False)  
  6. Do While File1.AtEndOfStream <> True
  7.     str=File1.ReadLine
  8.     Reg.Global = True
  9.     Reg.Pattern = "[^a-zA-Z0-9\u4E00-\u9FA5]"
  10.     str = Reg.Replace(str, "")
  11.     For i=1 to len(str)
  12.     word=mid(str,i,1)
  13.     File2.WriteLine word
  14.     Next
  15. loop
  16. File1.Close
  17. File2.Close
  18. MsgBox "完成!"
复制代码

作者: CrLf    时间: 2015-4-11 17:28

js 的 text.split('').jion('\r\n') 就很好用了,replace 也可




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2