标题: [文本处理] [已解决]批处理有没有快速高效的方法实现一字一行? [打印本页]
作者: 每天几分 时间: 2015-4-11 08:46 标题: [已解决]批处理有没有快速高效的方法实现一字一行?
本帖最后由 每天几分 于 2015-4-12 15:34 编辑
我想统计一些网络小说的字频情况,但由于网络小说都是几MB以上的大段文字,用录制宏、或正则([\u4e00-\u9fa5])替换$1\r\n实现一字一行非常缓慢,请问批处理有没有快速高效的方法实现一字一行?
作者: pcl_test 时间: 2015-4-11 15:10
本帖最后由 pcl_test 于 2015-4-12 22:44 编辑
1M大小的文本用时1分10秒±- @echo off
- setlocal enabledelayedexpansion
- (for /f "delims=" %%a in ('type "测试.txt"') do (
- set "str=%%a"
- set "str=!str: =!"
- set "str=!str: =!"
- for %%b in (! , 。 ? “ ” : ; 《 》 …… - —— 、 ( ) ‘ ’) do set "str=!str:%%b=!"
- set "$=!str!#"
- set len=&for %%z in (4096 2048 1024 512 256 128 64 32 16) do if !$:~%%z^,1!. neq . set/a len+=%%z&set $=!$:~%%z!
- set $=!$!fedcba9876543210 & set/a len+=0x!$:~16,1! &set/a len-=1
- for /l %%i in (0 1 !len!) do echo,!str:~%%i,1!
- ))>"结果.txt"
- pause
复制代码
作者: pcl_test 时间: 2015-4-11 17:14
本帖最后由 pcl_test 于 2015-5-10 10:54 编辑
vbs 1M大小的文本用时8秒±- Dim fso,File1,File2
- Set fso = CreateObject("Scripting.FileSystemObject")
- Set Reg = CreateObject("vbscript.Regexp")
- Set File1= fso.OpenTextFile(".\测试.txt", 1 , True)
- Set File2 = fso.CreateTextFile(".\结果.txt", 2 ,False)
- Do While File1.AtEndOfStream <> True
- str=File1.ReadLine
- Reg.Global = True
- Reg.Pattern = "[^a-zA-Z0-9\u4E00-\u9FA5]"
- str = Reg.Replace(str, "")
- For i=1 to len(str)
- word=mid(str,i,1)
- File2.WriteLine word
- Next
- loop
- File1.Close
- File2.Close
- MsgBox "完成!"
复制代码
作者: CrLf 时间: 2015-4-11 17:28
js 的 text.split('').jion('\r\n') 就很好用了,replace 也可
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |