Board logo

标题: [文本处理] 批处理如何统计txt文本每行字符串出现的次数并将结果按次数多少排序? [打印本页]

作者: rack    时间: 2013-6-11 13:44     标题: 批处理如何统计txt文本每行字符串出现的次数并将结果按次数多少排序?

本帖最后由 pcl_test 于 2016-7-16 22:23 编辑

有个TXT文件里面有好几个W行,我想做个bat统计一下,得到像如下结果:

内容      出现次数
123         10
333          5
223          3
vbf            1
bfbfd          1
b fbf           1

1.统计每行字符出现的次数
2.按降序排例,出现最多的排在上面。
3.内容与次数用四个空格或者四----等其它特殊符号隔开
4.待处理文件如aa.txt输出文件11.txt

我不懂C语言之类的软件,所以只能用用做好的bat了。
在此多谢先。
作者: CrLf    时间: 2013-6-11 15:42

  1. @(gawk "{ar[$0]+=1000001}END{for(i in ar)print substr(ar[i],length(ar[i])-5,6) \":\" i}" | sort | sed "s/^0*\([0-9]\)*:\(.*\)$/\2    \1/")<aa.txt >11.txt
复制代码
gawk 和 sed 是第三方命令,自己下一个吧
作者: rack    时间: 2013-6-12 13:45

本帖最后由 pcl_test 于 2016-7-16 20:45 编辑

回复 2# CrLf

找了一个这个,可是效率太慢了,只能处理几MB的数据大小。没法用。
这个内容也太长了,只要能达到面的效果就行。有谁能精简一下?
  1.     @echo off
  2. :: 目的:
  3. ::     SearchNet.TXT中每行只有一个数,统计每个数的重复次数,并按照重复次数由高到低排序
  4. :: 思路:
  5. ::     先用sort把所有的数排序,然后统计重复次数,以 数+重复次数 的格式写入临时文件tmp2.txt;
  6. ::     提取重复次数的数字,以该数字为长度建立以该数字命名的文件,用dir来把文件名(即重复次数)排序,写入tmp3.txt;
  7. ::     按行提取tmp3.txt中的内容,然后在tmp2.txt中查找与tmp3.txt中匹配的记录,写入结果;
  8. ::     此方案会产生大量的临时文件,但是效率比较高
  9. set num=-1
  10. sort<SearchNet.TXT>tmp1.txt
  11. cd.>tmp2.txt
  12. cd.>tmp3.txt
  13. cd.>result.txt
  14. :: 统计重复次数
  15. setlocal enabledelayedexpansion
  16. for /f %%i in (tmp1.txt) do (
  17.     set /a num+=1
  18.     set second=!first!
  19.     set first=%%i
  20.     if not "!second!"=="" if !second! neq !first! (>>tmp2.txt echo !second!  !num!&set num=0)
  21. )
  22. >>tmp2.txt echo %first%  %num%
  23. :: 对重复次数排序
  24. md tmp && pushd tmp
  25. for /f "tokens=2" %%i in (..\tmp2.txt) do (
  26.     cd.>%%i
  27.     for /l %%j in (1,1,%%i) do echo.>>%%i
  28. )
  29. >..\tmp3.txt dir /o-s /b
  30. :: 按重复次数提取记录
  31. for /f %%i in (..\tmp3.txt) do (
  32.     >>..\result.txt findstr " %%i$" ..\tmp2.txt
  33. )
  34. popd && rd /q /s tmp
  35. del tmp1.txt tmp2.txt tmp3.txt
  36. start result.txt
  37. goto :eof
复制代码
关于统计字符出现个数的其他方案(都不生成临时文件)
  1. @echo off
  2. :: 统计每个字符出现的次数,并求出出现次数最多的字符
  3. :: 思路:
  4. ::     通过提取每个位上的字符,赋予统一以 字符: 开头的某些动态变量,
  5. ::     如果变量名相同,则自加一次,然后,通过 set 字符:命令一次性提取
  6. ::     所有以 字符: 开头的动态变量,交给 for 语句来处理。set 用得很巧妙
  7. ::     无须生成临时文件,并按照字母升序排列
  8. ::
  9. setlocal ENABLEDELAYEDEXPANSION
  10. set str=adadfdfseffserfefsefseetsdmg
  11. set /a m=0,n=0,l=0
  12. call :loop
  13. :: 以下是求出现次数最多的字符
  14. for /f "tokens=1,2 delims==" %%i in ('set 字符:') do (
  15.         echo %%i=%%j
  16.         if %%j GTR !l! set l=%%j& set m=%%i
  17. )
  18. echo.出现次数最多的%m%=%l%
  19. pause
  20. goto :EOF
  21. :loop
  22. call set m=%%str:~%n%,1%%
  23. if not defined m goto :EOF
  24. set /a "字符:%m%+=1"
  25. set /a n+=1
  26. goto loop
复制代码
  1. @echo off
  2. :: 统计字符出现次数
  3. :: 思路:
  4. ::    先把字符串拆解为以空格分隔的单字符组成的字符串,
  5. ::      然后用for语句来探测每个字符在串中出现的次数
  6. ::      此方法无须生成临时文件,并按照在字符串中出现的
  7. ::      先后顺序显示
  8. setlocal EnableDelayedExpansion
  9. set str=adadfdfseffserfefsefseetsdg
  10. rem 拆解字符串
  11. :analyze
  12. set str_tmp=%str_tmp% %str:~0,1%
  13. set str=%str:~1%
  14. if not "%str%" == "" goto analyze
  15. rem
  16. for %%i in (%str_tmp%) do call :exclude %%i
  17. pause
  18. exit
  19. :exclude
  20. for %%i in (%counted%) do if "%1"=="%%i" goto :eof
  21. set counted=%counted% %1
  22. call :count %1
  23. goto :eof
  24. :count
  25. for %%i in (%str_tmp%) do if "%1"=="%%i" set /a %1+=1
  26. echo %1 !%1!
  27. goto :eof
复制代码
  1. @echo off
  2. :: 统计字符出现的次数
  3. :: 思路:
  4. ::     拆解字符串,以空格分隔组成新字符串
  5. ::     通过 shift 来call 不同的参数,并用
  6. ::     set 来命名变量,变量名具有统一的开头
  7. ::     最后通过 set 来显示这些变量
  8. ::
  9. setlocal EnableDelayedExpansion
  10. set str=adadfdfseffserfefsefseetsdg
  11. :loop
  12. set str_tmp=%str_tmp% %str:~0,1% && set str=%str:~1%
  13. if not "%str%" == "" goto loop
  14. call :start %str_tmp%
  15. set .
  16. echo 出现次数最多的:%max%=%maxN%
  17. pause
  18. exit
  19. :start
  20. if [%1]==[] ( goto :eof ) else ( set /a  .%1+=1 )
  21. if !.%1! GTR !maxN! set maxN=!.%1!&& set max=.%1
  22. shift
  23. goto :start
复制代码
  1. @echo off
  2. :: 综合以上方案,最简洁的代码如下
  3. setlocal EnableDelayedExpansion
  4. set str=adadfdfseffserfefsefseetsdgadadfdfseffserfefsefseetsdga
  5. :loop
  6. set str$=%str$% %str:~0,1%&set str=%str:~1%
  7. if not "%str%" == "" goto loop
  8. for %%n in (%str$%) do (
  9.   set /a .%%n+=1
  10. if !.%%n! GTR !maxN! set maxN=!.%%n!&&set max=%%n)
  11. set .
  12. echo 出现次数最多的:%max%=%maxN%
  13. pause
  14. exit
复制代码
  1. @echo off&setlocal
  2. :: sort之后,通过比较这一次取到的内容和上一次的内容是否相等来统计重复次数
  3. :: 如何同时保存本次和上次的内容需要很大的技巧
  4. :: 注意要把次数的初值设置为1,for语句的后括号之后不能紧跟跳出语句
  5. :: code by bagpipe  2006-12-16 remarked by JM
  6. set /a n=1
  7. for /f %%a in ('type 1.txt^|sort') do (
  8. call :pp %%a
  9. )
  10. :pp
  11. if not defined bb goto b
  12. if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
  13. :b
  14. set bb=%1
  15. goto :eof
复制代码
  1. @echo off&setlocal enabledelayedexpansion
  2. :: 带排序功能的代码
  3. :: 用 for /l 来控制每次 findstr 的字符长度,
  4. :: 然后把同一长度的用 sort 来排序,从而突破了
  5. :: sort 只能按字符位大小来排序这一限制
  6. set a=[0-9]
  7. for /l %%a in (1,1,3) do (
  8. call :pp !a!
  9. set a=!a![0-9]
  10. )
  11. goto c
  12. :pp
  13. for /f %%x in ('findstr "^%1$" aa.txt^|sort') do @echo %%x >>dd.txt
  14. goto :eof
  15. :c
  16. set /a n=1
  17. for /f %%a in ('type dd.txt') do (
  18. call :pp %%a
  19. )
  20. :pp
  21. if not defined bb goto b
  22. if "%bb%"=="%1" (set /a n+=1) else (>>ko.txt echo %bb%  %n%次&set /a n=1)
  23. :b
  24. set bb=%1
  25. goto :eof
复制代码

作者: terse    时间: 2013-6-12 15:19

要效率高 用2楼的3方啊
纯p处理大文件力不从心啊
作者: rack    时间: 2013-6-12 15:57

回复 4# terse


    gawk 和 sed 命令不知道怎么用哦
都不知道用什么软件的

所以只能用BAT,或者CMD的批处理工具
作者: terse    时间: 2013-6-12 17:20

本帖最后由 terse 于 2013-6-13 01:15 编辑

这样呢
修正最后行判断问题
简单的测试 通过
不知是否还有特殊情况
另排除空行的
不知道楼主是否需处理空行
  1. @echo off&setlocal enabledelayedexpansion
  2. sort a.txt | findstr . >temp.tx
  3. set /pstr=<temp.tx
  4. set num=1000000001
  5. (for /f "skip=1 delims=" %%i in (temp.tx) do (     
  6.     if "!str!" neq "%%i" (
  7.        echo;!num:~1!  !str!
  8.        set num=1000000001
  9.     ) else set /a num+=1
  10.       set str=%%i
  11. )
  12.        echo;!num:~1!  !str!
  13. )>sort.txt
  14. sort /r sort.txt >temp.tx
  15. (for /f "tokens=* delims=0" %%i in (temp.tx) do echo;%%i)>sort.txt
  16. del temp.tx
  17. pause
复制代码

作者: CrLf    时间: 2013-6-12 17:21

回复 5# rack


    2 楼代码保存为 bat,把下载的 gawk.exe 和 sed.exe 及其所需 dll 放在 system32 目录下,运行 bat 即可
作者: CrLf    时间: 2013-6-12 17:24

其实用 excel 貌似也可以搞定,一溜公式加排序
作者: rack    时间: 2013-6-12 22:08

回复 2# CrLf


    谢谢楼上两位指点
但是还不行
下面是前几行的:
''520123    1
';lkjhgfdsa    1
---+++wo520.    1
---1111111111    1
---qq898588    1
---zhangning110    1
--..worininiang    1
--++xzf494    1
--123libukaini    1
作者: rack    时间: 2013-6-12 22:09

本帖最后由 rack 于 2013-6-12 22:27 编辑

回复 6# terse


    谢谢
比我开始找的那个快了很多
而且比我想的还好
把序数放到了前面。
但不知道是什么原因,比那个命令处理出来的要稍大点
下面是前几行:
1904  123456789
213  1234567890
141  987654321
119  147258369
111  12345678910
104  1233211234567
90  123456789.
89  0123456789
88  123123123
82  abc123456
78  7708801314520
73  1111111111111111
69  a123456789
66  5201314520


后面几行:
这里需有几个空行但也不至于大几十KB
1  ---+++wo520.
1  ';lkjhgfdsa
1  ''520123
1  
1  
1  
1  
1  
1  
1  
1  
1  
1
作者: rack    时间: 2013-6-12 22:14

本帖最后由 rack 于 2013-6-12 22:29 编辑

回复 8# CrLf


    谢谢
这种大文件上了G以上或者100MB以上的办公软件没法打开的。
但这个公式与方法办公方面也是很不错的,这个我也不会
可以指点一下虽然现在用不着,说不定哪天用上了。
作者: xxpinqz    时间: 2013-6-12 23:00

3楼的代码,看起来只考虑到头部出现1次的情况,却未考虑尾部为1次的情况(最后一个没重复却被set num=0了),难道你测试正确?
这么大的文件还是用第三方比较好。纯P该就是6楼的了
作者: terse    时间: 2013-6-13 00:16

本帖最后由 terse 于 2013-6-13 01:19 编辑

if "!num!" neq "1000000000" echo !num:~1!  !str!
原来这里是考虑尾部为1次的情况
思考一下 应该是错的判断
谢xxpinqz提醒 已修正
作者: terse    时间: 2013-6-13 01:59

试着用了下 gawk
  1. (@gawk -vt=10000000000 "{ar[$0]++}END{l=asorti(ar,b);for(i=1;i<=l;i++) a[ar[b[i]]+t,b[i]];asorti(a);for(i=l;i>=1;i--) {split(a[i],b,SUBSEP);print b[1]%%t,b[2]}}")<a.txt >sort.txt
复制代码

作者: Python    时间: 2013-6-13 08:40

回复 11# rack


    顶楼不是说只有几万行吗?不应该上GB吧。另外,试试14楼的代码。
作者: rack    时间: 2013-6-14 18:52

本帖最后由 rack 于 2013-6-14 19:11 编辑

回复 14# terse


    这个非常不错,应完美了。
辛苦了
时间缩短了一半

开始的那个好像是特殊符号(!,等)开头的排不出来,所以后成了空的。
现在这个所有的符号开头的都排出来了
下面是测试结果:
开头几行:
1904 123456789
213 1234567890
201 woaini1314
170 a123456789
140 987654321
121 abc123456
119 147258369
116 qq123456

结尾的几行:
1 !!!liangsihui
1 !!!635834664QQ
1 !!!381674763.hao
1 !!!198975zd%%%
1 !!!18760239795a
1 !!!!wang1017
1 !!!!963..a
1 !!!!!???
1 !!!!!!520.
1 !!!!!!0309
作者: rack    时间: 2013-6-14 18:57

回复 15# Python


    要用的这个就是测试这个文件只有几W行
像我这类文件很多,有几MB,几百MB,上G的都有。
作者: terse    时间: 2013-6-14 19:30

回复  terse


    这个非常不错,应完美了。
辛苦了
时间缩短了一半

开始的那个好像是特殊符号( ...
rack 发表于 2013-6-14 18:52

好用就好 但行数是有限制的 可以试着加大t
另 b[1]%%t 换为 b[1]-t  不知道效率提高点不 可试下
作者: rack    时间: 2013-6-17 19:11

我的双核四线,8G内存,用这个只能处理300MB以下的数据,大点的打开闪几下就自动关了。
改成b[1]-t  好像差不多。
作者: terse    时间: 2013-6-17 20:21

这个真不知道
现在不是内存问题
不知道32位机器处理多大
难道64位会有改善吗 我也不知道
作者: rack    时间: 2013-6-17 22:32

回复 6# terse


    这个虽不可以排序特殊符号!等开头,但可以处理800MB以上文件。
作者: rack    时间: 2013-6-17 22:33

回复 20# terse


    我是用WIN7,64位的系统处理
作者: nono84223860    时间: 2014-5-14 13:20

回复 6# terse



我用了你这个统计出问题了 很多重复,什么原因,存在BUG

跪求啊
作者: nono84223860    时间: 2014-5-14 13:21

本帖最后由 nono84223860 于 2014-5-14 23:07 编辑

回复 6# terse


统计后

513340  a
125258  q      <<<<<<<<<<<<<<<<<<<<---------------------------------
76660  w
71654  z
39801  s
37051  x
29514  l
21589  c
21297  y
19345  z
16611  m
14866  f
14802  h
14050  d
12060  g
11941  b
11021  k
10528  t
10507  j
9588  p
9406  w
6718  q                     <<<<<<<<<<<<<<<<<<<<---------------------------------
6495  A
4691  l
4258  r
3918  e
3402  h
3195  n
3155  v
2813  o
2559  o
2471  E
1763  i
1654  Q
1111  Z
1017  W
933  L
920  u
857  X
777  b
645  H
505  F
491  S
426  G
404  B
393  C
388  Y
384  D
383  O
366  M
307  T
292  K
272  J
235  n
230  P
168  R
114  N
79  I
46  V
21  U
1  y
1  W
1  v
1  u
1  t
1  R
1  O
1  k
1  j
1  I
1  g
1  f
作者: PowerShell    时间: 2014-5-15 15:22

8G服务器不算啥。
16g内存 +64位os实测
powershell开1.2G文件没问题。
  1. Get-Content a:\pscode\a.txt | Group-Object  -CaseSensitive | Sort-Object -Property count -Descending | Format-List
复制代码
你不就是想统计弱密码么?你这个应该用数据库,
数据库是什么?是索引。
第一次索引很慢,后来就快。而且数据变动,自动更新索引。
而上面的命令出来的统计都也相当于索引,但是临时的,数据库索引可以看成是永久的,和自动更新的。


用数据库的话,是一条一条插入,第一次是很慢很慢的。当然,oracle,新版sql server,有个导入数据功能,提速了很多,
一条条的话,没有什么大小限制了,1tb----5tb都不在话下。

数据库对内存要求也不高,1g内存即可,当然给数据库内存越大越快。
作者: pcl_test    时间: 2016-7-30 00:45

本帖最后由 pcl_test 于 2016-8-21 19:26 编辑

回复 23# nono84223860
  1. //&cls&cscript -nologo -e:jscript "%~f0"<"文本.txt">"结果.txt"&pause & exit
  2. var map ={}, arr =[];
  3. while(!WSH.StdIn.AtEndOfStream){
  4.     var line = WSH.StdIn.ReadLine().replace(/^\s*|\s*$/g,'');
  5.     if(!map[line]){
  6.         map[line]=1;
  7.         arr.push(line);
  8.     }else map[line]++;
  9. }
  10. arr.sort(function(a, b){return map[b]-map[a]});
  11. for(var i=0; i<arr.length; i++)WSH.echo(arr[i]+' '+map[arr[i]]);
复制代码





欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2