批处理如何统计txt文本每行字符串出现的次数？

nono84223860 · 发表于 2014-5-15 21:46:15

本帖最后由 nono84223860 于 2014-5-15 21:54 编辑

回复 34# terse

又有新问题了。。。。。。。。。。。。。。。。

这个统计出来不完整。。。。

比如：

有410218个 123456 用以前的统计出来的123456

有24258个 123456 用你今天给我的统计123456

差很远。。怎么回事

如果是统计英文差距很小。因为以前的脚本有点问题。所以误差也不出奇，但是没什么差距，甚至有些英文出现次数还是一样的

terse · 发表于 2014-5-15 22:08:17

回复 50# nono84223860

什么情况啊能表述详细否

nono84223860 · 发表于 2014-5-15 22:11:48

回复 nono84223860
用P处理大文件还是比较吃力吧
不清楚 sort 为什么会把字母分成如这样 fffffffFFFF ...
terse 发表于 2014-5-15 15:14

我用这个脚本统计数字，和我楼顶上的统计差距很大，

统计英文可以说什么误差

terse · 发表于 2014-5-15 22:13:42

回复 52# nono84223860

你弄个样本测试下

nono84223860 · 发表于 2014-5-15 22:19:30

回复 53# terse

我处理了2个小时才完成，近200MB

刚刚我对比了一下

很多数字没有了

我发到你私聊里

你有Q吗，我私传给你

把Q发到我私聊里

terse · 发表于 2014-5-15 22:21:30

回复 52# nono84223860
另原先的三方 GAWK 速度明显提高可以试下
GAWK 论坛有下载的

@echo off
(gawk -vt=10000000000 "{ar[$0]++}END{l=asorti(ar,b);for(i=1;i<=l;i++) a[ar[b[i]]+t,b[i]];asorti(a);for(i=l;i>=1;i--) {split(a[i],b,SUBSEP);print b[1]%%t,b[2]}}")<a.txt >b.txt
pause

复制代码

nono84223860 · 发表于 2014-5-15 22:25:57

回复 55# terse

好，我试试这个。

PowerShell · 发表于 2014-5-16 16:19:30

你的数据很有意思：
1 行数比较大，1000多万行，但每行并不长。直接用powershell命令来处理，比较费内存，我用16g内存也非常卡，但貌似有人有64也不128内存来着。有空我找他算算。
2 昨我用powershell手写了个占内存不太大的，占用内存不到2g，但是占用cpu比较多，测试的时候还有问题，就不发了。
3 我又写了个通用的文档切割脚本，把文档变小，50万行，powershell，或者excel就容易处理了。等下发上来。
4 我早说过，这类问题最好，最快就是用数据库。关系型数据库虽说大家都喊太慢，不如nosql。但玩这个还是很快的，我是指查询。
  数据库玩这个，是一种以空间换时间的做法，做好了索引，就不用像脚本那样，每次都统计一遍数量了。
  这不，我做好了sqlite的数据库，作的时候慢，尤其是索引，但关键是用索引，索引就是排序+数量统计，有了它，亿万数据瞬间直达，这不，
  我下述的查询代码，基本上都2---3秒完成。
  而且后续你又有了新的数据，可以继续往数据库中导入，插入，然后重新查询，也会很快。因为有了索引，基本上都2---3秒完成。
  所以说，根本就不应该用脚本统计，就应该用数据库。你的问题用数据库解决才是完美的。

-------------------------用 sqlite 玩转你的问题 --------------------------------------------
压缩包=138MB

下载地址
http://pan.baidu.com/s/1bny7znL

用法：
1 安装Navicat_for_SQLite_11.0.10_XiaZaiBa.exe
2 打开数据库 wordcount ，右击main，选sql命令，输入查询语句。

表名=wordcount001
字段名=myword

查询某个单词‘A’，数量语句：
select count(myword) from wordcount001 where myword='A';

myword 所有行去重
SELECT DISTINCT myword  from wordcount001 ;

输出2列，第一列单词名，第二列单词个数，单词个数最多的在上面。 ---这就是你要的
SELECT  myword,count(myword) as chongfushu from wordcount001 group by myword order by chongfushu desc;

这个文档中小写的a最多，达到了513340个。这个结果对了么？

------------------------------------------------------------------------------------------------------------

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 批处理如何统计txt文本每行字符串出现的次数？