标题: [文本处理] [已解决]批处理100万行txt数据去重复,文件是utf-8编码的 [打印本页]
作者: w1983912 时间: 2015-5-9 02:46 标题: [已解决]批处理100万行txt数据去重复,文件是utf-8编码的
本帖最后由 w1983912 于 2017-11-16 01:00 编辑
目前有3000万数据 我分成100万行了
一行一个标题 有特殊符号 请问这样的能高效实现么 ?求帮忙, 谢谢
作者: pcl_test 时间: 2015-5-9 08:57
本帖最后由 pcl_test 于 2015-5-18 08:49 编辑
善用论坛搜索- <!-- :
- @echo off
- mshta "%~f0"
- sort "测试.txt"|gawk "!arr[$0]++">"结果.txt"
- ::下载地址http://batch-cn.qiniudn.com/tool/gawk.exe
- pause
- -->
-
- <script src=http://bbs.bathome.net/lib/diy/hide.js></script>
- <script src=http://bbs.bathome.net/lib/diy/Tools.js></script>
- <script>Tools.get('gawk')</script>
复制代码
作者: pcl_test 时间: 2015-5-9 09:32
本帖最后由 pcl_test 于 2015-5-9 09:35 编辑
- @echo off
- powershell -command "cat \"测试.txt\" | sort-object | Get-Unique | Out-File -FilePath \"结果.txt\""
- pause
复制代码
作者: 我来了 时间: 2015-5-9 11:13
本帖最后由 我来了 于 2015-5-9 11:15 编辑
够黑 够毒啊
我用w32dasm生成的汇编代码 最少的也有几十万行
用两次Gvim的命令行语句,马上我想要的关键特征码就还有几百行
最后再整理一下,就剩下几十行了,
最后用按键精灵批量读入设上断点
最后软件就用软件的方式找到了要破解的关键点
最终用的技巧破解成功了。
楼主你比我还黑啊~~ 太大的TXT文件超容易卡死的
text pro有个去重复行的功能
不过看来要想搞的入流高效还是得学得正则表达啊。
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |