Board logo

标题: [文本处理] [已解决]批处理100万行txt数据去重复,文件是utf-8编码的 [打印本页]

作者: w1983912    时间: 2015-5-9 02:46     标题: [已解决]批处理100万行txt数据去重复,文件是utf-8编码的

本帖最后由 w1983912 于 2017-11-16 01:00 编辑

目前有3000万数据 我分成100万行了
一行一个标题  有特殊符号 请问这样的能高效实现么 ?求帮忙, 谢谢
作者: pcl_test    时间: 2015-5-9 08:57

本帖最后由 pcl_test 于 2015-5-18 08:49 编辑

善用论坛搜索
  1. <!-- :
  2. @echo off
  3. mshta "%~f0"
  4. sort "测试.txt"|gawk "!arr[$0]++">"结果.txt"
  5. ::下载地址http://batch-cn.qiniudn.com/tool/gawk.exe
  6. pause
  7. -->
  8. <script src=http://bbs.bathome.net/lib/diy/hide.js></script>
  9. <script src=http://bbs.bathome.net/lib/diy/Tools.js></script>
  10. <script>Tools.get('gawk')</script>
复制代码

作者: pcl_test    时间: 2015-5-9 09:32

本帖最后由 pcl_test 于 2015-5-9 09:35 编辑
  1. @echo off
  2. powershell -command "cat \"测试.txt\" | sort-object | Get-Unique | Out-File -FilePath \"结果.txt\""
  3. pause
复制代码

作者: 我来了    时间: 2015-5-9 11:13

本帖最后由 我来了 于 2015-5-9 11:15 编辑

够黑 够毒啊
我用w32dasm生成的汇编代码 最少的也有几十万行
用两次Gvim的命令行语句,马上我想要的关键特征码就还有几百行
最后再整理一下,就剩下几十行了,
最后用按键精灵批量读入设上断点
最后软件就用软件的方式找到了要破解的关键点
最终用的技巧破解成功了。

楼主你比我还黑啊~~ 太大的TXT文件超容易卡死的
text pro有个去重复行的功能
不过看来要想搞的入流高效还是得学得正则表达啊。




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2