批处理之家 - Powered by Discuz! Board

标题: [文本处理] [已解决]批处理100万行txt数据去重复,文件是utf-8编码的 [打印本页]

作者: w1983912 时间: 2015-5-9 02:46 标题: [已解决]批处理100万行txt数据去重复,文件是utf-8编码的

本帖最后由 w1983912 于 2017-11-16 01:00 编辑

目前有3000万数据我分成100万行了
一行一个标题有特殊符号请问这样的能高效实现么？求帮忙, 谢谢

作者: pcl_test 时间: 2015-5-9 08:57

本帖最后由 pcl_test 于 2015-5-18 08:49 编辑

善用论坛搜索

<!-- :
@echo off
mshta "%~f0"
sort "测试.txt"|gawk "!arr[$0]++">"结果.txt"
::下载地址http://batch-cn.qiniudn.com/tool/gawk.exe
pause
-->

<script src=http://bbs.bathome.net/lib/diy/hide.js></script>
<script src=http://bbs.bathome.net/lib/diy/Tools.js></script>
<script>Tools.get('gawk')</script>
复制代码

作者: pcl_test 时间: 2015-5-9 09:32

本帖最后由 pcl_test 于 2015-5-9 09:35 编辑

@echo off
powershell -command "cat \"测试.txt\" | sort-object | Get-Unique | Out-File -FilePath \"结果.txt\""
pause
复制代码

作者: 我来了 时间: 2015-5-9 11:13

本帖最后由我来了于 2015-5-9 11:15 编辑

够黑够毒啊
我用w32dasm生成的汇编代码最少的也有几十万行
用两次Gvim的命令行语句，马上我想要的关键特征码就还有几百行
最后再整理一下，就剩下几十行了，
最后用按键精灵批量读入设上断点
最后软件就用软件的方式找到了要破解的关键点
最终用的技巧破解成功了。

楼主你比我还黑啊~~ 太大的TXT文件超容易卡死的
text pro有个去重复行的功能
不过看来要想搞的入流高效还是得学得正则表达啊。

欢迎光临批处理之家 (http://bbs.bathome.net/)