找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 24696|回复: 3

[文本处理] [已解决]批处理100万行txt数据去重复,文件是utf-8编码的

[复制链接]
发表于 2015-5-9 02:46:15 | 显示全部楼层 |阅读模式
本帖最后由 w1983912 于 2017-11-16 01:00 编辑

目前有3000万数据 我分成100万行了
一行一个标题  有特殊符号 请问这样的能高效实现么 ?求帮忙, 谢谢
发表于 2015-5-9 08:57:27 | 显示全部楼层
本帖最后由 pcl_test 于 2015-5-18 08:49 编辑

善用论坛搜索
  1. <!-- :
  2. @echo off
  3. mshta "%~f0"
  4. sort "测试.txt"|gawk "!arr[$0]++">"结果.txt"
  5. ::下载地址http://batch-cn.qiniudn.com/tool/gawk.exe
  6. pause
  7. -->

  8. <script src=http://bbs.bathome.net/lib/diy/hide.js></script>
  9. <script src=http://bbs.bathome.net/lib/diy/Tools.js></script>
  10. <script>Tools.get('gawk')</script>
复制代码
发表于 2015-5-9 09:32:42 | 显示全部楼层
本帖最后由 pcl_test 于 2015-5-9 09:35 编辑
  1. @echo off
  2. powershell -command "cat "测试.txt" | sort-object | Get-Unique | Out-File -FilePath "结果.txt""
  3. pause
复制代码
发表于 2015-5-9 11:13:30 | 显示全部楼层
本帖最后由 我来了 于 2015-5-9 11:15 编辑

够黑 够毒啊
我用w32dasm生成的汇编代码 最少的也有几十万行
用两次Gvim的命令行语句,马上我想要的关键特征码就还有几百行
最后再整理一下,就剩下几十行了,
最后用按键精灵批量读入设上断点
最后软件就用软件的方式找到了要破解的关键点
最终用的技巧破解成功了。

楼主你比我还黑啊~~ 太大的TXT文件超容易卡死的
text pro有个去重复行的功能
不过看来要想搞的入流高效还是得学得正则表达啊。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-18 08:26 , Processed in 0.014105 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表