Board logo

标题: [文本处理] 批处理对超大文本文件进行去重的问题 [打印本页]

作者: shenghuo    时间: 2013-7-26 16:32     标题: 批处理对超大文本文件进行去重的问题

@echo off
for /f "delims=" %%i in (2.txt) do (
if not defined %%i set %%i=A & >>去重后.txt echo %%i)
使用这个批处理对不到500万行的文本跑了一晚上,才跑出不到40万行。有没有可能使用批处理对500完或2500万行的数据进行快速去重呢?使用editplus对400多W行的数据去重,跑了一上午了还没跑完。。。

大家有更高效的方法吗?
作者: CrLf    时间: 2013-7-26 17:12

下一个 gawk 第三方工具:
  1. @gawk "!a[$0]++" a.txt>b.txt
复制代码

作者: PowerShell    时间: 2013-7-26 18:43

1你的大文本,能压缩发网盘么?
2网上有个软件,我不知原理和效果如何,推荐你试试,
-----------------------------------
下载地址:



精英txt文本整理工具箱v3.4

下载地址1:
http://pan.baidu.com/share/link? ... 7&uk=1563140309

产品价格: 免费

********************************


功能说明:
不到1秒内,轻松处理txt文件!
可以对文本文件,去重复行,相同行。给txt文件数据处理提供大量方便!!
该软件是免费软件,绿色,直接使用即可
作者: shenghuo    时间: 2013-7-27 12:34

回复 2# CrLf

多谢 CrLf
作者: shenghuo    时间: 2013-7-27 12:35

回复 3# PowerShell


    多谢版主,这个之前用过,处理小文本还可以
作者: lxh623    时间: 2018-12-6 14:32

EmEditor这个支持大文件。




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2