[文本处理] 批处理如何快速去掉大文件重复的行？

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2014-5-14

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2014-7-2 14:52 | 只看该作者

[文本处理] 批处理如何快速去掉大文件重复的行？

两个都大于1G的TXT，如何快速去掉重复的行，我内存只有4G，一些工具去除太慢了，快的又要求大内存，有没有好的办法处理，都是英文和数字组合的行来的，没有中文

不用合并，只去重复就可以了

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2014-5-14

2楼

发表于 2014-7-2 15:06 | 只看该作者

大神，坐等答案。。。。。。。。

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18837
技术: 980
捐助: 100
注册时间: 2010-10-9

3楼

发表于 2014-7-2 15:08 | 只看该作者

试试这个：

@findstr /v /x /l /g:1.txt 2.txt>3.txt
复制代码

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2014-5-14

4楼

发表于 2014-7-2 15:57 | 只看该作者

回复 3# CrLf

需要处理多久，已经半个小时没动静。。。。。。。。。。。。。

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18837
技术: 980
捐助: 100
注册时间: 2010-10-9

5楼

发表于 2014-7-2 16:32 | 只看该作者

文件那么大有什么办法，求快得用 hash 表，那是用空间换时间，非常占内存

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18837
技术: 980
捐助: 100
注册时间: 2010-10-9

6楼

发表于 2014-7-2 16:57 | 只看该作者

如果顺序无关紧要，可以这样，需要用到 Gnu sort-7.6.exe 与 gawk

@echo off
findstr . a.txt b.txt>临时.txt
sort-7.6.exe -t ':' -k2 -u  临时.txt -o 临时.txt
gawk -F":" "{OUTFILE=$1;sub($1 FS,\"\");print>OUTFILE}" 临时.txt
复制代码

1 评分人数

nono84223860: 虽然不知道能不能用，但是这个大师多次耐心 ...技术 + 1

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

terse

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

7楼

发表于 2014-7-2 17:17 | 只看该作者

楼主的意思是想得到两个文件合并后并去掉重复行的新文件吗？

DAIC

sed.exe gawk.exe grep.exe 下载地址

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

8楼

发表于 2014-7-2 18:27 | 只看该作者

是需要对比两个文件获取它们之间不同的行？
比如 1.txt
a
b
c

2.txt
a
c

得到3.txt
b

还是需要分别处理两个文件，删除各自文件里面的重复行？
比如1.txt
a
b
a
c

得到3.txt
abc

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2014-5-14

9楼

发表于 2014-7-10 23:41 | 只看该作者

回复 5# CrLf

hash表，容易上手吗

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2014-5-14

10楼

发表于 2014-7-10 23:52 | 只看该作者

回复 6# CrLf

Gnu sort-7.6.exe放到哪里。。

Rank: 1

帖子: 55
积分: 74
技术: 0
捐助: 0
注册时间: 2014-5-14

11楼

发表于 2014-7-11 00:00 | 只看该作者

回复 6# CrLf

闪退，不知道是不是没把那个什么7.6装好

我复到 C:\Windows\System32 文件夹下

wjx515

Rank: 1

帖子: 43
积分: 67
技术: 1
捐助: 0
注册时间: 2012-6-20

12楼

发表于 2014-7-16 16:08 | 只看该作者

使用gawk吧，速度很快，源文件b.txt，去重复后文件a.txt
gawk "{a[$0]++;if(a[$0]==1)print $0}" b.txt>>a.txt

DAIC

sed.exe gawk.exe grep.exe 下载地址

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

13楼

发表于 2014-7-16 17:07 | 只看该作者

回复 12# wjx515

gawk "!a[$0]++" b.txt > a.txt
复制代码

1 评分人数

storm8: 高手！学习了技术 + 1

elec

一级士官

Rank: 2

帖子: 77
积分: 136
技术: 0
捐助: 0
注册时间: 2014-4-29

14楼

发表于 2014-7-17 12:56 | 只看该作者

回复 13# DAIC
uniq -u a.txt > b.txt

DAIC

sed.exe gawk.exe grep.exe 下载地址

Rank: 8 Rank: 8

帖子: 2874
积分: 7021
技术: 336
捐助: 0
注册时间: 2011-6-2

15楼

发表于 2014-7-17 13:33 | 只看该作者

回复 14# elec

使用uniq去重有一个前提：文件是排序的。