【出题】批处理去除超大文本中的重复行(页 1) - 出题挑战 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

随风发表于 2009-5-29 14:11

【出题】批处理去除超大文本中的重复行

去除超大文本中的重复行
在非常批处理论坛看到这个题，觉得挺有挑战的，上百万行的数据，光靠批处理应该是难做到了，不知道借助第三方命令行工具能否完成。

文本内有大概100W行的数据
要求一、删除所有重复行
要求二、以----为分隔符，将第一列与第二列重复的行删除[color=red]（描述有问题，以末尾的红色字更新为准）
[/color]两个要求完成一个也行，分两个代码完成也行，最完美的是在一个代码中完成两个要求。

部分样本
[quote]
12779----alibaba140379----222.222.222.222----哈哈哈哈哈哈----2008-5-20----21:24:20
13166----BXGHgxst115----123.112.68.25----欧洲
12779----alibaba140379----203.93.208.138----山东省青岛市网通----2008-5-20----21:24:20
13166----BXGHgxst115----111.111.111.111
12779----alibaba140379----222.222.222.222----哈哈哈哈哈哈----2008-5-20----21:24:20
255004----dsfdsfdsf----123.112.77.25
[/quote]

[color=purple]扩展要求：保持原文本中不重复的行顺序不变[/color]

创建 100万行左右的测试文件代码。
。。。[code]@echo off&setlocal enabledelayedexpansion
echo 正在创建测试文件 y1.txt 请稍候。。。行数为 1000005 行
(for /l %%a in (1 1 100) do echo !random!----!random!----!random!!random!----!random!)>y1.txt
(for /l %%a in (1 1 10) do type y1.txt)>y2.txt
(for /l %%a in (1 1 10) do type y2.txt)>y1.txt
(for /l %%a in (1 1 10) do type y1.txt)>y2.txt
(for /l %%a in (1 1 10) do type y2.txt)>y1.txt
(echo !random!----!random!----!random!!random!----!random!!random!
echo !random!----!random!----!random!!random!----!random!!random!
echo !random!----!random!----!random!!random!----!random!!random!
echo !random!----!random!----!random!!random!----!random!!random!
echo !random!----!random!----!random!!random!----!random!!random!)>>y1.txt
del /q y2.txt[/code][color=red]问题二描述有问题，现更新
要求二、以----为分隔符，将第一列与第二列重复的行删除，保留第一行。
比如：
1234---555--44444444444
1234---7777--fafjaf
1234---555--444444
334----7898----dfadifaf
1234---555--00000000000000
这种情况下就保留第1、2、4行
因为第1行、第3行、第5行，的第1列和第2列是重复的。[/color]

[[i] 本帖最后由随风于 2009-5-29 17:59 编辑 [/i]]

Kiming 发表于 2009-5-29 15:20

就算写出来了执行也要卡死
可以用linux命令

随风发表于 2009-5-29 15:24

回复 2楼的帖子

就是要看能否突破这个效率问题啊^_^

Batcher 发表于 2009-5-29 16:15

可能不是每个人都知道如何快速生成100W行测试文本，楼主在顶楼给个例子吧。

随风发表于 2009-5-29 17:25

已在顶楼给出创建测试文件代码

netbenton 发表于 2009-5-29 17:31

处理6W行记录花了2分多钟，100W就不敢试了！大概要一个多小时吧！
源文件为：sour2.txt
处理结果为：temp3.txt
可完成两个要求。[code]@echo off&setlocal enabledelayedexpansion
(for /f "delims=" %%a in (sour2.txt) do (
      set/a n+=1
      set num=000000!n!
      echo !num:~-7!-%%a
))>temp.txt
::加入序号保持原来的顺序

(for /f "tokens=1,2,3* delims=-" %%a in ('sort temp.txt /+8') do (
      if "%%b-%%c" neq "!var!" (echo %%a-%%b-%%c-%%d)
      set var=%%b-%%c
))>temp2.txt
::从第8位开始排序，即只按原来的数据排序，重复的丢弃

(for /f "tokens=1,2,3* delims=-" %%a in ('sort temp2.txt') do (
echo %%b----%%c----%%d
))>temp3.txt
::恢复原来的顺序，并丢弃加入的临时序号[/code]把楼主的数据存为sour.txt，通过下面代码生成的sour2.txt具有6W行记录。[code]
@echo off
(for /f "delims=" %%a in (sour.txt) do (
for /l %%b in (1,1,10000) do (echo %%a)
))>sour2.txt[/code]

[[i] 本帖最后由 netbenton 于 2009-5-29 17:51 编辑 [/i]]

随风发表于 2009-5-29 17:43

问题二描述有问题，现更新

Batcher 发表于 2009-5-29 17:47

[table=100%,black][tr][td][size=1][color=white]C:\Test>test.bat
0 小时 0 分钟 1 秒 51 毫秒

C:\Test>type test.bat
@echo off
set begin=%time%
[color=Blue]gawk "!a[$0]++" y3.txt>>a.txt[/color]
call :time0 %begin% %time% duration
echo %duration%
goto :eof

:time0
::计算时间差（封装）
@echo off&setlocal&set /a n=0&rem code 随风 @bbs.bathome.net
for /f "tokens=1-8 delims=.: " %%a in ("%~1:%~2") do (
set /a n+=10%%a%%100*360000+10%%b%%100*6000+10%%c%%100*100+10%%d%%100
set /a n-=10%%e%%100*360000+10%%f%%100*6000+10%%g%%100*100+10%%h%%100)
set /a s=n/360000,n=n%%360000,f=n/6000,n=n%%6000,m=n/100,n=n%%100
set "ok=%s% 小时 %f% 分钟 %m% 秒 %n% 毫秒"
endlocal&set %~3=%ok:-=%&goto :EOF
[/color][/size][/td][/tr][/table]

Kiming 发表于 2009-5-29 19:37

此方法应该可以的

@echo off
for /f %%i in (test.txt) do md %%i
dir/ad/b/o:n>Kiming.txt
for /f %%i in ('dir /b /ad') do rd %%i
是将里面的内容建立成目录然后提取目录名在写入新的txt
这个方法速度很快的哦
此方法思路源于 [url]http://www.heycoffee.com/article/SoftwareWorks/320.htm[/url]

随风发表于 2009-5-29 19:47

好恐怖的方法^_^
上百万行，你要创建多少个目录？况且如果文本内容含文件名不允许的字符怎办？

Kiming 发表于 2009-5-29 19:53

大哥 md创建很快的瞬间就好了的不试试看怎么知道了
你给的那个100w行的代码有问题啊就几个重复的
N多不重复的
至于那个非法字符用word搞下就可以了
好像里面没非法字符啊

[[i] 本帖最后由 Kiming 于 2009-5-29 19:54 编辑 [/i]]

随风发表于 2009-5-29 20:02

re 11 楼
你确定那个100w行的代码有问题啊就几个重复的？

Kiming 发表于 2009-5-29 20:14

回LS的

我用了别人的代码测试了发现只有几行所以我才认为有问题实际上没问题
错怪了LZ了啊对不起-_-!

Kiming 发表于 2009-5-29 20:22

LZ我的代码我用了4分钟就解决了
本人亲自测试 4分钟OK了还算比较快吧

随风发表于 2009-5-29 20:38

回复 14楼的帖子

首先 4分钟并不算快，
况且顶楼的只是临时测试样本，而非正在的需处理原件，为提高创建样本时间而产生的行大多是重复的，其实不重复的应该只有百来行，这使得你第二个for的运行时间大大减少，若不重复行占半数或更多呢？
其次，还是非法文件名问题，若在word中进行替换则使得代码变成了半自动，不够完美。
再次，创建这么多的临时文件，个人认为始终不太可取，如此疯狂的对硬盘进行写入操作不知道对硬盘会否有影响。

Kiming 发表于 2009-5-29 20:42

这是VBT论坛的代码

@echo off
for /f "delims=" %%i in (test.txt) do (
if not defined %%i set %%i=s & echo %%i>>result.txt)
大概需要30 s就可以了
可是这段代码我有点不理解不知LS的道能否解释下

随风发表于 2009-5-29 20:54

30s就可以遍历百万行的文本？没测试过，但对这类代码的评论，你没看到他8楼的回复吗？

Kiming 发表于 2009-5-29 20:59

真的是30s啊
我测试了的你测试没
那个8L的说有问题我怎么没测试出来呢

Batcher 发表于 2009-5-29 21:07

回复 9楼的帖子

如果只有几个重复行，那就意味着要创建100多万个文件夹，这对于使用FAT32的朋友来说，是几乎无法实现的。

Kiming 发表于 2009-5-29 21:16

回LS的啊

那16L;的不是已经给出了代码了吗可以了的我还测试了

Batcher 发表于 2009-5-29 21:19

回复 20楼的帖子

我说的是9楼的代码，你确定自己用的FAT32么？

Batcher 发表于 2009-5-29 21:22

回复 16楼的帖子

批处理是不允许无限制的定义变量的，这个代码能够成功只是个例。如果随风把顶楼生成测试文本的脚本改改，让每行长度增加一倍，这时生成的文件将接近100MB，你再试试那个方案还能成功否？

参考：[url]http://bbs.bathome.net/viewthread.php?tid=3403#pid21404[/url]

Kiming 发表于 2009-5-29 21:23

回21L的

我是NTFS的那个测试的代码生成的只有100多个文件夹

Batcher 发表于 2009-5-29 21:25

回复 23楼的帖子

19楼说的不够清楚吗？没关系，咱们再强调一遍吧：
[quote][color=Blue]如果只有几个重复行[/color]，那就意味着要创建100多万个文件夹，这对于使用FAT32的朋友来说，是几乎无法实现的。[/quote]

Kiming 发表于 2009-5-29 21:30

回复 24楼的帖子

只有100W行啊 100MB的文件估计也有500W行了只要求100w的文件

Batcher 发表于 2009-5-29 21:48

楼主，能否稍微改改你生成测试文本的代码，要求的效果是100多W行文本，文件体积超过100MB，给感兴趣的朋友们看看？

netbenton 发表于 2009-5-29 22:19

一个cmd最大可以使用内存为64M，除去一些系统和BAT程序本身占用，应该有60M可以给变量使用，所有字符是以字为单元，一变量定义就算只有：一个字变量名，一个等号，一个字符值，一个分隔符，最少要占4个字的空间，也就是说以最小的变量定义计算，只可以定义：60/2/4=7.5M个变量
如果这100W行中只有少数几行是重复的话，就要定义近100W个变量，相当一1M个变量，可是如果定义的变量名平均超过28个字符的话，无疑就会溢出。就此题来说用定义变量判断重复的方法，出错的可能性有一半。
还有一点，当定义的变量数量过大时，系统去搜索变量名也是需要时间的。
我曾经做过这种测试，就是不停的定义变量，看一个cmd到底能定义多少个变量。
最后是定义到该cmd进程序占用40多M内存时就不耐烦了，等待了好长时间，越是到最后就越慢。

plp626 发表于 2009-5-30 03:31

如果要处理的字符没有双引号(有双引号时借助sed先用特殊字符比如中文下的特殊字符，这个花不了到少时间)
新打开一个命令行然后：
[free]for /f "eol= delim=" %a in (tmp.txt)do @if not defined "%a" (@echo.%a>>your.txt&set "%%a=1")[/free]

echo. >>file 的效率大概是每秒5000次，那么100万行需要200秒左右

plp626 发表于 2009-5-30 03:38

[quote]原帖由 [i]Kiming[/i] 于 2009-5-29 20:42 发表 [url=http://bbs.bathome.net/redirect.php?goto=findpost&pid=30268&ptid=4690][img]http://bbs.bathome.net/images/common/back.gif[/img][/url]
@echo off
for /f "delims=" %%i in (test.txt) do (
if not defined %%i set %%i=s & echo %%i>>result.txt)
大概需要30 s就可以了
可是这段代码我有点不理解不知LS的道能否解释下 [/quote]

if not defined %%i set %%i=s
这句就是保证单行输出的
当一个行第一次出现时，输出后给他一个赋值(随便什么数字都型)，当下次它再次出现时，因为有上次的set ...=s
所以已经是"defined"了,自然后面的echo %%i>>result.txt就不会执行了

你把 if not defined %%i set %%i=s & echo %%i>>result.txt改成

if not defined %%i （echo %%i>>result.txt&set %%i=s ) 就容易理解了(注意加上括号)

但是这个代码有bug的，上楼就没有bug了
对于开头行是;还有行内含有空格，特殊字符的<>|等的行
for /f "eol= delim=" %a in (tmp.txt)do @if not defined "%a" @(echo.%a>>your.txt&set "%a=1")
都可以解决

[[i] 本帖最后由 plp626 于 2009-5-30 03:42 编辑 [/i]]

Kiming 发表于 2009-5-30 07:16

回复 29楼的帖子

为什么要 set %%i=s 就不能等于别的吗
“delims=" 这是什么意思啊 delims 是想删除什么啊

页: [1] 2

批处理之家's Archiver