标题: [文本处理] 批处理怎样删除组成元素相同的重复行? [打印本页]
作者: DAIC 时间: 2011-9-2 11:55 标题: 批处理怎样删除组成元素相同的重复行?
文本中有很多行,下面只是一部分,每行都是三列随机数字:
1 1 1
1 1 2
1 2 1
2 3 0
2 1 1
0 2 3
4 5 6
只要组成元素相同,就视为重复行。比如以下三行均视为重复行:
1 1 2
1 2 1
2 1 1
还有以下两行也是重复行:
2 3 0
0 2 3
对于重复行,任意保留中一行即可。对于非重复行,原样保留。
作者: CrLf 时间: 2011-9-2 12:44
来一个兼容性很差的...抛砖了哈:- @echo off&setlocal enabledelayedexpansion
- for /f "delims=" %%a in (1.txt) do (
- set /a n=0
- for %%b in (%%a) do set /a "n+=1<<%%b"
- if not defined _!n! echo %%a
- set _!n!=_
- )
- pause
复制代码
作者: DAIC 时间: 2011-9-2 13:42
回复 2# CrLf
多谢版主
请问兼容性差是指什么?
作者: DAIC 时间: 2011-9-2 15:30
回复 4# else
多谢,看来2楼的代码不能用了,我的数据很重要,不能漏掉。
作者: CrLf 时间: 2011-9-2 18:05
来一个列排序版的,用的是比较简陋的排序方式,列数一多就蛋疼了...- @echo off&setlocal enabledelayedexpansion
- for /f "tokens=1-3" %%a in (1.txt) do (
- set /a a=%%a,b=%%b,c=%%c
- for %%d in (c-b b-a c-b) do (
- for /f "tokens=1,2 delims=-" %%e in ("%%d") do (
- if !%%e! gtr !%%f! set /a %%e=!%%f!,%%f=!%%e!
- )
- )
- if not defined _!a!_!b!_!c! (
- echo %%a %%b %%c
- set _!a!_!b!_!c!=_
- )
- )
- pause
复制代码
作者: CrLf 时间: 2011-9-2 18:30
来一个不那么蛋疼的,只要在 str 中给够足量的变量名,应可兼容任意列数:- @echo off&setlocal enabledelayedexpansion
- set str=a b c
- ::abc 分别代表三个变量名,表示只有三列
-
- for %%a in (!str!) do (
- for /f %%b in ("!str:*%%a=!") do (
- if defined list set "list=!list!%%a "
- set "list=%%a !list!"
- set list=!list:%%a =%%b-%%a !
- )
- )
- ::获取用于 if 判断的顺序表
-
- for /f "delims=" %%a in (1.txt) do (
- set tmp=%%a
- for %%b in (%str%) do (
- for /f %%c in ("!tmp!") do set %%b=%%c
- set tmp=!tmp:~2!
- )
- rem 设置每列的值到对应变量
-
- for %%d in (%list%) do (
- for /f "tokens=1,2 delims=-" %%b in ("%%d") do (
- if !%%b! gtr !%%c! set /a %%b=!%%c!,%%c=!%%b!
- )
- )
- if not defined _!a!_!b!_!c! (
- echo %%a
- set _!a!_!b!_!c!=_
- )
- )
- pause
复制代码
作者: 545810831 时间: 2011-9-2 21:42
每一行元素相同且都是数字, 相同的数字之和相等,元素都必然相同- @echo off
- setlocal enabledelayedexpansion
- for /f "tokens=1-3" %%a in (1.txt) do (
- set /a num=%%a+%%b+%%c
- for /f "tokens=1-4" %%i in ("!num! %%a %%b %%c") do (
- set /a _%%i+=1
- if "!_%%i!"=="1" echo %%j %%k %%l
- )
- )
- pause
复制代码
作者: DAIC 时间: 2011-9-2 22:23
回复 9# 545810831
1+2+3=2+2+2
作者: 545810831 时间: 2011-9-3 06:21
错了?解决不了问题
作者: 545810831 时间: 2011-9-5 11:21
一行各个元素平方和只有各个元素相同时才会相等,所以稍稍改一下代码即可,不知文本有多长,可能导致卡机?
作者: CrLf 时间: 2011-9-5 12:34
有想法,不过也是不严谨,3 0 0 与 2 2 1 平方和相同
作者: CrLf 时间: 2011-9-5 12:40
不过如果列数与指数相同,好像没想到有反例可以证明这种算法不严谨
作者: sxw 时间: 2011-9-5 14:08
本着解决问题的思想,如果只是数字可以试试用Perl解决:- #!/usr/bin/perl
- use warnings;
- use strict;
-
- my %count;
- while (<DATA>) {
- my @number=split;
- chomp (my $sorted_number=join "",sort { $a <=> $b } @number);
- $count{$sorted_number}++;
- print "$_" if $count{$sorted_number}==1;
- }
- __END__
- 1 1 1
- 1 1 2
- 1 2 1
- 2 3 0
- 2 1 1
- 0 2 3
- 5 4 6
- 4 5 6
- 7 8 9
- 8 7 9
- 1 1 1
复制代码
作者: wc726842270 时间: 2011-9-5 16:35
- @echo off
- if exist temp1.txt (del /a /f temp1.txt)
- if exist temp2.txt (del /a /f temp2.txt)
- for /f "tokens=1-3" %%i in (1.txt) do (
- (echo %%i&echo %%j&echo %%k)|sort
- )>>temp1.txt
- for /f "tokens=1,2 delims=:" %%i in ('findstr /n .* temp1.txt') do (
- setlocal enabledelayedexpansion
- set /a a=%%i%%3
- if !a! equ 1 (echo.&&set /p=%%j<nul) else (set /p=%%j<nul)
- )>>temp2.txt
- del /a /f temp1.txt
- pause
复制代码
运行这个代码可以帮你转换成"去掉重复行",之后就好处理了
好久没写了,可能不给力
作者: wc726842270 时间: 2011-9-5 17:05
另外怎么没人用冒泡排序啊,个人认为可以在FOR /F中用它来达到我16L的转换
作者: ArdentMan 时间: 2011-9-5 19:42
效率不太好- @Echo Off&SetLocal EnableDelayedExpansion
- (For /F "delims=" %%i In (a.txt) Do (
- Set "Str="
- For /F %%j In ('^(For %%j In ^(%%i^) Do Echo %%j^)^|Sort') Do Set "Str=!Str! %%j"
- If Not Defined _!Str:~1! Echo %%i&Set "_!Str:~1!=a"
- ))>b.txt
- Start b.txt
复制代码
作者: 545810831 时间: 2011-9-7 15:57
我之前没有经过论证就做出论断 "一行各个元素平方和只有各个元素相同时才会相等" 是错误的,我找几个数
如 6 6 7 和6 9 2 他们的平方和是121 而他们组成元素是不同的
作者: 545810831 时间: 2011-9-7 16:07
我之前没有做过论证就做出了判断:"一行各个元素平方和只有各个元素相
同时才会相等" 我找几个数 如6 6 7 和6 9 2 他们的平方和是121,而他
们组成元素是不同的
作者: Batcher 时间: 2011-9-7 18:13
回复 20# 545810831
勾股定理就是一个比较容易想到的反例
作者: awk 时间: 2011-9-18 20:58
- gawk "!a[$1^5+$2^5+$3^5]++" a.txt
复制代码
作者: awk 时间: 2011-9-18 21:00
- gawk "!a[10^$1+10^$2+10^$3]++" a.txt
复制代码
作者: awk 时间: 2011-9-18 21:02
- gawk "BEGIN {p[0]=2;p[1]=3;p[2]=5;p[3]=7;p[4]=11;p[5]=13;p[6]=17;p[7]=19;p[8]=23;p[9]=29;}!a[p[$1]*p[$2]*p[$3]]++" a.txt
复制代码
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |