Board logo

标题: [文本处理] 文本内容如何用批处理去重? [打印本页]

作者: shootman2    时间: 2015-4-18 17:35     标题: 文本内容如何用批处理去重?

假如文件123.txt的内容如下,如何将内容输出为每行都是唯一的!

张三
张三
李四
[email]zhangsan@163.com[/email]
张三
李四
[email]lisi@163.com[/email]
李四
[email]wangwu@163.com[/email]
[email]lisi@163.com[/email]
作者: pcl_test    时间: 2015-4-18 17:42

  1. @echo off
  2. gawk "!a[$0]++" 测试.txt >结果.txt
  3. pause
复制代码

作者: pcl_test    时间: 2015-4-18 17:46

  1. @echo off
  2. (for /f "delims=" %%a in ('type "测试.txt"') do if not defined %%a (echo,%%a &set %%a=def))>"结果.txt"
  3. pause
复制代码

作者: shootman2    时间: 2015-4-18 17:59

pcl_test 发表于 2015-4-18 17:42



debug>gawk "!a[$0]++" 123.txt
gawk: cmd. line:1: (FILENAME=123.txt FNR=1) fatal: print to "standard output" failed (Exec format error)

好像不支持中文!
作者: pcl_test    时间: 2015-4-18 18:06

回复 4# shootman2

不是你这样用的
作者: shootman2    时间: 2015-4-18 18:19

回复  shootman2

不是你这样用的
pcl_test 发表于 2015-4-18 18:06



    请指教!
作者: bailong360    时间: 2015-4-18 18:32

  1. @echo off
  2. sort 123.txt|uniq >b.txt
复制代码

作者: shootman2    时间: 2015-4-18 19:18

回复 7# bailong360


    还是不好使。。。
作者: pcl_test    时间: 2015-4-18 20:12

回复 5# pcl_test
  1. gawk "!a[$0]++" "测试.txt"| more
复制代码
如果你所说的不支持中文,是指中文不能输出到标准输出,那么是有这个问题,这种情况通常要用重定向
作者: shootman2    时间: 2015-4-18 22:23

回复  pcl_test 如果你所说的不支持中文,是指中文不能输出到标准输出,那么是有这个问题,这种情况通常要用 ...
pcl_test 发表于 2015-4-18 20:12



    嗯!问题解决了,但是这个语句该怎么理解呢? 继续请教大神!
作者: gawk    时间: 2015-4-18 22:34

回复 10# shootman2


理解这个语句需要具备基础的awk知识
http://bbs.chinaunix.net/viewthread.php?tid=1672726#pid11904888
作者: shootman2    时间: 2015-4-20 10:45

有没有其他什么好的方法?
作者: shootman2    时间: 2015-4-21 22:21

回复  pcl_test 如果你所说的不支持中文,是指中文不能输出到标准输出,那么是有这个问题,这种情况通常要用 ...
pcl_test 发表于 2015-4-18 20:12



好奇怪,如果启用了变量延迟,程序就卡住一直不动了!

@echo off
setlocal enabledelayedexpansion
set aaa=d:\user_list.txt
for /f "tokens=* delims=" %%m in ('gawk "!a[$0]++" "!aaa!"') do (
        echo %%m
)
pause
作者: gawk    时间: 2015-4-21 22:33

回复 9# pcl_test
  1. gawk "!a[$0]++" 1.txt >con
复制代码
用con比较好
作者: pcl_test    时间: 2015-4-21 22:59

回复 13# shootman2
在你的代码可以不开变量延迟
  1. @echo off
  2. set "aaa=d:\user_list.txt"
  3. for /f "tokens=* delims=" %%m in ('gawk "!a[$0]++" "%aaa%"') do echo %%m
  4. pause
复制代码
要开的话,要对!转义
  1. @echo off
  2. setlocal enabledelayedexpansion
  3. set "aaa=d:\user_list.txt"
  4. for /f "tokens=* delims=" %%m in ('gawk "^!a[$0]++" "!aaa!"') do echo %%m
  5. pause
复制代码

作者: shootman2    时间: 2015-4-21 23:28

回复 14# gawk


    不知道这个con是第三方吗?
作者: shootman2    时间: 2015-4-21 23:29

回复  shootman2
在你的代码可以不开变量延迟要开的话,要对!转义
pcl_test 发表于 2015-4-21 22:59



    想想也是,如果启用变量延迟 ! 就有了其他含义,感谢万能的大神。。。
作者: gawk    时间: 2015-4-22 08:51

回复 16# shootman2


    不是第三方,是系统自带的设备文件。
作者: shootman2    时间: 2015-4-22 09:31

回复 18# gawk


    求大神再详细说一下con,感觉很难理解!

   还有就123.txt中含有中文的话,仅仅执行gawk "!a[$0]++" 456.txt时会报错
debug>gawk "!a[$0]++" 123.txt
gawk: cmd. line:1: (FILENAME=123.txt FNR=1) fatal: print to "standard output" failed (Exec format error)
     
     但是放到for里就ok了,
for /f %x in ('gawk "!a[$0]++" 123.txt') do echo %x
张三
李四
[email]zhangsan@163.com[/email]
[email]lisi@163.com[/email]
[email]wangwu@163.com[/email]
作者: gawk    时间: 2015-4-22 13:30

回复 19# shootman2


    能否先告诉我14楼的代码有啥报错吗
作者: shootman2    时间: 2015-4-22 14:34

回复 20# gawk


    14楼的代码是对的,没有问题,只是我不好理解con,从是什么东西,需要请教你。
   还有就是我发现的这个问题,是怎么回事呢?为什么不放到for里就error,放到for里就ok呢?
作者: gawk    时间: 2015-4-22 16:14

回复 21# shootman2


http://baike.baidu.com/view/1816882.htm




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2