Board logo

标题: [文本处理] [已解決]批处理如何删除包含中文、乱码的重复行? [打印本页]

作者: strong12345    时间: 2011-8-2 10:02     标题: [已解決]批处理如何删除包含中文、乱码的重复行?

本帖最后由 strong12345 于 2011-8-3 09:34 编辑

论坛里有不少处理重复行的代码
效率高的大多用地其他第三方软件
但经我实际测试,似乎都无法支援包含中文的文档
请问 如何快速删除包含中文、各种乱码、甚至是日文韩文的重复行?
(ps)md的方法我实在是不太感尝试 =.=
作者: lfoqtal    时间: 2011-8-2 11:22

本帖最后由 lfoqtal 于 2011-8-2 11:24 编辑

试试用set /p p=<1.txt 方法读取再用findstr /c:"!p!" 2.txt的方法行不行?不过效率不高就是
作者: strong12345    时间: 2011-8-2 11:44

我目前就是用这种方法
但是效率实在太低
也不能查询太长的文字
作者: tmplinshi    时间: 2011-8-2 12:09

批处理如何快速删除2800W行的txt文件里面的重复行?
http://bathome.net/redirect.php? ... 8&fromuid=33065
作者: CUer    时间: 2011-8-2 23:40

回复 1# strong12345


能否上传一个经你测试无法处理的文档、还有你测试的代码,让我试试?
作者: strong12345    时间: 2011-8-3 09:33

  1. gawk "!a[$0]++"<a.txt>b.txt
复制代码
此代码可解决我的问题
感受到gawk的强大,真的要好好学习怎么使用他




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2