标题: [文本处理] [已解决]批处理怎样删除重复项? [打印本页]
作者: necnec1 时间: 2015-4-24 20:00 标题: [已解决]批处理怎样删除重复项?
本帖最后由 necnec1 于 2015-4-26 09:38 编辑
这3组数据 每组都有2个@ 锚定了3个组成部分 123_abc ecdfo 3685215 注明 3685215 后面紧跟的 6562 58 2 656 222 这些数据不重要
第2个@后面紧跟的3685215才是重要数据 我想根据这个数去检测第一个@前面的的数据 123_abc CFSA 123_abc 是否有重复
结果很明显 第一组和第三组 出现了2个123_abc 和2个3685215 说明他们是相同的
随便删除其中一个 保留其中一个就好了
最后的结果就是
文本有大概200多万行 请高手帮忙用最快的办法处理一下 谢谢
作者: yangfengoo 时间: 2015-4-24 20:59
文件过大最好用第三方命令,另外需要部分测试样本
作者: pan528 时间: 2015-4-24 21:02
回复 1# necnec1
每行的顺序重要吗?或者说重新排序会影响使用吗?
作者: necnec1 时间: 2015-4-24 21:07
如果可以的话 可以按照 3685215 这组数排序 相同的行放在一起 这样方便查找
作者: necnec1 时间: 2015-4-24 21:09
回复 2# yangfengoo
回复2楼 我文件的结构跟我提供的3行基本是一致的 只要保证2个@左中右 3组关键数据 完全一致就可以了
作者: bailong360 时间: 2015-4-25 09:39
本帖最后由 bailong360 于 2015-4-25 18:13 编辑
- #&@>"New.txt" gawk -f %0 -F "@" Your.txt&exit
- {split($3,a," ");if (data[a[1],$1]!=1) {data[a[1],$1]=1;print $0}}
复制代码
作者: necnec1 时间: 2015-4-25 14:39
本帖最后由 necnec1 于 2015-4-26 09:39 编辑
回复 6# bailong360
作者: bailong360 时间: 2015-4-25 18:13
回复 7# necnec1
已修改
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |