找回密码
 注册
搜索
[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
查看: 25882|回复: 7

[文本处理] [已解决]批处理怎样删除重复项?

[复制链接]
发表于 2015-4-24 20:00:58 | 显示全部楼层 |阅读模式
本帖最后由 necnec1 于 2015-4-26 09:38 编辑

这3组数据 每组都有2个@  锚定了3个组成部分   123_abc   ecdfo   3685215              注明  3685215 后面紧跟的 6562  58  2   656   222   这些数据不重要

第2个@后面紧跟的3685215才是重要数据  我想根据这个数去检测第一个@前面的的数据  123_abc   CFSA   123_abc  是否有重复

结果很明显  第一组和第三组  出现了2个123_abc 和2个3685215  说明他们是相同的
随便删除其中一个  保留其中一个就好了
最后的结果就是



文本有大概200多万行  请高手帮忙用最快的办法处理一下  谢谢
发表于 2015-4-24 20:59:03 | 显示全部楼层
文件过大最好用第三方命令,另外需要部分测试样本
发表于 2015-4-24 21:02:03 | 显示全部楼层
回复 1# necnec1

每行的顺序重要吗?或者说重新排序会影响使用吗?
 楼主| 发表于 2015-4-24 21:07:56 | 显示全部楼层
如果可以的话 可以按照 3685215 这组数排序  相同的行放在一起  这样方便查找
 楼主| 发表于 2015-4-24 21:09:33 | 显示全部楼层
回复 2# yangfengoo


    回复2楼   我文件的结构跟我提供的3行基本是一致的  只要保证2个@左中右  3组关键数据 完全一致就可以了
发表于 2015-4-25 09:39:47 | 显示全部楼层
本帖最后由 bailong360 于 2015-4-25 18:13 编辑
  1. #&@>"New.txt" gawk -f %0 -F "@" Your.txt&exit
  2. {split($3,a," ");if (data[a[1],$1]!=1) {data[a[1],$1]=1;print $0}}
复制代码

评分

参与人数 1技术 +1 收起 理由
necnec1 + 1 非常好 谢谢

查看全部评分

 楼主| 发表于 2015-4-25 14:39:12 | 显示全部楼层
本帖最后由 necnec1 于 2015-4-26 09:39 编辑

回复 6# bailong360
发表于 2015-4-25 18:13:48 | 显示全部楼层
回复 7# necnec1


    已修改
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|批处理之家 ( 渝ICP备10000708号 )

GMT+8, 2026-3-19 06:17 , Processed in 0.018991 second(s), 8 queries , File On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表