返回列表发帖

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

1楼 跳转到 » 正序看帖

打印

字体大小: tT

发表于 2022-12-21 10:06 | 只看该作者

[文本处理] gawk怎样删除文本重复行？

@echo off
for /f "delims=" %%i in (a.txt) do (if not defined %%i set %%i=A&echo %%i>>b.txt)
复制代码

这个删除文本重复行，数据太多处理速度太慢了？

用gawk 怎么写？英文大小写只保留一个比如：

你好A
你好a
美B女
美b女

去重后如下

你好A
美B女

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 601
积分: 1128
技术: 166
捐助: 0
注册时间: 2022-6-20

6楼

发表于 2022-12-21 11:24 | 只看该作者

回复 5# idc878787

如果文本必须为UTF8编码，需要用 Ruby（https://rubyinstaller.org/downloads/）中附带的 gawk 方能有效处理

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

5楼

发表于 2022-12-21 10:56 | 只看该作者

回复 4# hfxiang

看错了我的文件保存成UTF8了可以了谢谢

TOP

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 601
积分: 1128
技术: 166
捐助: 0
注册时间: 2022-6-20

4楼

发表于 2022-12-21 10:51 | 只看该作者

回复 3# idc878787

俺测试完全正常。你检查一下：
1.是否a.txt已保存为ANSI编码格式；
2.是否存在不可见字符有区别；
3.用你的原bat测试是否有效。

TOP

idc878787

一级士官

Rank: 2

帖子: 73
积分: 111
技术: 0
捐助: 0
注册时间: 2021-12-9

3楼

发表于 2022-12-21 10:36 | 只看该作者

本帖最后由 idc878787 于 2022-12-21 10:38 编辑

回复 2# hfxiang

字母在中间好像不可以？

你好B
你好b
A你好
a你好
美B女
美b女
你A好
你a好

结果

你好B
A你好
美B女
美b女
你A好
你a好

TOP

hfxiang

上尉

Rank: 5 Rank: 5

帖子: 601
积分: 1128
技术: 166
捐助: 0
注册时间: 2022-6-20

2楼

发表于 2022-12-21 10:25 | 只看该作者

本帖最后由 hfxiang 于 2022-12-21 10:30 编辑

gawk "!a[tolower($0)]++" a.txt>b.txt
复制代码

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] gawk怎样删除文本重复行？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]