批处理之家 - Powered by Discuz! Board

标题: [文本处理] [已解决]如何使用文本工具进行整行去重、首列排序 [打印本页]

作者: 77七 时间: 2023-6-3 16:45 标题: [已解决]如何使用文本工具进行整行去重、首列排序

本帖最后由 77七于 2023-6-5 13:25 编辑

请教各位老师、大佬：
如何使用gawk或sed或grep等专业文本处理工具对文本进行以下处理
1.按整行进行去重（如第一行、第三行相同，则去除第三行）；
2.仅对第一列进行排序（第一列相同的所有行保持原有的上下顺序）

文本编码ansi 数万行含有多列（空格分隔）含有数字、汉字、符号，不含引号、叹号；
批处理编码ansi
如 1.txt

江苏 盐城
江苏 苏州 宿迁
浙江 杭州
江苏 南京
江苏 盐城
江苏 苏州
安徽 合肥
复制代码

20230605 13：25 重新修改 1.txt

浙江 杭州
江苏 盐城
江苏 苏州 宿迁
江苏 南京
江苏 盐城
江苏 苏州
安徽 合肥
复制代码

希望几秒内处理完成，结果直接覆盖，或者得到 2.txt
2.txt
20230605 13：19 修改
utf-8编码的1.txt sort排序及手动处理结果:

江苏 盐城
江苏 苏州 宿迁
江苏 南京
江苏 苏州
浙江 杭州
安徽 合肥
复制代码

ansi编码的1.txt sort排序及手动处理结果:

安徽 合肥
江苏 盐城
江苏 苏州 宿迁
江苏 南京
江苏 苏州
浙江 杭州
复制代码

如上，排序了江苏、浙江、安徽；去除了重复行（第二个江苏盐城）；
江苏盐城；江苏苏州宿迁；江苏南京；江苏苏州；的上下顺序不变。

谢谢！
补充说明：
上述2.txt结果是我错误的对utf-8编码的1.txt经过sort排序后，手动加工形成的。
像江苏、浙江、安徽的上下顺序，不影响实际使用。

作者: buyiyang 时间: 2023-6-3 21:11

本帖最后由 buyiyang 于 2023-6-3 21:14 编辑

gawk "{a[$1][FNR]=$0;if (!($1 in order)) {order[length(order) + 1] = $1}} END {for (i = 1; i <= length(order); i++) {n = asorti(a[order[i]], b);for (j = 1; j <= n;j++) {if (!(a[order[i]][b[j]] in s)) {print a[order[i]][b[j]];s[a[order[i]][b[j]]] = 1}}}}" 1.txt > 2.txt
复制代码

作者: 77七 时间: 2023-6-3 21:26

回复 2# buyiyang

谢谢大佬，测试正确，非常感谢！

作者: qixiaobin0715 时间: 2023-6-4 09:48

试了试，纯P也能处理，确实要慢许多。

作者: terse 时间: 2023-6-4 10:21

gawk "{if(!c[$0]++){if(!f[$1]++)b[++n]=$1;a[$1][++m[$1]]=$0}}END{for(i=1;i<=n;i++)for(j=1;j<=m[b[i]];j++)print(a[b[i]][j])}" 1.txt >2.txt
复制代码

作者: 77七 时间: 2023-6-4 11:26

回复 4# qixiaobin0715

感谢大佬关注！因为文本是不断变化的，又是几万行，经常需要处理，就没有考虑纯批处理。现在试了一下，我发现了一个知识点，批处理的sort命令对 1楼的文本保存为ansi 和utf-8 的排序结果居然是不一样的。

作者: 77七 时间: 2023-6-4 11:28

回复 5# terse

感谢大佬帮助！测试结果正确。

作者: qixiaobin0715 时间: 2023-6-5 09:35

本帖最后由 qixiaobin0715 于 2023-6-5 09:36 编辑

回复 6# 77七
想到第三方也基本上隐性的使用临时文件，如果用纯P的话，在特定位置使用临时文件是不是效率要高一些，因为没有测试文本测试，结果不知如何：

@echo off
(for /f "tokens=1*" %%i in (1.txt) do (
    if not defined _"%%i" (
        set _"%%i"=true
        findstr /lb "%%i " 1.txt>temp
        for /f "delims=" %%a in (temp) do (
            if not defined _"%%a" (
                set _"%%a"=true
                echo,%%a
            )
        )
    )
))>2.txt
del temp
pause
复制代码

作者: 77七 时间: 2023-6-5 11:27

本帖最后由 77七于 2023-6-5 12:17 编辑

回复 8# qixiaobin0715

谢谢大佬，使用 http://www.bathome.net/redirect.php?goto=findpost&;ptid=12081&pid=76757 测试代码用时53分钟。这个耗时代码可能有点问题，结果少了一个0。文本有5万3千行。

作者: 77七 时间: 2023-6-5 12:03

本帖最后由 77七于 2023-6-5 17:12 编辑

回复 2# buyiyang

大佬，能不能帮我再修改一下，实际使用中，我发现脚本没有对首列进行排序，仅仅是将首列相同的行排在了一起。
1楼的2.txt的结果，是我错误使用批处理的sort命令，对utf-8编码的1.txt排序了江苏、浙江、安徽后，手动调整第二列及以后列顺序后形成的，和1.txt中的江苏、浙江、安徽行首次出现的上下顺序相同，属于巧合。如果sort ansi编码的1.txt文本，安徽是排在第一个的。
可能让您造成了一定程度的误解，不好意思。
我希望它们有某一种顺序就行，就像批处理中的 sort 排序utf-8 或ansi ，正逆序也都可以。

可能用数字描述更准确，实际使用中首列数字、汉字、字母都有。以下仅演示排序。

谢谢大佬，terse大佬已经帮助我解决了问题。

作者: aloha20200628 时间: 2023-6-5 12:27

用变量是否已被定义来判断目标数据‘有无’，的确是纯P的一款利器，但受限于cmd总内存卡在64MB，有时可能也会打爆cmd，例如用其对应数万+行数据时... 参见》http://www.bathome.net/thread-29022-1-1.html

本帖的另一趣点是文本行去重。看过国内外有关网站的很多老帖，用纯P解决文本行去重的经典招数，还是那个 awk 句式，简洁漂亮高效！
awk.exe "!existLines[$0]++" inF.txt>outF.txt
虽然其算法用纯P或vbs或js均可实现，但动态编码与静态编码之比的运行效率显然是立见高下...

作者: 77七 时间: 2023-6-5 12:47

回复 11# aloha20200628

谢谢老师指点！gawk去重确实很好用，但是我主要是想解决首列排序的问题。

作者: 77七 时间: 2023-6-5 14:12

如果使用gawk去重，使用批处理排序首列，我的思路是这样的，将行号添加到第二列前面，然后sort “第一列行号第二列”，能排序首列，并且不改变首列相同行的上下顺序。只是一直 set 效率非常低。

@echo off
gawk "!existLines[$0]++" 1.txt>2.txt
setlocal enabledelayedexpansion
for /f "tokens=1-2* delims=: " %%a in ('type "2.txt" ^|findstr /n .*') do (
	echo %%a
	set n=00000000%%a
	set "#%%b#!n:~-7!=%%c"
)
(for /f "tokens=1-2* delims=#=" %%a in ('set # ^|sort') do (
	echo %%a %%c
))>3.txt
endlocal
pause
复制代码

作者: qixiaobin0715 时间: 2023-6-5 14:22

回复 9# 77七
纯P看来是不行。建议发一个测试的文本，以供对此类问题感兴趣的同仁练习用。

作者: 77七 时间: 2023-6-5 14:43

回复 14# qixiaobin0715

实际文本也很简单，就两三列简短的数据，使用随机数可以创建一个类似的。

@echo off
setlocal enabledelayedexpansion
(for /l %%l in (1,1,50000) do (
	set n=!random!
	set m=!random!
	echo !n! !m!
))>1.txt
复制代码

作者: terse 时间: 2023-6-5 14:55

楼主是想让安徽排在第一个这样的排序吗

作者: 77七 时间: 2023-6-5 15:00

本帖最后由 77七于 2023-6-5 15:12 编辑

回复 16# terse

大佬，像以下这样的，数字比较好说明，汉字因为编码问题，排序有差异又出现巧合。实际文本是ansi，只要排序了就行，比如以下数字，可以排成 1 2 3 ，也可以 3 2 1 。

作者: xczxczxcz 时间: 2023-6-5 15:38

吐个槽：学一门对象语言，不就简单了吗，用你上面的50000行脚本，用PS排序分类也秒内完成。唉，为何总纠结bat?

作者: terse 时间: 2023-6-5 16:17

去重复然后排序，只是不确定你想怎样排序，是一次性排序，还是只排关键词，试试吧，看达不到要求

gawk "{if(!c[$0]++)a[$1][b[$1]++]=$0}END{PROCINFO[\"sorted_in\"]=\"@ind_str_asc\";for(k in a)for(i=0;i<b[k];i++) print a[k][i]}" 1.txt>2.txt
复制代码

回复 17# 77七

作者: 77七 时间: 2023-6-5 16:24

回复 18# xczxczxcz

谢谢大佬指点！注册账号以前没接触过计算机语言，包括现在我也不知道什么是对象语言...因为现在bat基本可以满足我的实际使用需要，还有很多第三方工具可以调用补充bat的不足，所以我的想法是把bat学好就行，自己实用为主，暂时不考虑学习ps。

作者: 77七 时间: 2023-6-5 17:10

回复 19# terse

谢谢大佬，测试没问题，完全满足需求。批处理中的 sort 会按整行排序，排序第一列同时会排序第二列。我是想对第二列不排序，保持原有顺序。
大概是1楼，由于我的错误，和巧合，让您造成了误解，不好意思。描述起来可能比较困难，本意像13楼中我的批处理排序代码那样，第一列相同的，行号小的第二列会排在上面。

作者: terse 时间: 2023-6-5 19:32

一定执着于批处理的话这样处理怎么样，效率提高不大，比较SET还是否轻松点吧

@echo off&setlocal enabledelayedexpansion
REM 存为ANSI文件
%1 (for /f "tokens=1,2*" %%i in ('%0 rem ^|sort') do echo %%i %%k)>2.txt&exit
for /f "tokens=1,2*delims=: " %%a in ('findstr /n . ^< a.txt') do (
     if not defined _"%%b %%c" (
        set s=000000%%a
        echo %%b !s:~-7! %%c
     )
     set _"%%b %%c"=0
)
复制代码

作者: 77七 时间: 2023-6-5 20:34

回复 22# terse

谢谢大佬！没有执着用批处理解决这个问题。这种写法学习了！测试了一下，用时12分钟。

我把代码中的去重去掉了，（因为还在set，在下午测试的时候我发现批处理set 到三四万个变量后，速度已经变得很慢）。直接使用gawk去重，使用代码排序，耗时只需1分钟，效率已大大提高！

作者: WHY 时间: 2023-6-5 21:41

本帖最后由 WHY 于 2023-6-6 09:38 编辑

bat+JS 试试

@if(0)==(0) echo off
pushd "%~dp0"
type 1.txt | cscript //nologo //e:jscript "%~f0" > 2.txt
pause & exit/b
@end

var map = {};
var num = 100000000;

var str = WSH.StdIn.ReadAll();
var arr = str.replace(
    /^(\S+)[^\r\n]*(?=\r\n|$)/mg,
    function(s0, s1){
        if (!map.hasOwnProperty(s0)){
            map[s0] = true;
            return s1 + ++num + ' ' + s0;    //每一行添加数字
        } else {
            return '';  //去重复
        }
    }
).split('\r\n').sort();

str = arr.join('\r\n').replace(/^\S+ /mg, '');     //删掉每一行添加的数字
str = str.replace(/^(?:\r\n)+/, '');               //删掉开头的回车换行
WSH.Echo(str);
复制代码

作者: 77七 时间: 2023-6-5 21:58

回复 24# WHY

谢谢大佬！速度也很快，5万行文本，1-2秒左右。

作者: aloha20200628 时间: 2023-6-9 12:33

既然LZ的主旨是要用纯P组织流程与控制，用高效第三方工具作任务执行，就用awk+sort的组合拳了。
从本站下载 sort.exe v2.1/v7.6 两个版皆可，最好更名调用(如_sort.exe)以免和系统内置款冲突。
例如》 _sort -k 1 -t ";" inF.txt>outF.txt
上式中的参数-k指定仅对第1列排序，参数-t指定各列分隔符为分号，默认是空格。

作者: 77七 时间: 2023-6-9 14:42

回复 26# aloha20200628

谢谢老师指点！我试了一下

_sort -k 1 1.txt
复制代码

没有达到效果，仍然排序了第二列。

看了sort -k的说明，我也没看明白。

-k, --key=POS1[,POS2] 在 POS1（起点 1）开始一个键，在 POS2 结束
（默认行尾）

作者: hfxiang 时间: 2023-6-9 18:03

回复 17# 77七

gawk "!a[$1]++{c[++i]=$1}{b[$1,a[$1]]=$0}END{s=asort(c,tA);for(i=1;i<=s;i++)for(j=1;j<=a[tA[i]];j++)print b[tA[i],j]}" 1.txt>2.txt
复制代码

作者: 77七 时间: 2023-6-9 20:37

回复 28# hfxiang

谢谢大佬！大佬的代码对首列的排序方式有点与众不同，测试排序数字，大概是按数值大小排序的；测试排序汉字，大致和批处理的sort排序相同；满足排序需求，非常感谢！

作者: aloha20200628 时间: 2023-6-9 21:19

看来满足LZ的特殊要求还须一个参数 -s 帮忙，订正为下式即可》
_sort -s -k 1,1 inF.txt>outF.txt

再分享一个有关 _sort.exe 的趣点，单用（必须是单用!）一个参数 -u 还可去重，如下式》
_sort -u inF.txt>outF.txt

如此，去重+排序可被 _sort.exe 一举拿下...

作者: 77七 时间: 2023-6-9 22:00

回复 30# aloha20200628

谢谢老师指点！
测试排序，结果正确！
测试去重，默认带了排序功能。
如果只是简单的去重排序，代码简短容易记忆，堪称神器！
非常感谢！

欢迎光临批处理之家 (http://bbs.bathome.net/)