[已解决]如何使用文本工具进行整行去重、首列排序 - BAT求助&讨论 - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS - Powered by Discuz!

批处理之家 » BAT求助&讨论 » [已解决]如何使用文本工具进行整行去重、首列排序

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

返回列表发帖

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

17楼 跳转到 »

发表于 2023-6-5 15:00 | 只看该作者

本帖最后由 77七于 2023-6-5 15:12 编辑

回复 16# terse

大佬，像以下这样的，数字比较好说明，汉字因为编码问题，排序有差异又出现巧合。实际文本是ansi，只要排序了就行，比如以下数字，可以排成 1 2 3 ，也可以 3 2 1 。

bat小白，请多指教！谢谢！

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

16楼

发表于 2023-6-5 14:55 | 只看该作者

楼主是想让安徽排在第一个这样的排序吗

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

15楼

发表于 2023-6-5 14:43 | 只看该作者

回复 14# qixiaobin0715

实际文本也很简单，就两三列简短的数据，使用随机数可以创建一个类似的。

@echo off
setlocal enabledelayedexpansion
(for /l %%l in (1,1,50000) do (
	set n=!random!
	set m=!random!
	echo !n! !m!
))>1.txt
复制代码

bat小白，请多指教！谢谢！

Rank: 7 Rank: 7 Rank: 7

帖子: 2877
积分: 4232
技术: 441
捐助: 0
注册时间: 2016-2-20

14楼

发表于 2023-6-5 14:22 | 只看该作者

回复 9# 77七
纯P看来是不行。建议发一个测试的文本，以供对此类问题感兴趣的同仁练习用。

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

13楼

发表于 2023-6-5 14:12 | 只看该作者

如果使用gawk去重，使用批处理排序首列，我的思路是这样的，将行号添加到第二列前面，然后sort “第一列行号第二列”，能排序首列，并且不改变首列相同行的上下顺序。只是一直 set 效率非常低。

@echo off
gawk "!existLines[$0]++" 1.txt>2.txt
setlocal enabledelayedexpansion
for /f "tokens=1-2* delims=: " %%a in ('type "2.txt" ^|findstr /n .*') do (
	echo %%a
	set n=00000000%%a
	set "#%%b#!n:~-7!=%%c"
)
(for /f "tokens=1-2* delims=#=" %%a in ('set # ^|sort') do (
	echo %%a %%c
))>3.txt
endlocal
pause
复制代码

bat小白，请多指教！谢谢！

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

12楼

发表于 2023-6-5 12:47 | 只看该作者

回复 11# aloha20200628

谢谢老师指点！gawk去重确实很好用，但是我主要是想解决首列排序的问题。

bat小白，请多指教！谢谢！

Rank: 6 Rank: 6

帖子: 1208
积分: 2070
技术: 281
捐助: 0
注册时间: 2021-10-13

11楼

发表于 2023-6-5 12:27 | 只看该作者

用变量是否已被定义来判断目标数据‘有无’，的确是纯P的一款利器，但受限于cmd总内存卡在64MB，有时可能也会打爆cmd，例如用其对应数万+行数据时... 参见》http://www.bathome.net/thread-29022-1-1.html

本帖的另一趣点是文本行去重。看过国内外有关网站的很多老帖，用纯P解决文本行去重的经典招数，还是那个 awk 句式，简洁漂亮高效！
awk.exe "!existLines[$0]++" inF.txt>outF.txt
虽然其算法用纯P或vbs或js均可实现，但动态编码与静态编码之比的运行效率显然是立见高下...

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

10楼

发表于 2023-6-5 12:03 | 只看该作者

本帖最后由 77七于 2023-6-5 17:12 编辑

回复 2# buyiyang

大佬，能不能帮我再修改一下，实际使用中，我发现脚本没有对首列进行排序，仅仅是将首列相同的行排在了一起。
1楼的2.txt的结果，是我错误使用批处理的sort命令，对utf-8编码的1.txt排序了江苏、浙江、安徽后，手动调整第二列及以后列顺序后形成的，和1.txt中的江苏、浙江、安徽行首次出现的上下顺序相同，属于巧合。如果sort ansi编码的1.txt文本，安徽是排在第一个的。
可能让您造成了一定程度的误解，不好意思。
我希望它们有某一种顺序就行，就像批处理中的 sort 排序utf-8 或ansi ，正逆序也都可以。

可能用数字描述更准确，实际使用中首列数字、汉字、字母都有。以下仅演示排序。

谢谢大佬，terse大佬已经帮助我解决了问题。

bat小白，请多指教！谢谢！

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

9楼

发表于 2023-6-5 11:27 | 只看该作者

本帖最后由 77七于 2023-6-5 12:17 编辑

回复 8# qixiaobin0715

谢谢大佬，使用 http://www.bathome.net/redirect.php?goto=findpost&;ptid=12081&pid=76757 测试代码用时53分钟。这个耗时代码可能有点问题，结果少了一个0。文本有5万3千行。

bat小白，请多指教！谢谢！

Rank: 7 Rank: 7 Rank: 7

帖子: 2877
积分: 4232
技术: 441
捐助: 0
注册时间: 2016-2-20

8楼

发表于 2023-6-5 09:35 | 只看该作者

本帖最后由 qixiaobin0715 于 2023-6-5 09:36 编辑

回复 6# 77七
想到第三方也基本上隐性的使用临时文件，如果用纯P的话，在特定位置使用临时文件是不是效率要高一些，因为没有测试文本测试，结果不知如何：

@echo off
(for /f "tokens=1*" %%i in (1.txt) do (
    if not defined _"%%i" (
        set _"%%i"=true
        findstr /lb "%%i " 1.txt>temp
        for /f "delims=" %%a in (temp) do (
            if not defined _"%%a" (
                set _"%%a"=true
                echo,%%a
            )
        )
    )
))>2.txt
del temp
pause
复制代码

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

7楼

发表于 2023-6-4 11:28 | 只看该作者

回复 5# terse

感谢大佬帮助！测试结果正确。

bat小白，请多指教！谢谢！

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

6楼

发表于 2023-6-4 11:26 | 只看该作者

回复 4# qixiaobin0715

感谢大佬关注！因为文本是不断变化的，又是几万行，经常需要处理，就没有考虑纯批处理。现在试了一下，我发现了一个知识点，批处理的sort命令对 1楼的文本保存为ansi 和utf-8 的排序结果居然是不一样的。

bat小白，请多指教！谢谢！

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

5楼

发表于 2023-6-4 10:21 | 只看该作者

gawk "{if(!c[$0]++){if(!f[$1]++)b[++n]=$1;a[$1][++m[$1]]=$0}}END{for(i=1;i<=n;i++)for(j=1;j<=m[b[i]];j++)print(a[b[i]][j])}" 1.txt >2.txt
复制代码

1 评分人数

77七: 乐于助人技术 + 1

Rank: 7 Rank: 7 Rank: 7

帖子: 2877
积分: 4232
技术: 441
捐助: 0
注册时间: 2016-2-20

4楼

发表于 2023-6-4 09:48 | 只看该作者

试了试，纯P也能处理，确实要慢许多。

Rank: 6 Rank: 6

帖子: 1794
积分: 2948
技术: 364
捐助: 50
注册时间: 2022-9-18

3楼

发表于 2023-6-3 21:26 | 只看该作者

回复 2# buyiyang

谢谢大佬，测试正确，非常感谢！

bat小白，请多指教！谢谢！