求助：批处理如何实现去除相似重复行

seekbook · 发表于 2022-1-15 20:10:35

由于工作需要，使用OCR识别软件，识别结果如下案例，每行会有相似差不多的文本，去重复的代码我自己会写，但是要一模一样的行，才能去除，像下面这样，就没有办法实现，哪位朋友要是会写，帮忙给我写一个，后面可能还有几百条的样子，相似度过高的话就留住最开始的那条即可，不甚感激，祝大家春节快乐，新年发财。

欢迎光临大家
欢迎光临人家
谢谢你的指导a
谢谢你的指导b
谢谢你的指导c

xp3000 · 发表于 2022-1-15 22:24:09

grepWin这个人家就行，其他软件很多支持正则表达式的都可以

^(.{1,})(.{1,9}\r?\n)(\1.{1,9}\r?\n)+

复制代码

替换

$1$2

复制代码

aloha20200628 · 发表于 2022-1-16 14:07:49

试试这一个古老的纯P思路...
@echo off
(for /f "usebackq delims=" %%s in ("a.txt") do (find "%%s" "a.new.txt">nul || echo,%%s))>"a.new.txt"

aloha20200628 · 发表于 2022-1-16 14:10:22

抱歉！上款是精确去重...

aloha20200628 · 发表于 2022-1-16 14:34:59

模糊识别是AI的话题之一，是当下Python的一道热菜，它有专门的一套工具库打理。LZ 不妨移步那些Py论坛试试...

xp3000 · 发表于 2022-1-16 19:49:36

本帖最后由 xp3000 于 2022-1-18 18:19 编辑

//&cls&dir /b *.txt|cscript -nologo -e:jscript "%~f0"&echo 文本连续行去重复，有4个以上连续字符串不同则保留，可以修改{3,}增加数量&pause&exit
function reStr(file){
var f = fso.opentextfile(file, 1);
str = f.ReadAll().replace(/^(.{1,})(.{3,})(.{1,}\r?\n)(.{1,}\2.{1,}\r?\n)+/mg, '$1$2$3')
.replace(/^(.{1,})(.{3,})(.{1,}\r?\n)(.{1,}\2.{1,}\r?\n)+/mg, '$1$2$3')
.replace(/^(.{1,})(.{3,})(.{1,}\r?\n)(.{1,}\2.{1,}\r?\n)+/mg, '$1$2$3');
f.Close();
var f = fso.opentextfile(file, 2);
f.Write(str);
}
var fso = new ActiveXObject('Scripting.FileSystemObject');
while(!WScript.StdIn.AtEndOfStream)reStr(WScript.StdIn.ReadLine());

复制代码

BAT和文本都ANSI编码，可以保存ANSI了

seekbook · 发表于 2022-1-16 20:12:20

回复 6# xp3000

好的谢谢大哥，我刚才测试了一下，运行代码没有反应，可以帮忙在你机子上试试不，前面那个软件我也去下载来试试，只要能解决就行哈

qixiaobin0715 · 发表于 2022-1-16 20:17:12

相似重复行，这个概念太模糊，应当设定一个标准。比如下面文本中那个是相似的呢：

1
12
123
1234
12345
123456
1234567
12345678
123456789
1234567890

复制代码

went · 发表于 2022-1-16 20:26:01

大致相似的行在文本中位置是否相邻？

seekbook · 发表于 2022-1-17 12:21:18

回复 8# qixiaobin0715

你好，是的，这个问题我没有考虑进去，大概的话，就是前面两行之中，如果是前面5个字都一样，那么就取其中一行的意思，基本在OCR识别后，最后几位会有问题，这样就差不多把相似的排除了，很干净其实也难，因为有可能好多行都有问题哈

seekbook · 发表于 2022-1-17 12:21:53

回复 9# went

你好，有可能是相邻，但基本都在尾部，感觉能把尾部这样去除已经可以了

seekbook · 发表于 2022-1-17 12:22:22

本帖最后由 seekbook 于 2022-1-17 12:28 编辑

回复 10# xp3000

你好大佬，我刚才试了一下，还是有问题，这个文件怎么都存不成ansi格式的，有点奇怪，保存完，打开后，又变UFT-8了，第一行的 *.txt要改成我的文件名吗，我测试了一下，会提示找不到文件

went · 发表于 2022-1-17 20:12:14

本帖最后由 went 于 2022-1-18 14:54 编辑

类似你顶楼的格式,输入a.txt,输出b.txt
如果有连续4个及以上文字相同视为重复,只保留第一个
ansi编码，试下吧,只是纯批效率有点慢

@echo off & cd /d "%~dp0"
setlocal enabledelayedexpansion
REM 文件设置
set "in=a.txt"
set "out=b.txt"
REM 阈值设置 >=
set "max=4"
REM 比较并输出
(
set "num=1"
for /f "usebackq delims=" %%i in ("%in%") do (
title 处理第!num!行: %%i
if not "!last_line!"=="" (
REM 比较当前行与上一行
call :GetMax "!last_line!" "%%i"
REM 当前< echo last and set last
if !#max_char! lss !max! echo !last! & set "last=%%i"
set "last_max_char=!#max_char!!"
) else set "last=%%i"
REM 保存当前行到上一行
set "last_line=%%i" & set /a "num+=1"
)
REM 输出最后的last
echo !last!
)>"%out%"
pause&exit
REM 函数,获取两个字符串最大相同字符个数,%#max_char%
:GetMax
set "#s1=%~1" & set "#s2=%~2" & set /a "#i=0,#max_char=0"
set "#s1=%#s1:"='%" & set "#s2=%#s2:"='%"
:L1
if "!#s1:~%#i%,1!"=="" goto :eof
set "#j=1"
:L2
if "%#last%"=="!#s1:~%#i%,%#j%!" ( set /a "#i+=1" & goto :L1 )
set "#last=!#s1:~%#i%,%#j%!"
if not "!#s2:%#last%=!"=="%#s2%" if %#max_char% lss %#j% set /a "#max_char=#j"
set /a "#j+=1" & goto :L2

复制代码

seekbook · 发表于 2022-1-18 09:45:06

回复 15# went

感谢大佬，您的代码写的真清晰，我测试了一下处理到200多行就停住了，慢点不要紧哈，只要能处理出来就行了，我现在这个是识别了一部纪录片里的字幕，有些好几行都差不多的，我把文件 a.txt 传上来，可以麻烦您下载下来在本地跑一下吗，谢谢

链接：https://pan.baidu.com/s/1UsxUFOcaTBbLtlj6PoXLZw?pwd=kkkk
提取码：kkkk
--来自百度网盘超级会员V5的分享

seekbook · 发表于 2022-1-18 10:50:49

楼上已发哈，重发了刚才

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 求助：批处理如何实现去除相似重复行