注册
登录
论坛
搜索
帮助
导航
私人消息 (0)
公共消息 (0)
论坛任务 (0)
系统消息 (0)
好友消息 (0)
帖子消息 (0)
批处理之家
»
BAT求助&讨论
» 求助:批处理如何实现去除相似重复行
[新手上路]
批处理新手入门导读
[视频教程]
批处理基础视频教程
[视频教程]
VBS基础视频教程
[批处理精品]
批处理版照片整理器
[批处理精品]
纯批处理备份&还原驱动
[批处理精品]
CMD命令50条不能说的秘密
[在线下载]
第三方命令行工具
[在线帮助]
VBScript / JScript 在线参考
返回列表
发帖
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
1
楼
跳转到
»
倒序看帖
打印
字体大小:
t
T
发表于 2022-1-15 20:10
|
显示全部帖子
[文本处理]
求助:批处理如何实现去除相似重复行
由于工作需要,使用OCR识别软件,识别结果如下案例,每行会有相似差不多的文本,去重复的代码我自己会写,但是要一模一样的行,才能去除,像下面这样,就没有办法实现,哪位朋友要是会写,帮忙给我写一个,后面可能还有几百条的样子,相似度过高的话就留住最开始的那条即可,不甚感激,祝大家春节快乐,新年发财。
欢迎光临大家
欢迎光临人家
谢谢你的指导a
谢谢你的指导b
谢谢你的指导c
收藏
分享
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
2
楼
发表于 2022-1-16 20:12
|
显示全部帖子
回复
6#
xp3000
好的谢谢大哥,我刚才测试了一下,运行代码没有反应,可以帮忙在你机子上试试不,前面那个软件我也去下载来试试,只要能解决就行哈
TOP
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
3
楼
发表于 2022-1-17 12:21
|
显示全部帖子
回复
8#
qixiaobin0715
你好,是的,这个问题我没有考虑进去,大概的话,就是前面两行之中,如果是前面5个字都一样,那么就取其中一行的意思,基本在OCR识别后,最后几位会有问题,这样就差不多把相似的排除了,很干净其实也难,因为有可能好多行都有问题哈
TOP
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
4
楼
发表于 2022-1-17 12:21
|
显示全部帖子
回复
9#
went
你好,有可能是相邻,但基本都在尾部,感觉能把尾部这样去除已经可以了
TOP
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
5
楼
发表于 2022-1-17 12:22
|
显示全部帖子
本帖最后由 seekbook 于 2022-1-17 12:28 编辑
回复
10#
xp3000
你好大佬,我刚才试了一下,还是有问题,这个文件怎么都存不成ansi格式的,有点奇怪,保存完,打开后,又变UFT-8了,第一行的 *.txt要改成 我的文件名吗,我测试了一下,会提示找不到文件
TOP
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
6
楼
发表于 2022-1-18 09:45
|
显示全部帖子
回复
15#
went
感谢大佬,您的代码写的真清晰,我测试了一下处理到200多行就停住了,慢点不要紧哈,只要能处理出来就行了,我现在这个是识别了一部纪录片里的字幕,有些好几行都差不多的,我把文件 a.txt 传上来,可以麻烦您下载下来在本地跑一下吗,谢谢
链接:https://pan.baidu.com/s/1UsxUFOcaTBbLtlj6PoXLZw?pwd=kkkk
提取码:kkkk
--来自百度网盘超级会员V5的分享
TOP
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
7
楼
发表于 2022-1-18 10:50
|
显示全部帖子
楼上已发哈,重发了刚才
TOP
seekbook
发短消息
加为好友
seekbook
当前离线
UID
38179
帖子
32
精华
0
积分
52
PB
52
技术
0
捐助
0
阅读权限
10
在线时间
9 小时
注册时间
2011-6-3
最后登录
2022-2-24
上等兵
帖子
32
积分
52
技术
0
捐助
0
注册时间
2011-6-3
8
楼
发表于 2022-1-18 17:13
|
显示全部帖子
回复
18#
went
感谢大哥,可以实现了,解决了我的工作问题,对了,如果说,我要排除有6个字符相似的话,就把set "max=4" 这个改成5 就可以了吗?
TOP
返回列表
批处理专区: BAT CMD DOS
BAT求助&讨论
BAT教程&资料
BAT原创&转载
BAT新大陆
BAT转载代码
新手练功
出题挑战
有偿求助
第三方命令行
开源原创工具
iBAT
Take Command
其他脚本区
PowerShell求助&讨论
PowerShell教程&资料
PowerShell原创&转载
VBS求助&讨论
JS / JScript / JavaScript
VBS教程&资料
VBS原创&转载
UNIX/Linux Shell
Python
Perl
网络资源区
电脑技术研讨
精品软件交流
论坛事务区
站务交流
意见反馈
论坛公告
版主申请
交换链接
建站杂谈
活动专区
论坛总版规
[收藏此主题]
[关注此主题的新回复]
[通过 QQ、MSN 分享给朋友]