Board logo

标题: [文本处理] 批处理判断不同文件夹下文本文件是否有重复的 [打印本页]

作者: 屡败屡战    时间: 2017-12-20 09:17     标题: 批处理判断不同文件夹下文本文件是否有重复的

我每天处理大量的文本文件,其中有很大部分文件是重复的,我现在需要在这些文件里面找出重复的。  
      文档“重复的程度”是:重复文件的首行,有的有标题,有的无标题;文档末尾有自己添加的批注等等,但有的文件名字是不同的,而且内容也有少量不同,但文件的大部分内容是相同的。
      如果找出文件内容的90%以上是相同的,那么就认为是重复的,则将重复文件的标题显示在列表里面进行操作
      利用“重复文件清理工具”也扫描不出90%重复的,无柰只能一一打开查看,很崩溃
      问老师们有无好的建议(或者是相似的案例),可以甄别、判断不同文件夹下文本文件(主要是指文本内容)是否有重复的

       我主要是查找文本内容是否重复,而不是指文件名是否重复。
作者: 867258173    时间: 2017-12-20 14:39

本帖最后由 867258173 于 2017-12-20 14:43 编辑

http://tieba.baidu.com/p/4915082522
这个是查找文件名的,亲测可使用
作者: ivor    时间: 2017-12-20 19:17

回复 1# 屡败屡战

基本需求:powershell 4.0 或更高
  1. dir -recurse *.txt | Get-FileHash -Algorithm MD5 | select Hash,Path
复制代码
演示结果:路径如果显示不全,可以加 "sc 结果.txt"
Hash                             Path
----                             ----
12B004A38CFA921FF5DBBBF754BB5FE7 D:\robot\desk\Script\result\半兽.txt
C5BE26155D6940DDBEB54FEB8D005A4F D:\robot\desk\Script\1result.txt
4DED049F8B4171B161158CAFCF503EE5 D:\robot\desk\Script\result.txt
12B004A38CFA921FF5DBBBF754BB5FE7 D:\robot\desk\Script\半兽人矿工 - 副本 - 副...
12B004A38CFA921FF5DBBBF754BB5FE7 D:\robot\desk\Script\半兽人矿工 - 副本 - 副...
12B004A38CFA921FF5DBBBF754BB5FE7 D:\robot\desk\Script\半兽人矿工 - 副本 - 副...
12B004A38CFA921FF5DBBBF754BB5FE7 D:\robot\desk\Script\半兽人矿工 - 副本 - 副...
12B004A38CFA921FF5DBBBF754BB5FE7 D:\robot\desk\Script\半兽人矿工 - 副本.txt

作者: 屡败屡战    时间: 2017-12-20 21:15

老师好,不好意思,麻烦求个批处理文件。
      我的系统针对“powershell 4.0”,无法打开程序包,系统提示:Installation Directory must be on a local hard drive,导致无法安装。
      另外,检测结果输出到“结果列表.txt”上,实在是麻烦了。
作者: 屡败屡战    时间: 2017-12-21 18:34

望老师们帮帮忙!!




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2