返回列表发帖

dailyad

列兵

Rank: 1

帖子: 18
积分: 36
技术: 0
捐助: 0
注册时间: 2020-5-2

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2020-5-22 15:32 | 只看该作者

[文本处理] 比较文件内容，请大神们给个思路

本帖最后由 dailyad 于 2020-5-22 17:19 编辑

我现在下载了4个数据的smiles格式数据，打开后里面里面才一行，以空格结尾，如：

C([C@@H](C(=O)O)N)c1ncn(C)c1	
复制代码

四个数据的命名规律都不一样，每个数据库文件1-2万，现在想去掉重复的项，思路有两个，请大神们指导一下
1.先提取文件名+数据，保存为CSV，再想办法处理
2.批处理遍历比较内容，输出有相同内容的文件名称。

wujunkai

六级士官

Rank: 4

帖子: 287
积分: 363
技术: 20
捐助: 0
注册时间: 2019-3-5

2楼

发表于 2020-5-22 22:01 | 只看该作者

可以先以文件大小来排序，再根据大小去重，cmd好像是有提供一个命令来判断文件是否相同的，自己help看看

TOP

dailyad

列兵

Rank: 1

帖子: 18
积分: 36
技术: 0
捐助: 0
注册时间: 2020-5-2

3楼

发表于 2020-5-23 14:51 | 只看该作者

可以先以文件大小来排序，再根据大小去重，cmd好像是有提供一个命令来判断文件是否相同的，自己help看看
wujunkai 发表于 2020-5-22 22:01

仔细比较了一下，有一些文件空格后面还可能带有字符，此外，相通大小的文件超级多，所以比较大小不是很靠谱，搜索空格前面的字符，看起来工作量很大。

TOP

ivor

上校

Rank: 6 Rank: 6

帖子: 979
积分: 3381
技术: 172
捐助: 40
注册时间: 2012-1-7

4楼

发表于 2020-5-23 17:59 | 只看该作者

powershell利用文件hash值，判断文件是否完全一样。

Get-FileHash *.smiles | Group-Object -Property Hash | Where-Object Count -GE 2 
复制代码

1 评分人数

dailyad: 乐于助人技术 + 1

#&cls&@powershell "Invoke-Expression ([Io.File]::ReadAllText('%~0',[Text.Encoding]::UTF8))" &pause&exit

TOP

went

少校

Rank: 6 Rank: 6

帖子: 833
积分: 1675
技术: 219
捐助: 0
注册时间: 2017-9-22

5楼

发表于 2020-5-25 11:39 | 只看该作者

只有一行数据,可以根据数据内容排序,再做比较,进行分组.ASNI

@echo off
setlocal enabledelayedexpansion
REM smiles文件夹
set "dir=C:\Users\lenovo\Desktop\新建文件夹"
set "code=( for /r "%dir%" %%i in ("*.smiles"^) do @( for /f "usebackq delims=" %%a in ("%%i"^) do @( echo %%a#%%i ^)^)^) ^| sort"
set "word="
for /f "tokens=1* delims=#" %%i in ('%code%') do (
	if not "%%i"=="!word!" (
		echo ------------------
		set "word=%%i"
		echo 内容:!word!
		echo 文件:
		echo.	%%j
	) else echo.	%%j
)
echo ---------
pause&exit
复制代码

1 评分人数

dailyad: 乐于助人技术 + 1

TOP

dailyad

列兵

Rank: 1

帖子: 18
积分: 36
技术: 0
捐助: 0
注册时间: 2020-5-2

6楼

发表于 2020-5-27 18:47 | 只看该作者

多谢二位

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 比较文件内容，请大神们给个思路

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]