返回列表发帖

jzsgyml

五级士官

Rank: 4

帖子: 89
积分: 309
技术: 0
捐助: 0
注册时间: 2009-10-17

1楼 跳转到 » 正序看帖

打印

字体大小: tT

发表于 2012-6-8 11:35 | 只看该作者

[文本处理] [已解决]批处理使用第三方命令，如何实现2个文本相减？

本帖最后由 jzsgyml 于 2012-6-26 14:51 编辑

也就是要1.txt - 2.txt =？

用批处理一个个遍历，几万行就要几小时，几十万行几天时间了
例如1.txt

1
2
3
4
5
复制代码

2.txt

1
2
复制代码

得到结果3.txt

3
4
5
复制代码

普通“findstr /c:"%%a" B.txt>nul||echo %%a>>C.txt”语句一行行判断效率太低，有几百万行呢，特来请教

1 评分人数

Batcher: 感谢给帖子标题标注[已解决]字样PB + 2

forfiles

少将

Rank: 8 Rank: 8

帖子: 571
积分: 5364
技术: 29
捐助: 0
注册时间: 2012-6-7

13楼

发表于 2012-6-26 23:10 | 只看该作者

回复 11# asd821089612

grep -vxFf 2.txt 1.txt >3.txt
复制代码

1 评分人数

Batcher: 乐于助人技术 + 1

TOP

jzsgyml

五级士官

Rank: 4

帖子: 89
积分: 309
技术: 0
捐助: 0
注册时间: 2009-10-17

12楼

发表于 2012-6-26 14:52 | 只看该作者

能不能用cmd里的"fc"这个命令
再用for命令截取里面的不同处就可以了
asd821089612 发表于 2012-6-26 07:33

谢谢，我标题好像改出歧义了，我的意思是cmd太慢，有没有第三方好些的。你说的fc确实是一个方法，逻辑上都比find一行一行对比强，谢谢

TOP

asd821089612

列兵

Rank: 1

帖子: 24
积分: 37
技术: 1
捐助: 0
注册时间: 2011-4-4

11楼

发表于 2012-6-26 07:59 | 只看该作者

@echo off
fc 2.txt 1.txt>3.txt
for /f "delims=\ skip=3 eol=*" %%i in (3.txt) do (@echo %%i>>4.txt)
del 3.txt
复制代码

由于楼主默认2.txt永远比1.txt内容少，所以fc只显示1.txt的多余部分，因此就可以达到目的了。
最后输出的是4.txt

虽然是一种思路，但是为测试过楼主所说的几万行的大文件，不知道速度怎么样

TOP

asd821089612

列兵

Rank: 1

帖子: 24
积分: 37
技术: 1
捐助: 0
注册时间: 2011-4-4

10楼

发表于 2012-6-26 07:33 | 只看该作者

能不能用cmd里的"fc"这个命令
再用for命令截取里面的不同处就可以了

nothing's gonna change
and I've never changed

TOP

wc726842270

大校

Rank: 7 Rank: 7 Rank: 7

帖子: 1107
积分: 4218
技术: 37
捐助: 0
注册时间: 2010-6-8

9楼

发表于 2012-6-26 02:05 | 只看该作者

如果再给出其它的命令也许仅仅是换了一下汤而以
1：如果同时打开2个以上的大文件，你的缓存能受得了么？（我从来没打开过1G以上的文件）
2：要是从P入手的话可能只是CMD内置的命令了
以上仅是个人想法

枫中残雪：风停了，我的心却在动，让我心中的寒意走向远方

TOP

forfiles

少将

Rank: 8 Rank: 8

帖子: 571
积分: 5364
技术: 29
捐助: 0
注册时间: 2012-6-7

8楼

发表于 2012-6-24 18:51 | 只看该作者

请教一下不使用第三方的原因是？

TOP

jzsgyml

五级士官

Rank: 4

帖子: 89
积分: 309
技术: 0
捐助: 0
注册时间: 2009-10-17

7楼

发表于 2012-6-8 14:45 | 只看该作者

回复 6# powerbat

A.txt 都是单词表，B.txt是已经背诵的单词表，几十万，需要A-B。

good  好
best  好
best  好
good  好
复制代码

TOP

powerbat

大校

Rank: 7 Rank: 7 Rank: 7

帖子: 752
积分: 4553
技术: 139
捐助: 0
注册时间: 2010-8-24

6楼

发表于 2012-6-8 14:29 | 只看该作者

findstr的bug可以看这个

set >env
set | findstr /vg:env
set | findstr /vxg:env
set | findstr /vlg:env
set | findstr /vrg:env
复制代码

你的数据有何特点？每行长度一般是多少？由什么字符组成？最好给出一段样本。

script56
新加坡Google

TOP

jzsgyml

五级士官

Rank: 4

帖子: 89
积分: 309
技术: 0
捐助: 0
注册时间: 2009-10-17

5楼

发表于 2012-6-8 14:03 | 只看该作者

原来相减是这个意思？
findstr还有bug。操作系统自带命令多的是。
powerbat 发表于 2012-6-8 12:57

for /f %%a in (A.txt) do (
 findstr /c:"%%a" B.txt>nul||echo %%a>>C.txt
)
复制代码

用findstr 就是一行行来，1万行就1万次，效率自然成倍的降低了，请问你有更效率的方法吗

TOP

powerbat

大校

Rank: 7 Rank: 7 Rank: 7

帖子: 752
积分: 4553
技术: 139
捐助: 0
注册时间: 2010-8-24

4楼

发表于 2012-6-8 12:57 | 只看该作者

原来相减是这个意思？
findstr还有bug。操作系统自带命令多的是。

script56
新加坡Google

TOP

jzsgyml

五级士官

Rank: 4

帖子: 89
积分: 309
技术: 0
捐助: 0
注册时间: 2009-10-17

3楼

发表于 2012-6-8 12:44 | 只看该作者

回复 2# powerbat

findstr/vg:a.txt b.txt>c.txt
复制代码

不用第三方慢得哭

TOP

powerbat

大校

Rank: 7 Rank: 7 Rank: 7

帖子: 752
积分: 4553
技术: 139
捐助: 0
注册时间: 2010-8-24

2楼

发表于 2012-6-8 12:09 | 只看该作者

不用第三方工具也可以。

script56
新加坡Google

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] [已解决]批处理使用第三方命令，如何实现2个文本相减？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]