返回列表 发帖

[文本处理] [讨论]批处理findstr和变量赋值法查找文本的结果和效率差异

今天突然想起了前些日子讨论过的问题,有A,B两个文本,文本内的都是邮件地址,其中A文本内71332个地址,B文本有122530个地址,以上两个数据是我实测得出的,当时提问者的要求是找出A文本中跟B中重复的地址,并删除,只留下不重复的地址,至于B是个参照,可要可不要
     对于这个问题印象很深刻,自己思考写了个代码,是逐一对比的,也就是需要进行71332*122530次对比,结果一算下了我一跳,大概是87.4亿次比较,效率极低,所以就这个问题在①群提出,当时很多人都参与了讨论研究,当晚未果,第二天是我在问batman问题的时候,因为当晚他未在,顺便提出这个问题的,man直接给了代码,man的代码用到了变量赋值将乘积的工作量变成了和的工作量,只需要进行71332+122530此对比,即20万次比较,相对于87.4亿比较的工作量,缩短的效率就可想而知了,呵呵,这是前话,暂且放下不提。
      原本已经解决的问题,为何我又搬出来了呢?因为本人新手,很多东西我总是自己去测试,有些教程相信作者是很辛苦分享的,但是看得多了发现很多还是有一定的误区的,因此为了让自己的基础扎的牢实,以后给别人分享的时候不至于误导新手,我总是对一些模糊的模棱两可的代码用自己的思路去测试,不懂就问群里的各位前辈,以确定准确的知识点,由此引出了对findstr和for中变量赋值的探讨,也正是今天要提到的主题
      相信大家都知道findstr命令本身带有的参数也可以实现比较两个文本去掉重复,能达到和for变量赋值一样的效果,因此觉得测试它们之间到底哪个效率高,以便以后遇到次类似问题,优先选用高效的方法,以下是我演示的过程:
      最初for变量赋值的代码是没有疑问的,当然在这要提一点就是for变量赋值处理并生成结果888.txt用了38分钟,只要明白原理相信大家都可以写出来,我会在以后做出解释,暂且来谈谈findstr这个命令:
     首先我用了个简单的例子1.txt
124
                                      125
                                      145
                                      147COPY
2.txt
124
                                      125
                                      547
                                      856COPY
我用的命令是findstr /v /g:2.txt 1.txt测试,这里解释一下参数/v 只打印不包含匹配的行; /g:file 从指定的文件获得搜索字符串,然后看以上两个文本结果是145,147,这个是将1中跟2重复的去掉只保留1跟2不重复的,跟那两个邮件文本的要求是同理的,然后我就测试那两个超大邮件文本,时间用了6分钟效率倒是蛮高的,可是得到的结果跟for变量赋值的结果比较却少得可怜,这是什么原因导致的呢?是findstr对大文本的机制问题?还是我对命令的不完全了解?带着这个疑问到群里咨询,恰巧随风也在,讨论一会未果,batman也冒出来了,一语惊醒梦中人,他指出了我用findstr的疑问,因为我没有指明是否完全匹配,少了这个参数/x,结果自然大大改观,并就我测试的问题举了个例子:
                           1.txt
124
                                      125
                                      145
                                      147
                                      1243
                                      1241COPY
2.txt
124
                                      125
                                      547
                                      856COPY
同样使用上面的命令findstr /v /g:2.txt 1.txt测试,结果我们发现得多的答案还是145,147,这是什么原因呢?明明1文本内还有1243,1241啊,它怎么不要了呢?问题就出在这儿,如果不指明参数/x,命令解释是打印完全匹配的行,它会默认只要有124字符的都认为是相同的,所以它会抛弃1243,1241,想要得到我们准确的结果的话你可以测试加上参数/x
                代码如下
findstr /v /x /g:2.txt 1.txtCOPY
看到这个代码可能你会有疑问参数 /v 是只打印不包含匹配的行;/x 打印完全匹配的行,它们的并存不矛盾吗?呵呵,跟我一样以前以为这俩是矛盾的,为什么可以同时存在?man很明了的给了解释:只打印不包含完全匹配的行。如果不明白再仔细回味一下这句话,还是不明了,这个嘛只能建议start/call :新华字典 ^v^!
    都解决了,这回测试没问题了吧?走,再跟着我继续研究,for变量赋值得到的文本结果仍然未动,因为上次findstr的模糊寻找致使它很严肃的抛弃了很多真理,我再次测试重新加上了man前辈解释的/x参数,这次findstr生成的文本是666.txt,根据记录前后时间差得出的时间是19分钟,比起for变量赋值来效率果然大大提高,只用了它一半的时间,可是大家再跟我查看文本属性
          for变量赋值的结果888.txt
 大小  289KB (296,671 字节) COPY
findstr的结果666.txt
 大小  289KB (296,852 字节) COPY
你能发现什么?看起来大小一样,但是本文主要注重字节,我们比较发现它们是有差异的,差了181字节,到底差在哪?看来我还要做麻烦的比较了,但上帝很垂怜,打开这两个文本第一行就迥然不同,它们的排序都是a-z排列的,我们来看下前两行:
          for变量赋值的结果888.txt
adrienpuget@wanadoo.fr
                                         benedictembatso@hotmail.com COPY
findstr的结果666.txt
AABIS@WANADOO.FR
                                         adrienpuget@wanadoo.fr
                                         benedictembatso@hotmail.com COPY
看出什么区别没有?findstr的结果明显多出了[email=AABIS@WANADOO.FR]AABIS@WANADOO.FR[/email]这么一行,而for变量赋值的方法没有,难道这两个有一个出错了??于是想了个办法,复制了这个邮件地址,打开A.txt用ctrl+f打开搜索字符串,发现A文本里可以查询到,同样在B文本里查询也能查询到,带着这个疑问将结果发给man看,man让我又加了一个参数/i,这个参数是什么呢?就是指定搜索不区分大小写,默认findstr搜索是区分大小写的,而for变量赋值法是不区分大小写的,当然就大小写的问题严格来说findstr是精确的,因为for变量赋值无法区分出大小写来,想来这是一个缺陷
      接下来我们接着测试研究,你会问既然findstr比for变量赋值法精确,为什么要加/i这个参数把大小写忽略了呢?这里就是我想研究的问题,到底findstr和for变量赋值法哪个更精确,假如它们得到的结果一致,至少我们以后就可以用效率高的代码,如果不一致到底哪个出错了?以后肯定要忽略效率而采用准确的代码咯!下面看新增参数的代码
                   如下
findstr /v /x /i /g:2.txt 1.txtCOPY
例子       1.txt
124
                                      125
                                      145
                                      147
                                      abc
                                      CBD
                                      ABCCOPY
2.txt
124
                                      125
                                      547
                                      856
                                      cbd
                                      abcCOPY
首先我们来看不加参数/i,它是区分大小写的,得到的结果是145,147,CBD,ABC
我们看加上参数/i的结果是什么呢? 结果是145,147。这就是这个参数的作用,不区分大小写之后,它会认为CBD,ABC跟小写字母的是一致的,所以一同排除了,也就是我们看到的只有两个结果
     前面其实我们主要阐述了findstr寻找文本一些关键参数的作用和例子,那么在前面代码熟练了以后,我们下面开始简单介绍一下for变量赋值的代码,限于本人的理解水平,还望各位前辈指点
          先看个通俗的例子for /f "delims=" %%a in (a.txt) do echo %%a
如何理解它的通俗机制,我在这举个例子:我们去市场买苹果,老农把苹果都装在箱子里,摆在小摊上,我用这个例子来解释这个机制的动作,首先我们要从箱子a.txt中选苹果%%a,我们拿起一个苹果就是for这个动作,转了一圈看了一遍发现是好的就是"delims=" echo %%a,然后我们把苹果%%a放到手提袋里贮存起来,假设我们要买这一箱子a.txt苹果%%a,那我们都要看一遍echo %%a,也许解释的不够合理只是尽量通俗,好理解一些,下面看for变量赋值的代码
@echo off
set tm=%time%
for /f "delims=" %%a in (B.txt) do (
          if not defined %%a set "%%a=i"
)
    for /f "delims=" %%a in (A.txt) do (
          if not defined %%a echo %%a>>888.txt
)
echo %tm% %time%
pauseCOPY
这里的代码除了包含我上面通俗解释的内容,还多了if not defined,它的意思我个人理解是:如果没有被赋值,这也是被列在if用法里的一个经典的代码,上面代码的意思是将B文本里的内容预读一遍,如果没有%%a没有被赋值,就将%%a赋值一遍,然后我们再从A文本里预读,预读的同时也判断这个%%a是否被赋值,当读到A里跟B文本中相同的内容时,它已经在B里被赋值了,所以会被第二句代码里的if not defined %%a过滤掉,剩下来的就满足了最初提问者的要求去掉A文本里跟B里重复的地址,得到的就是未重复的,呵呵,讲的或许不是很好理解,仍然用买苹果的例子来讲前面我们挑苹果是理想状态的,箱子里的苹果都是好的,就这个if not defined我举一个通俗例子,还是买苹果的问题老农有两个①②箱子,如同AB那两个文本,两个箱子里面都装了两样苹果,青香蕉和红香蕉,是老农不小心搞混了的,但是我来买苹果就喜欢①箱子里的,它个大好看,而且我只想要红香蕉,这时老农说,②箱子里的苹果青香蕉贴了个“青”字,红香蕉贴了个“红”字,我都扫描了一遍果真如此,他又说①箱子的也这样,这时我便开始扫描①箱子的,因为我只要红香蕉,在看②箱子的时候青香蕉贴“青”字的苹果就等于被赋值了,我以那个“青”字为参考,在挑①箱子的苹果时,看见贴“青”字的就丢掉,呵呵当然买东西的时候,是不敢这么干的,只是放在别处,这就是if not defined的效果。。
    现在我们对于findstr前面已经研究到位了,最佳跟for变量赋值比较的代码也已经定位了,根据findstr的代码
 (findstr /v /x /i /g:B.txt A.txt)>>555.txt COPY
按我们的分析,这个代码理论上应该已经等于for变量赋值的代码了,现在我们来做个结果比较
          for变量赋值的结果888.txt
 大小  289KB (296,671 字节) COPY
findstr的结果555.txt
 大小  289KB (296,629 字节) COPY
相信细心的你也能发现它们差了42字节,还差??我就不相信整不明白了。。。最后我只好用了findstr命令将最后的这两个文本结果做了比较,找出了它们的差异
              findstr /v /x /i /g:555.txt 888.txt 结果如下
lccq@free.fr  这个地址555中没有 888
                            oriana=-du_7141@hotmail.com  这个地址555中没有 888
                            p*.tournois@chello.fr  这个地址555中有  888也有
                            v-dupuit@caramail.com  这个地址555中没有 888
                            COPY
这样比较的是从888中去掉跟555重复的地址,得出结果如上
同样如果我反过来测试呢?
               findstr /v /x /i /g:888.txt 555.txt 结果如下
korantin\ds@hotmail.fr 这个地址555中有 888中没有
                           p*.tournois@chello.fr  这个地址555中有  888也有
                           COPY
这样比较的是从555中去掉跟888重复的地址,得出结果如上
看到我标注的没有,唯独这出现了问题!

想请各位前辈对于最后的这部分给予指点,并就findstr和for变量赋值哪个的结果更准确也给予指点


邮件AB文本太大无法上传 http://d.namipan.com/sd/102572    A邮件文本的下载地址
                                         http://d.namipan.com/sd/102574    B邮件文本的下载地址

[ 本帖最后由 jackerloo2009 于 2010-5-23 19:57 编辑 ]
4

评分人数

    • skuny: 从头看到尾 很好PB + 5
    • batman: 总结分析得很到位嘛,加油!PB + 20
    • namejm: 分析过程十分详细,钻研精神令人敬佩。PB + 20
    • Batcher: 探索精神值得鼓励PB + 10
学海无涯

回复 8楼 的帖子

findstr 不是令人丧失信心了嘛!!

离不开findstr怎么办?

TOP

回复 34楼 的帖子

其实我那俩文本里面有=的例子oriana=-du_7141@hotmail.com
现在去测试,确实两个都有的,它都生成到888里面去了
学海无涯

TOP

回复 33楼 的帖子

LZ似乎忘了自己的问题。。。
假如888.txt中有a=b,而555.txt也有,那你的要求是不需要输出,而现在却输出了,这不就是问题吗??
命令行参考:hh.exe ntcmds.chm::/ntcmds.htm
求助者请拿出诚心,别人才愿意奉献热心!
把查看手册形成条件反射!

TOP

回复 32楼 的帖子

最后结果显示 a=b
这是对还是不对?
呵呵,倒真是见识了batcher第三方工具的厉害。1秒钟搞定
学海无涯

TOP

点和星号在正则表达式中都有特殊意义。如果不加/L参数,会产生问题。

对于楼主的问题,无论是用findstr还是设置变量法,都不能很好的解决。最好是用第三方工具或其他方法。
findstr 的问题看看我8楼的回复并运行一下就知道。
至于设置变量法,如果文本中含有等号,也会出现问题。
echo a=b>1.txt
for /f "delims=" %%a in (1.txt) do set .%%a=1
for /f "delims=" %%a in (1.txt) do if not defined .%%a echo %%aCOPY
此帖的方向转到关于效率的讨论倒是不错。
命令行参考:hh.exe ntcmds.chm::/ntcmds.htm
求助者请拿出诚心,别人才愿意奉献热心!
把查看手册形成条件反射!

TOP

回复 5楼 的帖子

测试结果显示,去掉p*[email].tournois@chello.fr[/email]中的星号,它一切都是正常的,但是去掉它中的点,保留星号,就出问题了,说明问题是在星号上,而不是你说的点上
学海无涯

TOP

回复 24楼 的帖子

!a[$1]++

百思不得其解,能解释下么?
技术问题请到论坛发帖求助!

TOP

用括号括起来进行输出确实是一行一行输出,可以这样验证:
@echo off
(
  echo a
  pause 打开 output.txt 会发现已经输出了 a 和 pause 的提示。
  echo b
) > output.txtCOPY

TOP

等下我重启机器不开任何东西,做0负荷的测试,就我原代码那个进行测试,原来的时间为37分39秒
测试完以后,我会上来发布测试结果,以真实数据来证明到底其他环境有多大影响



不好意思,大家久等了,我重启机器,所有的程序网页都没开,只是单纯测试我的原代码
测试的时间为 37分26秒

跟我想象的一样,只是差了13秒,从总体时间来考虑,也就是开其它程序,网页,或者bat对结果的影响是微小的!

[ 本帖最后由 jackerloo2009 于 2009-6-27 16:26 编辑 ]
学海无涯

TOP

回复 25楼 的帖子

我对于一直做这么多相同的测试,并不赞同你的观点,我个人感觉影响微小
学海无涯

TOP

回复 24楼 的帖子

还是第三方强大,1秒就ok了
学海无涯

TOP

做测试的同时干其他事情是有影响的。
如果你把bat窗口最小化了,或者正在操作对内存消耗大的程序,影响更大。系统会自动对后台运行的任务进行优化以节约内存。
命令行参考:hh.exe ntcmds.chm::/ntcmds.htm
求助者请拿出诚心,别人才愿意奉献热心!
把查看手册形成条件反射!

TOP

gawk "NR==FNR{a[$1]++}NR>FNR&&!a[$1]++" b.txt a.txt>c.txtCOPY
第三方命令行工具 gawk.exe 下载地址:
http://bbs.bathome.net/thread-1114-1-1.html
我帮忙写的代码不需要付钱。如果一定要给,请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家,加入VIP会员!】http://bbs.bathome.net/thread-67716-1-1.html

TOP

虽然只开关一次I/O,但仍然是边输出边写入文件。
可以推知,只启用一次IO时,并不是将输出缓存到内存,等到全部输出结束后再一次性写入文件。
如果楼主的测试可信的话,似乎可以得知:可能开关I/O消耗的时间极短,主要耗时花在通过I/O进行数据传输和写文件,尤其是写文件。
命令行参考:hh.exe ntcmds.chm::/ntcmds.htm
求助者请拿出诚心,别人才愿意奉献热心!
把查看手册形成条件反射!

TOP

返回列表