[文本处理] [讨论]批处理findstr和变量赋值法查找文本的结果和效率差异

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

2楼

发表于 2009-6-26 17:15 | 只看该作者

应该是行尾的空格在作怪。

技术问题请到论坛发帖求助！

Batcher

管理员

Rank: 12

帖子: 14935
积分: 46142
技术: 857
捐助: 745
注册时间: 2008-6-9

3楼

发表于 2009-6-26 17:23 | 只看该作者

能否把附件上传到纳米盘、QQ中转站之类的网络磁盘上面，以便大家下载？

我帮忙写的代码不需要付钱。如果一定要给，请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家，加入VIP会员！】http://bbs.bathome.net/thread-67716-1-1.html

Batcher

管理员

Rank: 12

帖子: 14935
积分: 46142
技术: 857
捐助: 745
注册时间: 2008-6-9

4楼

发表于 2009-6-26 17:34 | 只看该作者

这样来计算for命令花费的时间似乎有点不公平啊，呵呵。
可以参考这个帖子，提高一下for命令写文件的速度：http://bbs.bathome.net/thread-4831-1-1.html

tireless

少校

Rank: 6 Rank: 6

帖子: 381
积分: 1801
技术: 9
捐助: 0
注册时间: 2008-10-27

5楼

发表于 2009-6-26 18:47 | 只看该作者

应该加上 /L 参数吧？因为邮件地址中含有“.”，而这个点在 findstr 中表示任何字符。例如：

str.txt 的内容是a.b
file.txt 的内容是a1b
执行 findstr /xg:str.txt file.txt，会把a1b找出来。

/L 参数的意思是，按字面搜索，也就是不使用正则表达式。

Rank: 4

帖子: 57
积分: 328
技术: 0
捐助: 0
注册时间: 2009-4-20

6楼

发表于 2009-6-26 19:39 | 只看该作者

回复 4楼的帖子

重新让随风优化过代码，重新挂机测试过
随风的代码比我的原代码多用了一分钟

学海无涯

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

7楼

发表于 2009-6-26 19:56 | 只看该作者

优化后的代码为：

@echo off
set tm=%time%
(for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i" 
for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a
)>888.txt
echo %tm% %time%
pause
复制代码

比你之前的代码只是在变量名前面多加了个点，怎么会使效率如此低下？
节省了7万次开关I/O 居然会没有区别？

技术问题请到论坛发帖求助！

zqz0012005

Rank: 8 Rank: 8

帖子: 1069
积分: 12123
技术: 38
捐助: 0
注册时间: 2008-5-10

8楼

发表于 2009-6-26 20:16 | 只看该作者

5楼说的对，还应该加/L参数。

另外，findstr 本来就是不可信任的，存在诸多已知和未知的问题。在很多场合尽量不要用findstr。

echo 王志慧|findstr ".*净"
set>env.tmp
findstr /l /v /x /g:env.tmp env.tmp
复制代码

命令行参考：hh.exe ntcmds.chm::/ntcmds.htm
求助者请拿出诚心，别人才愿意奉献热心！
把查看手册形成条件反射！

keen

Rank: 8 Rank: 8

帖子: 593
积分: 4452
技术: 1
捐助: 0
注册时间: 2008-8-10

9楼

发表于 2009-6-26 21:57 | 只看该作者

回复 7楼的帖子

应该没有7万次的I/O开关。
楼主的代码只是把A中有，而B中没有的写入到888.txt中，从楼主得到的888.txt文件的大小(289k)，把每个邮件地址算成13个字节左右(大概)。用289k除一下13字节，估计是2万多行。

不知道效率低了，是不是因为给变量加了个点作标示引起的，还是别的原因，有待研究。

有不对的地方，请指教。

(*^_^*)

Rank: 4

帖子: 57
积分: 328
技术: 0
捐助: 0
注册时间: 2009-4-20

10楼

发表于 2009-6-27 09:39 | 只看该作者

回复 7楼的帖子

09-06-27
今天早晨再次用7楼的代码进行测试，时间为39分04秒
仍旧比我的原代码多了1分钟，还请亲自验证，以及分析一下原因

学海无涯

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

11楼

发表于 2009-6-27 09:45 | 只看该作者

回复 10楼的帖子

不防给你原来的代码变量名也加上一个点，再测试，更公平

@echo off
set tm=%time%
for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i" 
for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a>>888.txt
echo %tm% %time%
pause
复制代码

技术问题请到论坛发帖求助！

Rank: 4

帖子: 57
积分: 328
技术: 0
捐助: 0
注册时间: 2009-4-20

12楼

发表于 2009-6-27 11:04 | 只看该作者

回复 11楼的帖子

额。。。这个测试了40分钟06秒

学海无涯

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

13楼

发表于 2009-6-27 11:10 | 只看该作者

如果楼主有时间还可以再试试这段代码，看到底谁更快些。。
话说，7楼与11楼代码效率不相上下，实在有点想不通～
:

@echo off
set tm=%time%
echo. >nul 3>888.txt
for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i" 
for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a
echo. >nul 4>con
echo %tm% %time%
pause
复制代码

技术问题请到论坛发帖求助！

Rank: 8 Rank: 8

帖子: 1759
积分: 5387
技术: 51
捐助: 210
注册时间: 2007-10-26

14楼

发表于 2009-6-27 11:47 | 只看该作者

我想是找到问题原因了
bb.txt 每行一个邮箱地址，共122530行
分别作了以下测试，证明设置大量的变量不但耗费内存，而且及其影响效率。
代码一、耗时 0 小时 0 分钟 18 秒 21 毫秒

@echo off
set t=%time%
echo. >nul 3>888.txt
for /f "delims=" %%a in (bb.txt)do (
   set ".asklfjkaldfjajfafd@.fjaa=i"
   echo %%a
)
echo. >nul 4>con
call time0
pause
复制代码

代码二、直到内存报警还未出结果

@echo off
set t=%time%
for /f "delims=" %%a in (bb.txt)do set ".%%a=i" 
call time0
pause
复制代码

测试环境xp sp2 内存512m Celeron(R) cpu 2.40GHz
.
看来7楼代码效率低是括弧用的不对，改进如下，最好请楼主再测试一下，数据更标准。
效率应该会高些，但不会有太大区别，因为最终结果888.txt的行数并不太多。
.
总的来说应该是13楼代码效率最高，因为占用内存是最少的。
其次应该就是下面的代码，
最慢的应该是11楼的。

@echo off
set tm=%time%
for /f "delims=" %%a in (B.txt)do if not defined .%%a set ".%%a=i" 
(for /f "delims=" %%a in (A.txt)do if not defined .%%a echo %%a
)>888.txt
echo %tm% %time%
pause
复制代码

[ 本帖最后由随风于 2009-6-27 11:56 编辑 ]

技术问题请到论坛发帖求助！

Rank: 4

帖子: 57
积分: 328
技术: 0
捐助: 0
注册时间: 2009-4-20

15楼

发表于 2009-6-27 12:07 | 只看该作者

回复 13楼的帖子

楼上的这个用了39分26秒

学海无涯