返回列表发帖

0428_hai

六级士官

Rank: 4

帖子: 98
积分: 384
技术: 1
捐助: 0
注册时间: 2009-5-9

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2011-4-26 17:07 | 只看该作者

[文本处理] 批处理怎样统计文本中重复行所在的行号？

统计文本文件中重复行的批处理，统计重复内容所在行号。
感觉方法有点乱，但没想出更好的处理方法了。

::---------以下代码用于生成测试文本---------
@echo off
del testFileName.txt>nul 2>nul
echo 正在生成测试文本！
for /l %%a in (1,1,100) do (
	>>testFileName.txt call echo %%random:~,2%%
)
cls
::---------以上代码用于生成测试文本---------

@ECHO OFF
SETLOCAL ENABLEDELAYEDEXPANSION
mode con: cols=45 lines=4
title CodeBy 0428_hai CMD@XP 2011-04-26
set fileName=testFileName.txt
del temp>nul 2>nul
del temp.txt>nul 2>nul
del result.txt>nul 2>nul
if not exist "%fileName%" set sec=0 & goto :end

for /f "delims=" %%a in (%fileName%) do (
	set /a sn+=1
	>>temp echo !sn! %%a
)
copy temp _%fileName%>nul
call :times %time:~,-3% sec_Start

:main
if not exist temp goto :end
for /f "tokens=1* delims= " %%a in (temp) do (
	call :count !sn!
	set sn=
	for /f "skip=1 tokens=1* delims= " %%A in (temp) do (
		cls
		echo 大约还需要进行 !count! 次运算！
		echo 当前时间：!time!
		call :times !time:~,-3! sec_Cur
		set /a sec=!sec_Cur!-!sec_Start!
		echo 已用时间：!sec! 秒
		set /a count-=1
		if "%%b" == "%%B" (
			set var=!var!%%A 
		) else (
			>>temp.txt echo %%A %%B
			set /a sn+=1
		)
	)
	cls
	if defined var >>result.txt echo 第 %%a !var!行出现了%%b！
	set var=
	del temp>nul 2>nul
	ren temp.txt temp>nul 2>nul
	goto :main
)

:end
if exist result.txt (
	echo 操作已完成，查询结果保存在result.txt文件中！
	start "" result.txt
) else (
	echo 在文件中没有查到重复行！
)
echo 使用时间：!sec! 秒！
pause>nul
exit

:count
set /a count=%1-1
set /a count=%1*%count%/2
goto :eof

:times
for /f "tokens=1,2,3 delims=:" %%a in ("%1") do (
	set /a sec=1%%c%%100
	set /a min=1%%b%%100
	set /a %2=%%a*3600+!min!*60+!sec!
)
goto :eof
复制代码

terse

中将

Rank: 8 Rank: 8

帖子: 2339
积分: 9739
技术: 475
捐助: 0
注册时间: 2008-2-25

2楼

发表于 2011-4-26 17:33 | 只看该作者

方法多个善用搜索定有收获

TOP

0428_hai

六级士官

Rank: 4

帖子: 98
积分: 384
技术: 1
捐助: 0
注册时间: 2009-5-9

3楼

发表于 2011-4-26 18:22 | 只看该作者

100行无重复数据用时39秒，平均速度约127次/秒。

TOP

hanyeguxing

荣誉版主

Rank: 8 Rank: 8

帖子: 1739
积分: 4955
技术: 255
捐助: 0
注册时间: 2009-6-11

4楼

发表于 2011-4-26 18:26 | 只看该作者

没有万能的代码，所有的批处理都是根据其使用条件和要求而设计的。
以楼主的问题，如果行数不多，且无敏感字符问题，直接使用 if defined
如果行数稍多，可以考虑使用 findstr
还有其他很多方法......

寒夜孤星：在没有说明的情况下，本人所有代码均运行在 XP SP3 下（有问题请发贴，QQ临时会话已关闭）

TOP

batman

荣誉版主

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

5楼

发表于 2011-4-27 01:36 | 只看该作者

@echo off
for /f "tokens=1,2 delims=:" %%a in ('findstr /n .* a.txt') do (
     if not defined "_%%b" (
       set ""_%%b"=a"
        ) else (
       echo %%a
     )
)
pause>nul
复制代码

＊＊＊共同提高＊＊＊

TOP

qzwqzw

贵宾

Rank: 8 Rank: 8

帖子: 508
积分: 1490
技术: 87
捐助: 0
注册时间: 2008-7-17

6楼

发表于 2011-4-27 11:30 | 只看该作者

@echo off
for /f "tokens=1,2 delims=:" %%a in ('findstr /n .* a.txt') do (
   if not defined "_%%b" (
   set ""_%%b"=a"
      ) else (
   echo %%a
   )
)
pause>nul

batman 发表于 2011-4-27 01:36

感觉程序实现过于简单了
文本重复行至少应该分组显示
否则如何确定哪些行与哪些行重复?

天的白色影子

TOP

batman

荣誉版主

Rank: 8 Rank: 8

帖子: 2702
积分: 14559
技术: 176
捐助: 630
注册时间: 2008-6-16

7楼

发表于 2011-4-27 12:28 | 只看该作者

6# qzwqzw
这是根据楼主的要求来的，具体问题具体代码嘛，呵呵。。。。

＊＊＊共同提高＊＊＊

TOP

CrLf

论坛巡查

Rank: 8 Rank: 8

帖子: 6388
积分: 18831
技术: 978
捐助: 100
注册时间: 2010-10-9

8楼

发表于 2011-4-27 12:55 | 只看该作者

本帖最后由 zm900612 于 2011-4-27 12:56 编辑

正在尝试解决出题区的“大文件排除重复行”这题，阶段性成果如下：

@echo off&setlocal enabledelayedexpansion
(for /f "delims=" %%a in (y1.txt) do (
	set /a "n=(10000001+n)-(n/10000000)*10000000"
	echo !n:~-7!:%%a
))>1.tmp
sort /rec 8198 /+8 1.tmp>2.tmp
(for /f "tokens=1* delims=:" %%a in (2.tmp) do (
	if "%%b" neq "!l!" (set "l=%%b") else echo %%a
))>3.tmp
复制代码

正好与楼主所说的相符合

链接：在线第三方命令行工具下载 bat、vbs、js 原生混编

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 批处理怎样统计文本中重复行所在的行号？

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]