批处理之家 - Powered by Discuz! Board

标题: [文本处理] 批处理如何删除txt中每行开头指定字符前的字符串重复出现次数超过指定次数的行？ [打印本页]

作者: batman 时间: 2013-7-24 20:15

本帖最后由 batman 于 2013-7-24 20:17 编辑

@echo off&setlocal enabledelayedexpansion
for /f "tokens=1* delims=|" %%a in (1.txt) do set /a n+=1,.%%a+=1&set "_!n!=%%a|%%b"
(for /l %%a in (1,1,%n%) do (
  for /f "tokens=1* delims=|" %%b in ("!_%%a!") do if !.%%b! leq 5 echo,%%b^|%%c
))>2.txt
start 2.txt
复制代码

作者: Rasm 时间: 2013-7-24 21:10

回复 2# batman

按照你的代码，如果是超过10行删除的话是不是吧 “5” 修改为“10“就好了

作者: batman 时间: 2013-7-24 21:19

Try it, then you can understand...

作者: Rasm 时间: 2013-7-25 12:02

回复 4# batman

数据处理效率不是很好

6MB的文本，里面行数有超过32行的，处理中，就提示如图显示

作者: xxpinqz 时间: 2013-7-25 17:43

纯P，这大文本你期待多快？
|符号的前面，你有些有特殊字符吧，像空格什么的，你举的例子并未列出来...
不行把文本压缩下传到网盘，把下载地址贴出来

@echo off&setlocal enabledelayedexpansion
for /f "delims=|" %%a in ('sort 1.txt') do (
        set "str5=!str4!"
        set "str4=!str3!"
        set "str3=!str2!"
        set "str2=!str1!"
        set "str1=%%a"
        if "!str5!"=="!str1!" (
        	if not defined . (
        		set .=.
        		set "#=!#!/ic:"%%a^|" "
        	)
        ) else set .=
)
if defined # (findstr /v %#% 1.txt>2.txt)else copy /y 1.txt 2.txt
复制代码

作者: Rasm 时间: 2013-7-27 15:57

回复 6# xxpinqz

我处理的文件就是这样的，你看下

有时候是几万条

作者: CrLf 时间: 2013-7-27 18:10

大文本建议用第三方神器 gawk，爽爽的：

@gawk -F"|" "FNR!=NR&&ar[$1]<5;{ar[$1]+=1}" 1.txt 1.txt>2.txt
复制代码

作者: Rasm 时间: 2017-5-4 18:38

回复 8# CrLf

如果是想删除小于| 前面的重复数，该怎么修改这个代理

比如想删除小于5个|重复数，正好与你这个相反

作者: ShowCode 时间: 2017-5-4 19:50

回复 9# Rasm

以顶楼数据为例，希望得到什么结果？

作者: codegay 时间: 2017-5-4 23:26

回复 10# ShowCode

你把这时间和精力用来做别的事情，会更有意义。

作者: ShowCode 时间: 2017-5-5 14:26

回复 11# Rasm

gawk -F "|" "{a[$1][n++]=$0}END{for(i in a){x=length(a[i]);if(x>=5&&x<=8){for(j in a[i])print a[i][j]}}}" 1.txt > 2.txt
复制代码

作者: Rasm 时间: 2017-6-7 19:28

回复 13# ShowCode

为什么处理结果是空的

作者: Rasm 时间: 2017-6-7 19:29

回复 8# CrLf

有些为什么不可以呢，中文的有些不行，没有筛选出来

作者: /zhqsystem/zhq 时间: 2017-6-7 21:07

for /f "usebackq delims=|" %%i in ("%~f1")do if defined _%%i (set/a "_%%i+=1")else set "_%%i=1"
for /f "usebackq delims=" %%i in ("%~f1")do for /f "delims=|" %%j in ("%%i")do (
 echo,总行数:!_%%j!	变量:%%j
 rem:这里自行添加各种判断和输出
)
复制代码

作者: ShowCode 时间: 2017-6-8 11:27

回复 14# Rasm

把你的txt文件压缩传上来我试试

作者: Rasm 时间: 2017-6-11 11:21

回复 17# ShowCode

这是文本和我写的批处理，中文的过滤不了

作者: ShowCode 时间: 2017-6-11 11:49

回复 18# Rasm

你的txt文件是UTF-8编码格式，先转换成ANSI再执行命令。

作者: Rasm 时间: 2017-6-20 21:21

回复 19# ShowCode

如果是只留下纯字母的，不留数字和字母加数字的，改怎么改代码，感谢

欢迎光临批处理之家 (http://bbs.bathome.net/)