批处理如何删除文本中的重复行（重复全删不保留）？

sshlovewp · 发表于 2011-8-26 15:54:48

本帖最后由 pcl_test 于 2016-8-16 20:59 编辑

请高手指点，问题如下：
1.txt内容如下：
屋顶花园
屠宰及肉类加工工业
新型肥料
电视节目
有毒植物
中药典彩色图谱
水果、蔬菜、坚果加工工业
神奇的红豆杉
ostrich
西双版纳
电视节目
中药典彩色图谱
ostrich

希望用批处理后将重复行删除后保存为2.txt，内容如下：
屋顶花园
屠宰及肉类加工工业
新型肥料
有毒植物
水果、蔬菜、坚果加工工业
神奇的红豆杉
西双版纳

sshlovewp · 发表于 2011-8-26 15:57:11

之前也有类似的贴子，但要求是有重复的行只保留一行，而我要求的是只要有重复的行就删除它，一行也不要。
请高手指点。谢谢！

cjiabing · 发表于 2011-8-26 16:00:42

查找重复行的代码太多了，请搜索论坛，如果有不懂的问题请提问。

sshlovewp · 发表于 2011-8-26 16:10:26

我也在论坛里面查找过，但发现里面的代码只对数字和拼音有效，对汉字没有效果啊。

cjiabing · 发表于 2011-8-26 16:27:21

回复 4# sshlovewp

有这么神奇，竟然对汉字无效？
http://www.bathome.net/search.php?searchid=67&orderby=lastpost&ascdesc=desc&searchsubmit=yes&page=1

sshlovewp · 发表于 2011-8-26 16:40:36

正在看搜索到的帖子，但绝大多数的代码处理汉字时都出错了。

cjiabing · 发表于 2011-8-26 16:48:14

回复 6# sshlovewp

为什么出错，请具体说明。

sshlovewp · 发表于 2011-8-26 16:53:39

for /f "delims=" %%i in (input.txt) do (
if not defined %%i set %%i=s & echo %%i>>output.txt)

也不行，所有的帖子我都看过了，绝大多数帖子在举例子时都是用的数字或者字母，真正涉及到汉字时这些代码就不灵了。

换一个说法可能更明白一点，那就是如何提取一个文本中只出现一次的行。
真希望能在以前的帖子中找到前人的解决方法。寻找中。。。。。。

cjiabing · 发表于 2011-8-26 17:38:40

本帖最后由 cjiabing 于 2011-8-26 17:39 编辑

提供一些我收藏的，各种方法都有，自己修改下。

@echo off
cls
echo 过滤文本重复行——把重复的归为一个，其余的删除
echo.
set /p wb=文本1
set /p wb1=文本2
for /f "delims=" %%i in (%wb%) do (
if not defined %%i set %%i=A & echo %%i>>%wb1%
)
echo 处理完成
ping /n 2 127.0.1 >nul
goto :eof

复制代码

@echo off
setlocal enabledelayedexpansion
echo 提取文本重复行——只要重复的部分，不重复的不要
echo.
set /p wb=请输入要处理的[路径]文本：
set /p wb1=请输入处理后生成的[路径]文本：
for /f "delims=" %%a in ('sort %wb%') do (
if %%a equ !b! echo %%a>>%wb1%
set b=%%a)
echo 处理完成
ping /n 2 127.0.1 >nul
goto :eof

复制代码

@echo off
cls
echo 比较文本提取重复行
echo,
echo (如有:1.txt 2.txt 提取1.txt在2.txt里出现的行)
echo.
set /p wb1=请输入要处理的[路径]文本1:
set /p wb2=请输入要处理的[路径]文本2:
set /p wb3=请输入处理后生成的[路径]文本:
for /f "delims=" %%c in (%wb1%) do (
findstr "%%c" %wb2%>nul &&echo %%c>>%wb3%)
echo 处理完成
ping /n 2 127.0.1 >nul
goto :eof

复制代码

@echo off
cls
echo.
echo.
echo 比较文本提取不重复
echo,
echo 如有:1.txt 2.txt，提取2.txt在1.txt里没有的行
echo 文本2.txt应当比1.txt多一些内容。
echo 重复的不要
echo.
set /p wb1=请输入要处理的[路径]文本2:
set /p wb2=请输入要处理的[路径]文本1:
set /p wb3=请输入处理后生成的[路径]文本:
for /f "delims=" %%c in (%wb1%) do (
findstr "%%c" %wb2%>nul ||echo %%c>>%wb3%)
echo 处理完成
ping /n 2 127.0.1 >nul
goto :eof

复制代码

@echo off
setlocal enabledelayedexpansion
echo 提取文本重复行——只要重复的部分，不重复的不要
echo.
set /p wb=请输入要处理的[路径]文本：
set /p wb1=请输入处理后生成的[路径]文本：
for /f "delims=" %%a in ('sort %wb%') do (
if not %%a equ !b! echo %%a>>%wb1%
set b=%%a)
echo 处理完成
ping /n 2 127.0.1 >nul
goto :eof

复制代码

ArdentMan · 发表于 2011-8-26 21:40:00

本帖最后由 ArdentMan 于 2011-8-26 22:23 编辑

不知道楼主如何搜索的~~~

@Echo Off&SetLocal EnableDelayedExpansion
(For /F "delims=" %%i In ('Sort 1.txt^&Echo end') Do (
If "!Str!" NEQ "%%i" (
For %%j In ("!Str!") Do If "!%%~j!" EQU "a" Echo,!Str!
)
Set "Str=%%i"
If Not Defined !Str! (
Set "!Str!=a"
) Else (
Set "!Str!=b"
)
))>2.txt
Start 2.txt

复制代码

ps:请注意你的测试文本中有很多空格导致肉眼看到很多重复内容没删除

lvsehuaxue · 发表于 2011-8-27 00:43:54

@echo off
for /f "delims=" %%i in (1.txt) do (
set /a .%%i+=1
)
(for /f "tokens=1,2 delims=.=" %%i in ('set.') do (
if %%j geq 2 echo %%i
))>$
(findstr /i /v /g:$ 1.txt)>$$
move $$ 1.txt
del /q $
pause

复制代码

CUer · 发表于 2011-8-27 09:06:59

回复 6# sshlovewp

绝大多数？比如说包括哪些呢？

sshlovewp · 发表于 2011-8-30 10:23:38

不好意思，周末没上网，对以上各位lz的热情帮助表示最诚挚的感谢！
9楼的第三个代码果然有效。太感谢了！
下面的代码还没有来得及实验，因为实在是太兴奋了。
谢谢你们！

sshlovewp · 发表于 2011-8-30 11:28:34

因该是9楼的第四个代码，该代码功能超强，它能将1.txt和2.txt两个文本文档中重复的内容单独提取出来并存为temp.txt（实际上并不会生成temp.txt，为了不让大家混淆）。然后在1.txt中查找，如果1.txt中有和temp.txt重复的内容就删除，最后生成的文件可以单独保存为3.txt。所有这些都是一气呵成的。我做了一点改动，供有这方面需要的朋友参考：
@echo off
for /f "delims=" %%c in (1.txt) do (
findstr "%%c" 2.txt>nul ||echo %%c>>3.txt)
start 3.txt

sshlovewp · 发表于 2011-8-30 11:45:52

这个代码功能超强还体现在，需要比较的两个文本里面的内容既可以是汉字，也可以是字母、数字等。
的确是太给力了！

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 批处理如何删除文本中的重复行（重复全删不保留）？

评分