[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖
回复 17# 77七


    嗯嗯,  哥哥的区分了大小写,   只是有特殊字符的不能

TOP

  1. @echo off
  2. for /f "delims=" %%i in ('dir /b /a-d *.txt') do (
  3. cd.>"%%~ni_2%%~xi"
  4. for /f "useback delims=" %%a in ("%%i") do (
  5. findstr /xc:"%%a" "%%~ni_2%%~xi" 1>nul
  6. if errorlevel 1 (
  7. >>"%%~ni_2%%~xi" echo %%a
  8. )
  9. )
  10. )
  11. pause
复制代码
bat小白,请多指教!谢谢!

TOP

采用变量字典的去重方案有几点注意,虽是老调重弹,但用于大数据场合依然有限》
一。单个文件行数限制
二。单行字符长度限制
三。文本行皆为a-zA-Z字母时,变量字典定义因不区分大小写而失误



    正确,  多谢哥哥提醒

TOP

回复 14# Batcher


   对了, 原来可以这样, 谢谢哥哥

TOP

回复 2# pd1


根据楼主的描述来猜测,把setlocal放到循环内部比较合适:
  1. @echo off
  2. for /f "delims=" %%a in ('dir /b /a-d *.txt') do (
  3.     setlocal
  4.     (for /f "delims=" %%i in ('type "%%~a"') do (
  5.         if not defined _%%i (
  6.             set "_%%i=1"
  7.             echo,%%i
  8.         )
  9.     ))>"%%~a.new"
  10.     endlocal
  11. )
复制代码
1

评分人数

    • pd1: 我还没搞明白这个setlocal endlocal。 要 ...技术 + 1
我帮忙写的代码不需要付钱。如果一定要给,请在微信群或QQ群发给大家吧。
【微信公众号、微信群、QQ群】http://bbs.bathome.net/thread-3473-1-1.html
【支持批处理之家,加入VIP会员!】http://bbs.bathome.net/thread-67716-1-1.html

TOP

回复 10# buyiyang


    感谢,涨姿势了

TOP


采用变量字典的去重方案有几点注意,虽是老调重弹,但用于大数据场合依然有限》
一。单个文件行数限制
二。单行字符长度限制
三。文本行皆为a-zA-Z字母时,变量字典定义因不区分大小写而失误
  1. @echo off
  2. for /f "delims=" %%a in ('dir /b/a-d *.txt') do (
  3. setlocal enabledelayedexpansion
  4. (for /f "usebackq delims=" %%i in ("%%~a") do if not defined _%%i (
  5. set "_%%i=1" &echo,%%i))>"%%~a.new"
  6. endlocal
  7. )
复制代码

TOP

这个方法去重有一个局限,批处理单个环境变量最大为8192B,所有变量的总共不能超过65536KB,如果单行字符过多、单个文件过大会有误差。

TOP

回复 9# Five66


    set %%i=1这里可能会有问题,可能会有行以数字开头, 而变量名不能以数字开头。

TOP

本帖最后由 Five66 于 2023-9-18 20:41 编辑

已编辑,看10~12楼

TOP

哥哥们怎么搞的变复杂了

只想将主题代码改为批量执行后输出对应文件名就行
2楼哥哥理解正确, 但是执行后没有发挥作用
用bat只因为要添加到bat脚本中,

TOP

批量版本的
  1. import os
  2. # 创建 output 子目录
  3. if not os.path.exists('output'):
  4.     os.mkdir('output')
  5. # 获取当前目录下的所有 *.txt 文件
  6. txt_files = [filename for filename in os.listdir() if filename.endswith('.txt')]
  7. for input_file in txt_files:
  8.     # 确保输入文件存在
  9.     try:
  10.         with open(input_file, 'r', encoding='utf-8') as file:
  11.             lines = file.readlines()
  12.     except FileNotFoundError:
  13.         print(f"文件 '{input_file}' 不存在,请确保文件名正确。")
  14.         continue
  15.     # 创建输出文件名
  16.     output_file = os.path.join('output', input_file.replace('.', '-BuCF.'))
  17.     # 去除重复行并保存到输出文件,保持原始顺序
  18.     unique_lines = []
  19.     seen = set()
  20.     for line in lines:
  21.         if line not in seen:
  22.             unique_lines.append(line)
  23.             seen.add(line)
  24.     with open(output_file, 'w', encoding='utf-8') as file:
  25.         file.writelines(unique_lines)
  26.     print(f"已去除重复行并保存到 'output/{output_file}' 文件中。")
复制代码

TOP

Python 保存xxx.py  要先安装Python
  1. # 获取输入文件名
  2. input_file = input("请输入需要去除重复行的文本文件名: ")
  3. # 确保输入文件存在
  4. try:
  5.     with open(input_file, 'r', encoding='utf-8') as file:
  6.         lines = file.readlines()
  7. except FileNotFoundError:
  8.     print(f"文件 '{input_file}' 不存在,请确保文件名正确。")
  9.     exit(1)
  10. # 创建输出文件名
  11. output_file = input_file.replace('.', '-BuCF.')
  12. # 去除重复行并保存到输出文件,保持原始顺序
  13. unique_lines = []
  14. seen = set()
  15. for line in lines:
  16.     if line not in seen:
  17.         unique_lines.append(line)
  18.         seen.add(line)
  19. with open(output_file, 'w', encoding='utf-8') as file:
  20.     file.writelines(unique_lines)
  21. print(f"已去除重复行并保存到 '{output_file}' 文件中。")
复制代码

TOP

我不知道那个是去重的,所以就随便改了应该是我改的有问题吧
批处理水平不行,还得再学习

TOP

  1. @echo off
  2. powershell -c "dir *.txt|%{gc $_|Select-Object -Unique|sc $_}"
  3. pause
复制代码

TOP

返回列表