Board logo

标题: [文本处理] 批处理怎么删除不同文件夹中的文本文件中的#连同#之内的字符与文本#? [打印本页]

作者: cxq00    时间: 2023-11-24 19:51     标题: 批处理怎么删除不同文件夹中的文本文件中的#连同#之内的字符与文本#?

怎么批量处理同一目录下不同文件夹中的文本文件中的#连同#之内的字符与文本#

原文本是这样的:
总而言之,很多学校食堂阿姨都有手抖的毛病,所以遇到这种情况时,就别再责怪食堂阿姨了,她们也是有苦衷的!
所以,我们都是打工人,都相互体谅一下吧!#校园食堂趣事# #大学生食堂贵吗# #食堂的那些事# #学校饭菜加价# #你喜欢吃食堂吗#



我要的效果是删除掉包含##这其中的文字:

总而言之,很多学校食堂阿姨都有手抖的毛病,所以遇到这种情况时,就别再责怪食堂阿姨了,她们也是有苦衷的!
所以,我们都是打工人,都相互体谅一下吧!
作者: Batcher    时间: 2023-11-24 21:52

回复 1# cxq00


请给一个真实的例子说明一下你的需求吧,比如操作之前是怎样的,操作之后变成啥样?
如果需要上传文件,请用使用网盘。

如果需要上传截图,可以找个图床,例如:
http://bbs.bathome.net/thread-60985-1-1.html
作者: cxq00    时间: 2023-11-25 16:58

回复 2# Batcher


    原文本是这样的:
总而言之,很多学校食堂阿姨都有手抖的毛病,所以遇到这种情况时,就别再责怪食堂阿姨了,她们也是有苦衷的!
所以,我们都是打工人,都相互体谅一下吧!#校园食堂趣事# #大学生食堂贵吗# #食堂的那些事# #学校饭菜加价# #你喜欢吃食堂吗#



我要的效果是删除掉包含##这其中的文字:

总而言之,很多学校食堂阿姨都有手抖的毛病,所以遇到这种情况时,就别再责怪食堂阿姨了,她们也是有苦衷的!
所以,我们都是打工人,都相互体谅一下吧!
作者: buyiyang    时间: 2023-11-25 17:36

将当前目录下若干文件夹的txt文件中由一对#包裹的字符串及该对#删除
  1. powershell -c "dir -Directory|dir -Filter \"*.txt\"|foreach{(gc $_.FullName) -replace '#.*?#'|sc $_.FullName}"
复制代码

作者: cxq00    时间: 2023-11-25 17:47

回复 4# buyiyang


   大佬, 这个怎么使用
作者: cxq00    时间: 2023-11-25 17:54

回复 4# buyiyang


    我只会bat文件,你这个是直接用powershell吗?  感谢您的回复
作者: huxudao    时间: 2023-11-25 22:53

回复 1# cxq00


    同问
作者: /zhqsystem/zhq    时间: 2023-11-25 22:55

本帖最后由 /zhqsystem/zhq 于 2023-11-25 23:04 编辑
  1. rem 特别说明:#号不能连续,又发现一处错误#也不能在开始字段,凑合用吧,来回减字符数字实在是烧脑
  2. if /i "%~f1"=="" echo,错误请拖拽运行或是调用[+路径]运行&timeout.exe /t 10&exit
  3. >"%~f1.tmp" (
  4.   for /f "delims=" %%i in ('type "%~f1"')do (
  5.    set "#=%%i"
  6.    call:1
  7.    call:2 "%~f1"
  8.   )
  9. )
  10. goto:eof
  11. :1
  12. for /l %%n in (0,1,8192)do if /i "!#:~%%n,1!"=="" set/a "$_All=%%n"&&goto:eof
  13. goto:eof
  14. :2
  15. set "n=0"
  16. for /l %%n in (0,1,!$_All!)do if /i "!#:~%%n,1!"=="#" set/a "n+=1"&&set "$_!n!=%%n"
  17. set/a "o=!n!%%2"
  18. if /i "!o!"=="0" (call:3)else (echo,!#!)&&rem 符号不成组直接导出
  19. goto:eof
  20. :3
  21. set "#_tmp=!#!"
  22. set/a "nn=!n!+2"&&rem 修正段
  23. for /l %%n in (1,1,!nn!)do if defined #_tmp for /f "tokens=1,2,* delims=#" %%x in ("!#_tmp!")do (
  24.   if /i not "%%y"=="" set "#_tmp=%%x%%z"
  25. )
  26. echo,!#_tmp!
  27. goto:eof
复制代码

作者: pd1    时间: 2023-11-25 23:29

回复 5# cxq00


    上面的代码保存到一个.bat文件里运行就行
作者: cxq00    时间: 2023-11-26 09:58

回复 8# /zhqsystem/zhq


   谢谢您的帮助,我去试试
作者: cxq00    时间: 2023-11-26 09:58

回复 9# pd1


    好的,非常感谢
作者: cxq00    时间: 2023-11-26 10:07

回复 9# pd1


    请问下这个是什么语言写的
作者: ShowCode    时间: 2023-11-26 11:05

回复 12# cxq00


    4楼的代码是在BAT脚本里面调用的PowerShell
作者: cxq00    时间: 2023-11-26 18:21

回复 13# ShowCode


    哦哦,好的,谢谢!!
作者: aloha20200628    时间: 2023-11-27 15:52

本帖最后由 aloha20200628 于 2024-6-6 22:31 编辑


一。不写一堆纯P代码,就要用其他手段代劳。系统原装的 jscript 或外部资源如 python、sed.exe 等可以逐步简化一楼示例的解法》
以下6行代码存为批处理脚本运行》cmd+jscript混编
  1. @set @v=1 /*
  2. @echo off
  3. for /f "delims=" %%F in ('dir/b/s/a-d *.txt') do (type "%%~F"|cscript /e:javascript "%~f0">"%%~F.new")
  4. exit/b
  5. */
  6. lines=WSH.stdin.readall().replace(/#[^#]*#/g, ''); WSH.echo(lines);
复制代码
以下5行代码存为批处理脚本运行》假设系统已经预装python
  1. @echo off
  2. for /f "delims=" %%F in ('dir/b/s/a-d *.txt') do (
  3. type "%%~F"|python -c "import sys,re;s=sys.stdin.read();print(re.sub('#[^#]*#','',s,re.S))">"%%~F.new"
  4. )
  5. exit/b
复制代码
以下2行代码存为批处理脚本运行》假设sed.exe已被下载安装在系统路径
  1. @echo off &for /f "delims=" %%F in ('dir/b/s/a-d *.txt') do (sed "s/#[^#]*#//g" "%%~F">"%%~F.new")
  2. exit/b
复制代码
二。再给一段纯P代码》未发现内置的字符串操作捷径,只能用纯P的基本方法,先获取字符串长度再逐字判断以求目标结果... 此法虽然基本但确有灵活性,可有多种字符串处理用途。
以下代码存为批处理脚本运行》
  1. @echo off &setlocal enabledelayedexpansion
  2. for /f "delims=" %%F in ('dir/b/s/a-d *.txt') do (
  3. (for /f "usebackq delims=" %%s in ("%%~F") do (
  4. set "cut=-1" &set "_s=" &set "s=%%~s" & (call :_strLen s sl)
  5. for /L %%i in (0,1,!sl!) do (
  6. set "c=!s:~%%i,1!"
  7. if "!c!" neq "#" (if !cut! equ -1 set "_s=!_s!!c!") else (set/a "cut=0-!cut!")
  8. )
  9. echo,!_s!
  10. ))>"%%~F.new"
  11. )
  12. endlocal&exit/b
  13. :_strLen //获取字符串长度(须开启变量延迟可保全^!等字符) %1=字符串变量名 %2=返回值变量名
  14.    set "_str=_!%~1!" &set "_Len=0"
  15.    for %%n in (4096 2048 1024 512 256 128 64 32 16 8 4 2 1) do (
  16.       if "!_str:~%%n,1!" neq "" (set/a "_Len+=%%n"&set "_str=!_str:~%%n!")
  17.    )
  18.    set "%~2=!_Len!" &exit/b
复制代码

作者: terse    时间: 2023-11-27 16:49

也来个纯P,尽量处理特殊字符吧
  1. @echo off
  2. for /f "delims=" %%f in ('dir/b/s/a-d *.txt') do (
  3.      (for /f "usebackq tokens=1* delims=#" %%i in ("%%f") do (
  4.            set "str=%%i"
  5.            set "s=%%j"
  6.            if "%%j" neq "" (
  7.                call :loop
  8.                setlocal enabledelayedexpansion
  9.                echo !str!
  10.                endlocal
  11.           ) else echo %%i
  12.      ))>"New_%%~nf.tx"
  13. )
  14. pause
  15. exit
  16. :loop
  17. if "%s%" == ""  goto :eof
  18. for /f "tokens=2* delims=#" %%i in ("%s%") do (
  19.      set "t=%%i"
  20.      set "s=%%j"
  21.      setlocal enabledelayedexpansion
  22.      if "!t: =!" neq "" set "str=!str!!t!"
  23.      for /f "delims=" %%a in ("!str!") do endlocal&set "str=%%a"
  24.      call :loop
  25. )
复制代码
第三方gawk 处理子目录 要加FOR
  1. gawk "{gsub(/#[^#]*#/, \"\"); print >>FILENAME\"NEW_tx\"}" *.txt
复制代码

作者: aloha20200628    时间: 2023-11-27 18:00


订正了15楼代码。其中jscript和python脚本因均以文件而非行作为处理单位,故可有效解析定界符内容被断行的情况。

作者: Five66    时间: 2023-11-28 02:35

本帖最后由 Five66 于 2023-11-28 06:34 编辑

来个偷懒的,保存为ansi编码的bat
仅处理当前路径中文件夹里的文本文件
要求文本文件编码为gbk,文件名不要有英文百分号或936代码页无法显示的字符,还有文本中如果包含^可能会被吞
改了下,已最大程度支持特殊字符(大概)
  1. @echo off&chcp 936 >nul
  2. for /d %%a in (*) do (
  3. for /f "delims=" %%b in ('dir /b /s /a-d "%%a\*.txt"') do (
  4. setlocal
  5. for /f "delims=" %%c in ('findstr /n .* "%%b"') do (
  6. set "line=%%c"
  7. setlocal enabledelayedexpansion
  8. if "!line:*:=!" == "" (endlocal&echo,) else (
  9. set "line=!line:*:=!"
  10. for /f "delims=" %%i in ("$!line:#=^#!") do endlocal&set "line=%%i"
  11. set o=
  12. call :aaa
  13. )
  14. )
  15. endlocal
  16. )>"%%~dpb_new_%%~nxb"
  17. )
  18. pause&exit/b
  19. :aaa
  20. setlocal enabledelayedexpansion
  21. set "line=!line:~1!"
  22. for /f "tokens=1* delims=^" %%x in ("$!line!") do (
  23. endlocal&set line=&set "tk1=%%x"&set "tk2=%%y"
  24. )
  25. setlocal enabledelayedexpansion
  26. set "tk1=!tk1:~1!"
  27. if "!tk1:~0,1!" == "#" (
  28. if "!tk2:~0,1!" == "#" (set "line=!tk2:~1!") else set "o=!o!!tk1!"&set "line=!tk2!"
  29. ) else (
  30. set "o=!o!!tk1!"
  31. set "line=!tk2!"
  32. )
  33. if defined line (
  34. for /f "delims=" %%i in ("$!line!") do (
  35. for /f "delims=" %%j in (""!o!"") do endlocal&set "line=%%i"&set "o=%%~j"
  36. )
  37. goto :aaa
  38. ) else echo,!o!&endlocal
  39. goto :eof
复制代码

作者: aloha20200628    时间: 2023-11-28 14:15

本帖最后由 aloha20200628 于 2023-11-28 14:25 编辑


一楼示例中没有那些 ^&!%()<\|/> 等特殊字符作祟,故15楼的纯P代码可以应付,当然 jscript/python/sed 等解决方案可以对此无惧。
若真要考虑纯P解法能处理上述特殊字符,还须订正其中的代码(包括字符串长度获取函数)如下》

按一楼示例原意顺便改写一个包含特殊字符的测试样本 test.txt:
'~^&!%(#将被删除#)<\|/>
'~^&!%()<\|/>#将被删除#
#将被删除#'~^&!%()<\|/>
  1. @echo off
  2. for /f "delims=" %%F in ('dir/b/s/a-d *.txt') do (
  3. (for /f "usebackq delims=" %%s in ("%%~F") do (
  4. set s=%%~s
  5. setlocal enabledelayedexpansion
  6. set "cut=-1" &set "_s=" &(call :_strLen s sL)
  7. for /L %%i in (0,1,!sL!) do (
  8. set "c=!s:~%%i,1!"
  9. if "!c!" neq "#" (if !cut! equ -1 set "_s=!_s!!c!") else (set/a "cut=0-!cut!")
  10. )
  11. (echo,!_s!)
  12. endlocal
  13. ))>"%%~F.new"
  14. )
  15. endlocal &exit/b
  16. :_strLen //获取字符串长度(须先开启变量延迟可保全^!等特殊字符) %1=被测字符串变量名 %2=返回值变量名
  17. set "_str=_!%~1!" &set "Len=0"
  18. for %%n in (4096 2048 1024 512 256 128 64 32 16 8 4 2 1) do (
  19. if "!_str:~%%n,1!" neq "" (set/a "Len+=%%n"&set "_str=!_str:~%%n!")
  20. )
  21. set/a "%~2=!Len!-1" &exit/b
复制代码





欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2