[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[文本处理] 【已解决】求助批处理文件夹内所有文本合并后,提取重复数为N的字符

本帖最后由 思想之翼 于 2023-4-16 18:23 编辑

d:\data1\内有若干文本,欲将文件夹内所有文本合并后,提取重复数为7的字符,写入d:\data2\B.txt;若没有重复数为7的字符,则B.txt为空。
每个文本记录字符的格式如下:
00000 00001
00003
00004 00005 00006
...

回复 18# 思想之翼


64位版要自行编译
https://mirrors.tuna.tsinghua.edu.cn/gnu/gawk/

32位版(下载后缺少libgcc_s_dw2-1.dll文件,可把微信的libgcc_s_dw2-1.dll文件复制到gawk文件夹下使用,它一般在"C:\Program Files\Tencent\WeChat\libgcc_s_dw2-1.dll"):
https://sourceforge.net/projects/ezwinports/files/
1

评分人数

TOP

本帖最后由 思想之翼 于 2023-4-16 17:13 编辑

回复 16# buyiyang

感谢
http://www.bathome.net/s/tool/index.html?down&key=gawk  4.1.3  64位

TOP

本帖最后由 思想之翼 于 2023-4-16 17:13 编辑

回复 17# hfxiang

感谢
http://www.bathome.net/s/tool/index.html?down&key=gawk  4.1.3  64位

TOP

回复 15# 思想之翼

多数4.2.1以下版本的gawk会有100列的限制(这是3位gawk开发者最初设定的参数),高版gawk对此进行了扩展,建议用5.2.1版试试。
1

评分人数

TOP

回复 15# 思想之翼


    3行60000列,我测试没有问题

TOP

本帖最后由 思想之翼 于 2023-4-16 15:57 编辑

回复 14# buyiyang

感谢!经测试,上述所有代码,对于小文本,结果正确。但是对于大文本(3行 60000列),输出文本为空。

TOP

回复 13# 思想之翼


    含通配符的路径去掉引号
  1. d:\data1\*.txt
复制代码
1

评分人数

TOP

本帖最后由 思想之翼 于 2023-4-16 15:34 编辑

回复 12# hfxiang

gawk: fatal: cannot open file `d:\data1\*.txt' for reading (Invalid argument)
感谢帮助!经测试,路径改正前后,都出现上述提示。

TOP

本帖最后由 hfxiang 于 2023-4-16 13:16 编辑

回复 1# 思想之翼
  1. gawk "{for(i=1;i<=NF;i++)a[$i]++}END{for(i in a)if(a[i]==7)print i}" "d:\data1\*.txt">"d:\data2\B.txt"
复制代码
之前输出错写为"d:\data1\B.txt",现改正为"d:\data2\B.txt" ,因为输入输出为同1文件夹会有冲突
1

评分人数

TOP

回复 10# 思想之翼


   你是改动代码了吧?如果开延迟变量,就在代码结束再关
1

评分人数

bat小白,请多指教!谢谢!

TOP

回复 9# 77七

环境变量 # 没有定义

TOP

本帖最后由 77七 于 2023-4-15 17:44 编辑
  1. @echo off
  2. cd /d "d:\data1\"
  3. for /f "delims=" %%a in ('type *.txt') do (
  4.         for %%b in (%%a) do (
  5.                 set/a #%%b+=1
  6.         )
  7. )
  8. cd.>d:\data2\B.txt
  9. (for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  10.         if %%b equ 7 (
  11.                 echo %%a
  12.         )
  13. ))>d:\data2\B.txt
  14. pause
复制代码

综合3楼 5楼的方法,再贴一下代码,方便他人阅读。
代码精简、优化、改动好多,向两位老师学习!
1

评分人数

bat小白,请多指教!谢谢!

TOP

回复 7# buyiyang

我太业余了。我以为的 set #的结果是这样的...
  1. ...
  2. #00001=6
  3. #00001=7
  4. #00001=8
复制代码
bat小白,请多指教!谢谢!

TOP

回复 6# 77七


    为什么说计数为8的可能会被统计出来呢?set #是列出所有#开头的变量及值,if %%b equ 7选择了值为7的变量

TOP

返回列表