Board logo

标题: [文本处理] [已解决] 请教批处理格式化文本并对关键字进行统计 [打印本页]

作者: ouch1983    时间: 2012-6-1 07:32     标题: [已解决] 请教批处理格式化文本并对关键字进行统计

本帖最后由 ouch1983 于 2012-6-3 15:34 编辑

输入文本样式:
1/810    CNABS
AP      - CN2008800 20080418
2/810    CNABS
AP      - CN2007800 20071108
3/810    DWPI
PN      - US2010149       A1      20110617    DW201042
4/810    DWPI
PN      - US2010284       A1      20061111    DW201077
5/810    CNABS
AP      - CN2010205 20100916
......
810/810 CNABS
AP      - CN2010111 20100888

要处理的文本有810条,每条有2行组成。AP是一种类型,ID以CN+数字组成,后面标红的部分是年月日。想通过批处理的方式,提取出标红的年月日这一列中的年份,并将所有同一年份的数量加起来,放在年份的后面,需要区分是PN类型的还是AP类型的,将结果输出到另一个文本或表格中。例如:日期是2007年的条目是“AP      - CN2007800 20071108”,相应输出的2007行和AP列处加1。

输出样式:
         PN         AP
2007      0           1
......
2010      0           1
2011      1           0
......
请教论坛上的大牛们如何做,多谢多谢。
作者: yangfengoo    时间: 2012-6-1 09:16

完全无法理解楼主的意思。
20071108"这一列  ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式2010这类怎么来的 PN AP 是什么值
作者: formyth    时间: 2012-6-1 09:49

本帖最后由 formyth 于 2012-6-1 09:50 编辑

其实,象这类问题,可能用正则表达式处理更加方便些,用批处理,感觉反而麻烦。不过统计数字,可能困难些
作者: ouch1983    时间: 2012-6-1 13:30

完全无法理解楼主的意思。
20071108"这一列  ……这一列有什么特征,什么样的列属于这一列的范畴
输出样式 ...
yangfengoo 发表于 2012-6-1 09:16


20071108其实就是日期,比如20081111。输出是我希望将输入按这个样式输出到另一个文本。
作者: ouch1983    时间: 2012-6-1 13:35

请教如何对这个问题用正则? 用什么语言实现?
作者: weichenxiehou    时间: 2012-6-1 15:52

回复 5# ouch1983
鄙人看得也是一头雾水啊,楼主可以上传实例文本,供大家观察规律,最好是修改顶楼信息,词不达意啊。
批处理和正则表达式并不是完全无关的东西,大家经常用的findstr就支持部分正则表达式,windows平台下的sed和gawk等也可以在批处理中调用啊。
作者: ouch1983    时间: 2012-6-1 18:58

不好意思没有说清楚,我修改了描述,请达人们指教。
作者: weichenxiehou    时间: 2012-6-1 19:52

本帖最后由 weichenxiehou 于 2012-6-1 20:00 编辑
  1. @echo off&setlocal enabledelayedexpansion
  2. set "tab= "
  3. for /f "delims==" %%a in ('set # 2^>nul') do set %%a=
  4. for /f "delims==" %%a in ('set $ 2^>nul') do set %%a=
  5. for /f "tokens=1,4,5" %%a in ('findstr /i "^ap ^pn" a.txt') do (
  6.   set "stra=%%a"
  7.   if /i "!stra:~,2!"=="ap" (set "strb=%%b"&set flag=ap) else (set
  8. "strb=%%c"&set flag=pn)
  9.   if !flag!==ap (
  10.     set/a "#!strb:~,4!+=1"
  11.     if not defined "$!strb:~,4!" set "$!strb:~,4!=0"
  12.   ) else (
  13.     set/a $!strb:~,4!+=1
  14.     if not defined "#!strb:~,4!" set "#!strb:~,4!=0"
  15.   )
  16. )
  17. echo,%tab%PN%tab%AP>result.txt
  18. for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  19.   echo,%%a%tab%!$%%a!%tab%%%b
  20. )>>result.txt
  21. start result.txt
复制代码

作者: weichenxiehou    时间: 2012-6-1 19:53

本帖最后由 weichenxiehou 于 2012-6-1 19:55 编辑

论坛这个问题还是在啊,点了一次“发表回复”没反应,于是再点一次,刷新后发现回了两次。。
作者: ouch1983    时间: 2012-6-1 22:30

多谢weichenxiehou。

用附件1.txt[attach]5370[/attach]作输入文本试了下代码,由于里面都是AP的条目,所以运行正常;
在附件1.txt的最后增加了几条PN的条目生成了附件2.txt[attach]5369[/attach],用作输入文本,PN的统计有问题而且导致AP条目的统计也产生了问题。
作者: apang    时间: 2012-6-1 22:49

  1. @echo off&setlocal enabledelayedexpansion
  2. for /f "tokens=1,4,5" %%a in ('findstr /ib "ap pn" a.txt') do (
  3.   if /i "%%a"=="AP" (
  4.     set str=%%b&set str=!str:~,4!
  5.     set/a #!str!+=1
  6.     if "!$%str%!"=="" set/a $!str!+=0
  7.   ) else (
  8.     set str=%%c&set str=!str:~,4!
  9.     set/a $!str:~,4!+=1
  10.     if "!#%str%!"=="" set/a #!str!+=0
  11.   )
  12. )
  13. (echo       PN    AP
  14. for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  15.   echo %%a   !$%%a!    %%b
  16. ))>result.txt
复制代码

作者: weichenxiehou    时间: 2012-6-1 23:15

回复 10# ouch1983
如果你能看懂代码,就会发现为什么了,因为你在末尾加的PN部分内容规律不统一,代码的意思是PN的日期应该在第5列,AP的日期应该在第四列。
作者: ouch1983    时间: 2012-6-1 23:24

恩,对,就是由于有这种不规律在里面,包括有的ID+数字前没有-,所以才觉得不知道用批处理怎么解决。刚了解了下正则表达式和Python,发现用那个可能在这个问题上会简单些吧。
作者: ouch1983    时间: 2012-6-2 08:22

回复 11# apang

谢谢apang,年份数量统计的还是不对。应该不是weichenxiehou说的日期在第4列还是第5列的问题。
作者: apang    时间: 2012-6-2 08:53

回复 14# ouch1983

代码是以行首标志AP或PN为进行判断的,你给的2.txt文本最后几行行首没有这个标志,所以统计不准。你告诉我怎么判断最后几行是AP还是PN?
作者: ouch1983    时间: 2012-6-2 09:10

回复 15# apang

哦,原来是这样。行首无标志的按照第一个有标志的为准,比如:
104/781   DWPI
PN        - EP1419624        A1      20040519    DW200433
          AU2002324        A1      20030310    DW200452
          IN228968B          B       20090320    DW201010
   
标红的都是PN
作者: ouch1983    时间: 2012-6-3 00:55

to: weichenxiehou
作者: weichenxiehou    时间: 2012-6-3 15:31

回复 17# ouch1983
  1. @echo off&setlocal enabledelayedexpansion
  2. set "tab= "
  3. for /f "delims==" %%a in ('set # 2^>nul') do set %%a=
  4. for /f "delims==" %%a in ('set $ 2^>nul') do set %%a=
  5. for /f "tokens=1-5" %%a in ('findstr /v /i "dwpi" test.txt') do (
  6.   if /i "%%a"=="ap" (set flag=ap&set/a count=0)
  7.   if /i "%%a"=="pn" (set flag=pn&set/a count=0)
  8.   if "!flag!"=="ap" (
  9.     if !count! equ 0 (set "strb=%%d") else set "strb=%%b"
  10.     set/a "#!strb:~,4!+=1"
  11.     if not defined "$!strb:~,4!" set "$!strb:~,4!=0"
  12.     set/a count+=1
  13.   )
  14.   if "!flag!"=="pn" (
  15.     if !count! equ 0 (set "strb=%%e") else set "strb=%%c"
  16.     set/a "$!strb:~,4!+=1"
  17.     if not defined "#!strb:~,4!" set "#!strb:~,4!=0"
  18.     set/a count+=1
  19.   )
  20. )
  21. echo,%tab%PN%tab%AP>result.txt
  22. for /f "tokens=1,2 delims=#=" %%a in ('set #') do (
  23.   echo,%%a%tab%!$%%a!%tab%%%b
  24. )>>result.txt
  25. start result.txt
复制代码

作者: ouch1983    时间: 2012-6-3 15:33

十分感谢weichenxiehou老师,问题已解决,还给讲了很多




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2