批处理之家 - Powered by Discuz! Board

标题: [文本处理] 批处理如何取字段之间内容行？ [打印本页]

作者: 娜美 时间: 2022-1-21 22:30 标题: 批处理如何取字段之间内容行？

本帖最后由娜美于 2022-1-23 19:34 编辑

取字段之间内容行谢谢

如果倒数第一个有"企业"字段, 右侧是名称, 就截取该名称字段至"已执行"之间内容行,

但是倒数第一个有"企业"字段右侧名称会随系统记录不同着名称,  有时可能是科尔达, 也有可能联发科,  还有可能是其它一些名称, 并不是固定

双击脚本时廷时5秒执行, 完成后打开该输出文件

120秒后自动关闭打开的文件

进出文件可选择路径例如 D:\A

因为是一个300mgb左右文件是UFT-16编码,  最理想是不用做转编码这一步,因为对原文件做转编码需求,用awk实现了,  现在是想不用做转编码而是直接对UFT-16编码原文件进行处理,  因为要考虑代码执行过程及效率

BAT  Powershell都喜欢,  如果是Powershell最好能放在BAT脚本就能执行

似乎可以把>看成分隔符  这样整行就看成2列了仅需匹配第2列似乎更好

还可以把空格看成分隔符,  第$5段是"企业" 第$6段是"简名:联发科"  第$7段是"***:**:**"
然后锁定"企业"字段行的 $5,$6,$7列第5列是要开始截取"企业"字段  然后匹配$6,$7列字符串就ok ?

当然你们觉得怎么好就怎么来
这只是个人一些入手想法

作者: idwma 时间: 2022-1-22 14:28

本帖最后由 idwma 于 2022-1-22 15:03 编辑

#@&cls&powershell "type %~s0|out-string|iex"&pause&exit
$a=gc -readcount 0 D:\Test-UFT-16.txt
$b=($a[-1..-10] -match '企业')[0] -replace '.*简名:(.*?)\s.*','$1'
sc -enc unicode D:\out.txt ("$a" -split '(?<=已执行).' -split ".(?=\d\d:\d\d:\d\d.*企业 简名:$b)" -match "$b" -join "`r`n`r`n" -split '.(?=\d\d:\d\d:\d\d)')
复制代码

作者: 娜美 时间: 2022-1-22 16:26

本帖最后由娜美于 2022-1-22 16:48 编辑

回复 2# idwma

谢谢, 按测试文本是可以, 但是如果内容结构复杂一点输出就不准确了
似乎问题出在在文本最后的内容上

我偿试在文本胡乱添加一些行, 会导致输出不准确

在文本最后加上这些行
j
k
l
g
f
d
s

作者: 娜美 时间: 2022-1-22 16:50

本帖最后由娜美于 2022-1-22 16:54 编辑

回复娜美

最后的内容是什么样的?
idwma 发表于 2022-1-22 16:46

我偿试在文本胡乱添加这些行, 就会导致输出不准确, 可能需要忽略文本不同内容行
您也可以试试在文本内加上其它不同内容测试可能需要考虑到文本内复杂结构,

作者: idwma 时间: 2022-1-22 17:18

本帖最后由 idwma 于 2022-1-22 17:20 编辑

回复 3# 娜美

第三行改成这样试试,这里-1..-1000是倒数-1行到-1000,原来的10可能小了,如果最后出现企业的行不在1000以内可以自己加

$b=($a[-1..-1000] -match '企业')[0] -replace '.*简名:(.*?)\s.*','$1'
复制代码

作者: 娜美 时间: 2022-1-22 17:32

回复 5# idwma

现在可以了谢谢但是有点慢100mb文本需要很久
还可以加快一点吗 ?

作者: idwma 时间: 2022-1-22 18:21

回复 6# 娜美
不会了

作者: 娜美 时间: 2022-1-22 18:30

回复 7# idwma

谢谢idwma哥

作者: 娜美 时间: 2022-1-23 11:28

本帖最后由娜美于 2022-1-23 19:35 编辑

idwma哥 似乎还有点小问题需要您再改一下如果下面这种内容以倒数第一个企业字段为准, 截取其它第一个匹配到的企业字段至已执行内容行, 但现在代码测试到丢失了中间行似乎会忽略了名称空格

作者: idwma 时间: 2022-1-23 14:46

本帖最后由 idwma 于 2022-1-23 15:46 编辑

10:18:17 January 21 2022> 企业简名:科尔达 ***:**:** (* ,)
名字里有空格可以讲讲红字的***是数字还是别的什么吗?

#@&cls&powershell "type %~s0|out-string|iex"&pause&exit
$a=gc -readcount 0 D:\Test-UFT-16.txt
$b=($a[-1..-1000] -match '企业')[0] -replace '.*简名:\s*(.*)\s\S*:.*','$1'
$f=0
sc D:\out.txt $(foreach($i in $a){if(($f -eq 0) -and $i -match "$b"){$i;$f=1}elseif(($f -eq 1) -and $i -match '已执行'){$f=0;$i,''}elseif($f -eq 1){$i}})
复制代码

作者: 娜美 时间: 2022-1-23 15:16

本帖最后由娜美于 2022-1-23 19:35 编辑

10:18:17 January 21 2022> 企业简名:科尔达 ***:**:** (* ,)
名字里有空格可以讲讲红字的***是数字还是别 ...
idwma 发表于 2022-1-23 14:46

*是代表其它字符也有大写字母及数字

我觉得可以把这一段看成一个企业的全名称, 只要匹配简名:右则起的这一段字符串就可以了

作者: idwma 时间: 2022-1-23 15:47

回复 11# 娜美

改了

作者: 娜美 时间: 2022-1-23 16:22

回复 12# idwma

非常谢谢正确了

欢迎光临批处理之家 (http://bbs.bathome.net/)