批处理之家 - Powered by Discuz! Board

标题: [文本处理] 【已解决】批处理实现多条目多内容同时替换 [打印本页]

作者: zhengwei007 时间: 2024-5-18 13:13 标题: 【已解决】批处理实现多条目多内容同时替换

本帖最后由 zhengwei007 于 2024-5-29 16:56 编辑

我有个几千行的源文本text.txt，里面内容大概如下：

a,Recipe: Piece Bone Gaiters    1    59%\\nLeather Helmet Design    1    38%\\nRecipe: Piece Bone Breastplate    1    37%\0
a,Thread    2 - 3    100%\\nRecipe: Piece Bone Gaiters    1    59%\\nHaste Potion    1    19%\0
复制代码

我制作了一个类似字典的东西，也是一个txt，里面分左右两段，中间用逗号分开，逗号左边是要找的内容，逗号右边是要对应替换的内容。样式如下：

\\nLeather Helmet Design    ,\\n测试皮头盔甲    
\\nHaste Potion    ,\\n药水    
\\nRecipe: Piece Bone Breastplate    ,\\n骨头胸甲的制作卷    
复制代码

注：为了保持格式正确且完全匹配，我在每个结尾都加了4个空格，因为源文本就有空格。

我希望能通过批处理执行后，源文本直接保持原格式替换，结果变为如下样式：
a,Recipe: Piece Bone Gaiters 1 59%\\n测试皮头盔甲 1 38%\\n骨头胸甲的制作卷 1 37%\0
a,Thread 2 - 3 100%\\nRecipe: Piece Bone Gaiters 1 59%\\n药水 1 19%\0

请大家帮帮忙，谢谢。

作者: czjt1234 时间: 2024-5-18 15:47

另存为 ANSI 编码的 vbs

f1 = "text.txt"
c1 = "GBK"       '文件编码，可以是 UTF-16 或 UTF-8

f2 = "字典.txt"
c2 = "GBK"

Set oRegExp = CreateObject("VBScript.RegExp")
oRegExp.Global = True
oRegExp.IgnoreCase = True
Set oStream1 = CreateObject("ADODB.Stream")
oStream1.Type = 2
oStream1.Mode = 3
oStream1.Charset = c1
oStream1.Open()
oStream1.LoadFromFile f1
s = oStream1.ReadText()
Set oStream2 = CreateObject("ADODB.Stream")
oStream2.Type = 2
oStream2.Mode = 3
oStream2.Charset = c2
oStream2.Open()
oStream2.LoadFromFile f2
Do
    m = oStream2.ReadText(-2)
    If InStr(m, ",") Then
        m = Split(m, ",", 2)
        m(0) = RePlace(m(0), "\", "\\")
        oRegExp.Pattern = m(0)
        s = oRegExp.Replace(s, m(1))
    End If
Loop Until oStream2.EOS
oStream1.Close()
oStream1.Open()
oStream1.WriteText s
oStream1.SaveToFile f1, 2
wsh.Echo "ok"
复制代码

作者: zhengwei007 时间: 2024-5-18 17:35

另存为 ANSI 编码的 vbs
czjt1234 发表于 2024-5-18 15:47

你好，我执行完后，text.txt文件里面有小方框，感觉像是编码不对。我已经把两个文件全部改成ANSI编码了还是不行。

文件我打包上传了，请您帮忙看下。谢谢。

链接: https://pan.baidu.com/s/1kLUnWvjviDh2ADWtva7VNQ 提取码: sisp 复制这段内容后打开百度网盘手机App，操作更方便哦
--来自百度网盘超级会员v9的分享

作者: czjt1234 时间: 2024-5-18 19:46

win7x64，下载测试正常，没发现有小方框
源文件编码就是GBK

vbs处理大文件还是不行，太慢，等第三方程序来看看吧

作者: 77七 时间: 2024-5-18 22:04

字典 2.txt源文件 1.txt
输出 3.txt

@echo off
cd /d "%~dp0"
setlocal enabledelayedexpansion
for /f "useback tokens=1-2 delims=,\" %%a in ("2.txt") do (
	set "str=%%~nxa"
	set "str=!str::= !"
	set "#"!str!"=%%~nxb"
)
(for /f "useback delims=" %%a in ("1.txt") do (
	set "str="%%a""
	set "str=!str:    =" "!"
	setlocal
	for %%b in (!str!) do (
		for /f "tokens=1* delims=\" %%c in ("%%~b") do (
			if "%%d" equ "" (
				set "x=!x!%%c    "
			) else (
				set "d=%%d"
				set "d=!d::= !"
				if not defined #"!d!" (
					if "%%d" equ "0" (
						set "x=!x!%%c\%%d    "
					) else (
						set "x=!x!%%c\\%%d    "
					)
				) else (
					for /f "delims=" %%e in ("#"!d!"") do (
						set "x=!x!%%c\\!%%e!    "
					)
				)
			)
		)
	)
	echo !x:~0,-4!
	endlocal
))>3.txt
endlocal
pause
复制代码

如果字典也是几千行，代码效率低，不适用。如果有其它问题，请把源文件上传到网盘。

作者: 77七 时间: 2024-5-18 22:27

刚看到3楼，9000多行的字典，不知道超限制没，跑了五六分钟。结果 https://f.ws59.cn/f/e553x76waut

作者: zhengwei007 时间: 2024-5-19 00:32

你发的地址，打开后也有小方框。
我自己运行后的，也有小方框，还是编码不对？

作者: 77七 时间: 2024-5-19 01:03

回复 7# zhengwei007

可能是软件原因，被错误识别了吧。换用其它的文本软件打开试试。

作者: Five66 时间: 2024-5-19 07:39

保存为gbk或ansi的bat
仅针对3楼内容的格式
源文本跟字典txt编码全部gbk/ansi
替换后会生成新文件,编码gbk/ansi

@{}#? 2>nul&pause&powershell -c "gc -literalpath '%~f0'|out-string|iex"&exit/b
[console]::writeline("`r`nrunning")

#$thehash=new-object hashtable
$thehash=@{}

gc '字典.txt' |foreach{
$str=$_ -split '    ,'
if($thehash.ContainsKey($str[0])){
$thehash[$str[0]]=$str[1].trimend()
}else{
$thehash.add($str[0],$str[1].trimend())
}
}

gc 'text.txt' |foreach{
$aaa=$_.replace('\\n','    \\n')
$str=($aaa -split '    ' |foreach{if($thehash.ContainsKey($_)){$thehash[$_]}else{$_}}) -join '    '
$str.replace('    \\n','\\n')
} |sc the-new-text.txt

[console]::writeline("`r`ndone")
cmd /c pause
复制代码

作者: Five66 时间: 2024-5-19 07:40

回复 7# zhengwei007

看右下角 , 编码被识别成 utf-8 了

作者: hfxiang 时间: 2024-5-19 15:20

本帖最后由 hfxiang 于 2024-5-24 10:32 编辑

回复 1# zhengwei007

在命令行窗口下执行如下gawk（http://bcn.bathome.net/tool/4.1.0/gawk.exe）脚本可实现:

gawk "FNR==NR{split($0, a, /[^,]+|(\042[^\042]+\042)/,m);r[m[1]]=m[2]}FNR<NR{split($0, a, /\\\\[^\\0-9]+    /,m);printf a[1];for(i in m){if(!r[m[i]])r[m[i]]=m[i];printf(\"%s%s\",r[m[i]],a[i+1])};print\"\"}" "字典.txt" "text.txt">"text_new.txt"
复制代码

效率也是杠杠的

(抱歉，原脚本有遗漏，现已修正)

作者: aloha20200628 时间: 2024-5-19 16:29

本帖最后由 aloha20200628 于 2024-5-19 18:38 编辑

回复 1# zhengwei007

用jscript和python两个版本分别测试了楼主提供的示例文件》text.txt（ansi编码）, 字典.txt（ansi/gb2312编码）
前者用时约50秒，后者用时约20秒，测试系统硬件指标是intel i7-5500U
以下代码存为test.bat运行，生成替换结果文件为 text.new.txt（ansi/gb2312编码）

@set @v=1 //&(cscript /e:jscript "%~f0")&exit/b
//
fso = new ActiveXObject('Scripting.FileSystemObject');
fp = fso.OpenTextFile('字典.txt'), linesD = fp.readall().split('\r\n'), fp.close();
fp = fso.OpenTextFile('text.txt'), lineT = fp.readall(), fp.close();
fp = fso.OpenTextFile('text.new.txt',2,true);
for (var kv,re,i=0,l=linesD.length; i<l; i++) {
	kv = linesD[i].split(','), k = trim(kv[0]), v = trim(kv[1]);
	eval('re=/'+k+'/gi;'), lineT = lineT.replace(re, v);
}
fp.write(lineT), fp.close(), WSH.quit();
//
function trim (s) { return s.replace(/(^\s*)|(\s*$)/g,''); }
复制代码

如果楼主已经预装了python系统，可将以下代码存为test.py，直接在命令行运行，生成替换结果文件为 text.new.txt（ansi/gb2312编码）

#encoding=gbk
import re
with open('text.txt', 'r', -1) as fr:
	tLine = fr.read()
with open('字典.txt', 'r', -1) as fr:
	dLines = fr.readlines()
for d in dLines:
	kv = d.split(',')
	k, v = kv[0].strip(), kv[1].strip()
	tLine = re.sub(k, v, tLine, flags=re.I|re.S)
with open('text.new.txt', 'w', -1) as fw:
	fw.write(tLine)
复制代码

欢迎光临批处理之家 (http://bbs.bathome.net/)