【已解决】批处理实现多条目多内容同时替换

zhengwei007 · 发表于 2024-5-18 13:13:40

本帖最后由 zhengwei007 于 2024-5-29 16:56 编辑

我有个几千行的源文本text.txt，里面内容大概如下：

a,Recipe: Piece Bone Gaiters 1 59%\\nLeather Helmet Design 1 38%\\nRecipe: Piece Bone Breastplate 1 37%\0
a,Thread 2 - 3 100%\\nRecipe: Piece Bone Gaiters 1 59%\\nHaste Potion 1 19%\0

复制代码

我制作了一个类似字典的东西，也是一个txt，里面分左右两段，中间用逗号分开，逗号左边是要找的内容，逗号右边是要对应替换的内容。样式如下：

\\nLeather Helmet Design ,\\n测试皮头盔甲
\\nHaste Potion ,\\n药水
\\nRecipe: Piece Bone Breastplate ,\\n骨头胸甲的制作卷

复制代码

注：为了保持格式正确且完全匹配，我在每个结尾都加了4个空格，因为源文本就有空格。

我希望能通过批处理执行后，源文本直接保持原格式替换，结果变为如下样式：
a,Recipe: Piece Bone Gaiters 1 59%\\n测试皮头盔甲 1 38%\\n骨头胸甲的制作卷 1 37%\0
a,Thread 2 - 3 100%\\nRecipe: Piece Bone Gaiters 1 59%\\n药水 1 19%\0

请大家帮帮忙，谢谢。

czjt1234 · 发表于 2024-5-18 15:47:10

另存为 ANSI 编码的 vbs

f1 = "text.txt"
c1 = "GBK" '文件编码，可以是 UTF-16 或 UTF-8
f2 = "字典.txt"
c2 = "GBK"
Set oRegExp = CreateObject("VBScript.RegExp")
oRegExp.Global = True
oRegExp.IgnoreCase = True
Set oStream1 = CreateObject("ADODB.Stream")
oStream1.Type = 2
oStream1.Mode = 3
oStream1.Charset = c1
oStream1.Open()
oStream1.LoadFromFile f1
s = oStream1.ReadText()
Set oStream2 = CreateObject("ADODB.Stream")
oStream2.Type = 2
oStream2.Mode = 3
oStream2.Charset = c2
oStream2.Open()
oStream2.LoadFromFile f2
Do
m = oStream2.ReadText(-2)
If InStr(m, ",") Then
m = Split(m, ",", 2)
m(0) = RePlace(m(0), "\", "\\")
oRegExp.Pattern = m(0)
s = oRegExp.Replace(s, m(1))
End If
Loop Until oStream2.EOS
oStream1.Close()
oStream1.Open()
oStream1.WriteText s
oStream1.SaveToFile f1, 2
wsh.Echo "ok"

复制代码

zhengwei007 · 发表于 2024-5-18 17:35:23

另存为 ANSI 编码的 vbs
czjt1234 发表于 2024-5-18 15:47

你好，我执行完后，text.txt文件里面有小方框，感觉像是编码不对。我已经把两个文件全部改成ANSI编码了还是不行。

文件我打包上传了，请您帮忙看下。谢谢。

链接: https://pan.baidu.com/s/1kLUnWvjviDh2ADWtva7VNQ 提取码: sisp 复制这段内容后打开百度网盘手机App，操作更方便哦
--来自百度网盘超级会员v9的分享

czjt1234 · 发表于 2024-5-18 19:46:07

win7x64，下载测试正常，没发现有小方框
源文件编码就是GBK

vbs处理大文件还是不行，太慢，等第三方程序来看看吧

77七 · 发表于 2024-5-18 22:04:31

字典 2.txt源文件 1.txt
输出 3.txt

@echo off
cd /d "%~dp0"
setlocal enabledelayedexpansion
for /f "useback tokens=1-2 delims=,\" %%a in ("2.txt") do (
set "str=%%~nxa"
set "str=!str::= !"
set "#"!str!"=%%~nxb"
)
(for /f "useback delims=" %%a in ("1.txt") do (
set "str="%%a""
set "str=!str: =" "!"
setlocal
for %%b in (!str!) do (
for /f "tokens=1* delims=\" %%c in ("%%~b") do (
if "%%d" equ "" (
set "x=!x!%%c "
) else (
set "d=%%d"
set "d=!d::= !"
if not defined #"!d!" (
if "%%d" equ "0" (
set "x=!x!%%c\%%d "
) else (
set "x=!x!%%c\\%%d "
)
) else (
for /f "delims=" %%e in ("#"!d!"") do (
set "x=!x!%%c\\!%%e! "
)
)
)
)
)
echo !x:~0,-4!
endlocal
))>3.txt
endlocal
pause

复制代码

如果字典也是几千行，代码效率低，不适用。如果有其它问题，请把源文件上传到网盘。

77七 · 发表于 2024-5-18 22:27:10

刚看到3楼，9000多行的字典，不知道超限制没，跑了五六分钟。结果 https://f.ws59.cn/f/e553x76waut

zhengwei007 · 发表于 2024-5-19 00:32:08

你发的地址，打开后也有小方框。
我自己运行后的，也有小方框，还是编码不对？

77七 · 发表于 2024-5-19 01:03:20

回复 7# zhengwei007

可能是软件原因，被错误识别了吧。换用其它的文本软件打开试试。

Five66 · 发表于 2024-5-19 07:39:20

保存为gbk或ansi的bat
仅针对3楼内容的格式
源文本跟字典txt编码全部gbk/ansi
替换后会生成新文件,编码gbk/ansi

@{}#? 2>nul&pause&powershell -c "gc -literalpath '%~f0'|out-string|iex"&exit/b
[console]::writeline("`r`nrunning")
#$thehash=new-object hashtable
$thehash=@{}
gc '字典.txt' |foreach{
$str=$_ -split ' ,'
if($thehash.ContainsKey($str[0])){
$thehash[$str[0]]=$str[1].trimend()
}else{
$thehash.add($str[0],$str[1].trimend())
}
}
gc 'text.txt' |foreach{
$aaa=$_.replace('\\n',' \\n')
$str=($aaa -split ' ' |foreach{if($thehash.ContainsKey($_)){$thehash[$_]}else{$_}}) -join ' '
$str.replace(' \\n','\\n')
} |sc the-new-text.txt
[console]::writeline("`r`ndone")
cmd /c pause

复制代码

Five66 · 发表于 2024-5-19 07:40:53

回复 7# zhengwei007

看右下角 , 编码被识别成 utf-8 了

hfxiang · 发表于 2024-5-19 15:20:29

本帖最后由 hfxiang 于 2024-5-24 10:32 编辑

回复 1# zhengwei007

在命令行窗口下执行如下gawk（http://bcn.bathome.net/tool/4.1.0/gawk.exe）脚本可实现:

gawk "FNR==NR{split($0, a, /[^,]+|(\042[^\042]+\042)/,m);r[m[1]]=m[2]}FNR<NR{split($0, a, /\\\\[^\\0-9]+ /,m);printf a[1];for(i in m){if(!r[m[i]])r[m[i]]=m[i];printf(\"%s%s\",r[m[i]],a[i+1])};print\"\"}" "字典.txt" "text.txt">"text_new.txt"

复制代码

效率也是杠杠的

(抱歉，原脚本有遗漏，现已修正)

aloha20200628 · 发表于 2024-5-19 16:29:01

本帖最后由 aloha20200628 于 2024-5-19 18:38 编辑

回复 1# zhengwei007

用jscript和python两个版本分别测试了楼主提供的示例文件》text.txt（ansi编码）, 字典.txt（ansi/gb2312编码）
前者用时约50秒，后者用时约20秒，测试系统硬件指标是intel i7-5500U
以下代码存为test.bat运行，生成替换结果文件为 text.new.txt（ansi/gb2312编码）

@set @v=1 //&(cscript /e:jscript "%~f0")&exit/b
//
fso = new ActiveXObject('Scripting.FileSystemObject');
fp = fso.OpenTextFile('字典.txt'), linesD = fp.readall().split('\r\n'), fp.close();
fp = fso.OpenTextFile('text.txt'), lineT = fp.readall(), fp.close();
fp = fso.OpenTextFile('text.new.txt',2,true);
for (var kv,re,i=0,l=linesD.length; i<l; i++) {
kv = linesD[i].split(','), k = trim(kv[0]), v = trim(kv[1]);
eval('re=/'+k+'/gi;'), lineT = lineT.replace(re, v);
}
fp.write(lineT), fp.close(), WSH.quit();
//
function trim (s) { return s.replace(/(^\s*)|(\s*$)/g,''); }

复制代码

如果楼主已经预装了python系统，可将以下代码存为test.py，直接在命令行运行，生成替换结果文件为 text.new.txt（ansi/gb2312编码）

#encoding=gbk
import re
with open('text.txt', 'r', -1) as fr:
tLine = fr.read()
with open('字典.txt', 'r', -1) as fr:
dLines = fr.readlines()
for d in dLines:
kv = d.split(',')
k, v = kv[0].strip(), kv[1].strip()
tLine = re.sub(k, v, tLine, flags=re.I|re.S)
with open('text.new.txt', 'w', -1) as fw:
fw.write(tLine)

复制代码

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[文本处理] 【已解决】批处理实现多条目多内容同时替换