Board logo

标题: [其他] 【已解决】fr.exe(find - replace)的正则匹配问题 [打印本页]

作者: kidzgy    时间: 2022-11-26 14:46     标题: 【已解决】fr.exe(find - replace)的正则匹配问题

本帖最后由 kidzgy 于 2022-11-29 19:15 编辑

fr文件http://bcn.bathome.net/tool/2.1.7.0424/fr.exe
fr文件操作说明:http://baiy.cn/utils/fr/index.htm
正则测试文件(文件名为extensions.json,全文单行内容)https://pastebin.ubuntu.com/p/QfgD7xzntJ/plain/
正则测试主要内容(源测试文件内容较多,将无关内容去除后的主要内容)
  1. "path":"D:\\Firefox106\\Profiles\\extensions\\s3google@translator.xpi","path":"D:\\Firefox106\\browser\\features\\screenshots@mozilla.org.xpi",,"path":"D:\\Firefox106\\browser\\features\\webcompat@mozilla.org.xpi",
复制代码
正则测试语句:
  1. \"path\"\:\".*?\\\\(browser\\\\features|Profiles\\\\extensions).*?
复制代码
要点:
  1. (1)【D:\\Firefox106】路径不唯一,它可以是任何路径,任意文件夹名。fr的最终目的就是,不管当前路径如何,在fr.exe后,重新刷新为当前路径。比如,当前路径是【D:\\Firefox106】,但我又把Firefox106文件夹放到【C:\123】在fr.exe,那路径就该是【C:\123\Firefox106】。
  2. (2)在用 regex101.com 测试的时候,通过上述测试语句搜索,匹配的内容是【D:\\Firefox106\\Profiles\\extensions】或【D:\\Firefox106\\browser\\features】
复制代码
,并且将【Profiles\\extensions】或【browser\\features】设置为【组1(即\1)】。

我在regex101测试内容截图:



我的批处理命令行内容如下:
  1. @ECHO OFF&(PUSHD "%~DP0")
  2. set firefox=%~DP0
  3. set firefox1=%firefox:\=/%
  4. set firefox2=%firefox:\=\\\\%
  5. fr.exe "extensions.json" -ric:"***:file:\/\/\/.*?\/(Profiles\/extensions|browser\/features).*?" -t:"file:///%firefox1%\1"
  6. fr.exe "extensions.json" -ric:"***:\"path\"\:\".*?\\\\(browser\\\\features|Profiles\\\\extensions).*?" -t:""path":"%firefox2%\1"
复制代码
发现 第一条fr.exe 这条语句是可以成功替换的,但是第二条 fr.exe 则是替换失败,本帖的内容就是讨论第二条的执行问题,不知道原因在哪里?

请问,语句应该怎么修改?或者是否必须使用fr外的第三方命令工具,如果是其他第三方工具命令行内容该如何填写?
作者: hfxiang    时间: 2022-11-27 09:28

估计使用fr.exe( find - replace )的人不很多。如用“正则表达式”处理文档,建议使用gawk( http://bcn.bathome.net/tool/4.1.0/gawk.exe )或者sed( http://bcn.bathome.net/tool/4.8/sed.exe ),这2工具在网上的资料相对容易找到。如能更清晰列出处理前的文档及处理后的文档,并附修改说明,应该能有解决方案。
作者: kidzgy    时间: 2022-11-27 10:56

回复 2# hfxiang


    sed似乎不支持懒惰模式。
作者: pd1    时间: 2022-11-27 11:08

关键是把上上楼说的如能给出后面的内容给出来。
不管什么语言,正则表达式都是一个东西,最多有点细微差别
补充一句,把会影响通用性的反例加进去,以防写好后再返工
作者: kidzgy    时间: 2022-11-28 09:15


或者我换种提法,以【\\browser\\features】为基准,怎么向前匹配最近的一个【path】?如图所示,红色区域是我最终想匹配的内容。
为什么我这里懒惰匹配,还能匹配到最开头的【path】?
  1. (?<=path\"\:\").*?(\\\\browser\\\\features).*?
复制代码
  1. "path":"D:\\Firefox106\\Profiles\\extensions\\s3google@translator.xpi","path":"D:\\Firefox106\\browser\\features\\screenshots@mozilla.org.xpi"
复制代码

作者: hfxiang    时间: 2022-11-28 09:46

本帖最后由 hfxiang 于 2022-11-28 11:49 编辑

回复 5# kidzgy


   

下载gawk( http://bcn.bathome.net/tool/4.1.0/gawk.exe
执行
  1. gawk "{print gensub(/^.*\"path\":\"(.+\\\\browser\\\\features).+\".*$/,\"\\1\",\"g\")}" extensions.json>con
复制代码
结果
  1. D:\\Firefox106\\browser\\features
复制代码

作者: Batcher    时间: 2022-11-28 09:47

回复 5# kidzgy


这样可以吗
  1. (?<=path\"\:\")[^,]+(\\\\browser\\\\features)
复制代码

作者: Batcher    时间: 2022-11-28 10:02

回复 5# kidzgy


sed试试这样
  1. sed -r "s#\"path\".*:\x22([^\x22]+\\\\browser\\\\features).*#\1#" 1.txt > 2.txt
复制代码

作者: kidzgy    时间: 2022-11-28 10:11

回复 7# Batcher


    感谢解答!这个绝了,用逗号做分割。我有个疑问,假设分割的不是逗号,而是apple这个词组或某个句子,那么这个【[^,]+】应该怎么写?
作者: terse    时间: 2022-11-28 10:27

既然是json文件,那就按json处理呢?不用正则应该可以,如有样本可以试一下
作者: kidzgy    时间: 2022-11-28 10:58

回复 10# terse

json样本
https://wwi.lanzoup.com/ifb2r0h3ap1c
作者: WHY    时间: 2022-11-28 11:04

要用到所谓的"零宽断言"才能实现,不知道 fr.exe 支不支持
在 UltraEdit 中,选替换
正则选
  1. ^.*?("path":(?:(?!"path":).)*\\\\browser\\\\features).*$
复制代码
替换为选 \1
正则勾选 Perl
作者: WHY    时间: 2022-11-28 12:07

本帖最后由 WHY 于 2022-12-15 10:44 编辑
  1. @echo off
  2. REM 替换 D:\\Firefox106 为当前脚本路径
  3. set "p=%~dp0"
  4. PowerShell "$arr = (gc -Literal '%~dp0extensions.json' -Enc UTF8 -ReadCount 0) -replace '(?<=\"path\":\")(?:(?!\"path\":\").)*(?=Profiles\\\\extensions|browser\\\\features)', '%p:\=\\%'; sc -Literal '%~dp0Result.json' -Value $arr -Enc UTF8"
  5. pause
复制代码
Test.ps1
  1. #替换 D:\\Firefox106 为当前当前脚本路径
  2. #需PowerShell v3.0及以上版本
  3. $MyPath = $MyInvocation.MyCommand.Path -replace '\\[^\\]+$', '\';
  4. $json = gc -Literal ($MyPath + 'extensions.json') -Raw -Enc utf8 | ConvertFrom-Json;
  5. forEach( $obj In $json.addons ){
  6.     $path = $obj.path -replace '^.*?\\(?=Profiles\\extensions|browser\\features)', $MyPath;
  7.     $obj.path = $path;
  8. }
  9. $json | ConvertTo-Json -Depth 10 | sc -Literal ($MyPath + 'Result.json') -Enc utf8;
复制代码

作者: terse    时间: 2022-11-28 15:26

提取含browser\features\ 关键词的路径
  1. @if(0)==(0) @echo off
  2. set "file=extensions.json"
  3. set "s=\browser\features\"
  4. cscript.exe -NoLogo -E:JScript %0  "%file%" "%s%"
  5. PAUSE & exit/b
  6. rem 保存为ANSI文件
  7. @end
  8. function adoLoadText(filename, charset) {
  9.     stream = new ActiveXObject("ADODB.Stream");
  10.     stream.type = 2;
  11.     stream.charset = charset;
  12.     stream.open();
  13.     stream.loadFromFile(filename);
  14.     text = stream.readText(-1);
  15.     stream.close();
  16.     return(text);
  17. }
  18. var file = WSH.Arguments.Item(0);
  19. var jsontext =adoLoadText(file, "UTF-8");
  20. var obj = new Function("return" + unescape(jsontext))();
  21. var re = new RegExp(WSH.Arguments.Item(1).replace(/[.*+?^${}()|[\]\\]/g, "\\$&"));
  22. for (var k  in obj) {var arr = obj[k] }
  23. for (var i=0, len = arr.length;  i<len;i++) {
  24.       var path=arr[i]["path"]
  25.       if (re.test(path))  {WSH.Echo(path)}
  26. }
复制代码

作者: kidzgy    时间: 2022-11-28 19:30

回复  kidzgy


   

下载gawk(  )
执行结果
hfxiang 发表于 2022-11-28 09:46



   您好!这个似乎是搞错了,不是提取json的path路径哦,是还要针对 D:\firefox106 进行重置路径。不知道gawk能直接修改吗?
作者: kidzgy    时间: 2022-11-28 20:00

回复 13# WHY
  1.     @echo off
  2.     REM 替换 D:\\Firefox106 为当前脚本路径
  3.     set "p=%~dp0"
  4.     PowerShell "$arr = (gc -Literal '%~dp0extensions.json' -Enc UTF8 -ReadCount 0) -replace '(?<=\"path\":)(?:(?!\"path\":).)*(?=Profiles\\\\extensions|browser\\\\features)', '%p:\=\\%'; sc -Literal '%~dp0Result.json' -Value $arr -Enc UTF8"
  5.     pause
复制代码
这段代码中的【'%p:\=\\%'】似乎应该修改为【'\"%p:\=\\%'】,不然的话,少了个双引号。path的参数无法配对。
ps的-replace 参数好奇怪, 【-replace A,B】 把A替换成B,【'\"%p:\=\\%'】是Firefox106的路径,怎么没有把【Profiles\\\\extensions|browser\\\\features】一并替换掉呢?
作者: WHY    时间: 2022-11-28 20:12

回复 16# kidzgy


    确实,少加了一个双引号。
  1. (?=Profiles\\\\extensions|browser\\\\features)
复制代码
  1. (?:Profiles\\\\extensions|browser\\\\features)
复制代码
是有区别的
作者: kidzgy    时间: 2022-11-28 20:19

回复 12# WHY


    刚刚试了一下,fr不支持,不过这个语句在regex101,提示回溯过多
作者: WHY    时间: 2022-11-28 20:36

本帖最后由 WHY 于 2022-12-15 10:43 编辑

回复 18# kidzgy


    12楼仅仅是示例,可以无视。这样即可:
  1. (?<="path":")(?:(?!"path":").)*(?=Profiles\\\\extensions|browser\\\\features)
复制代码

作者: hfxiang    时间: 2022-11-28 20:43

回复 15# kidzgy


   
所谓“重置”,无非是部分“删除”、“替换”以及“插入”,对吧?请把前后对照摆出来,awk或sed就为此而生的
作者: kidzgy    时间: 2022-11-28 21:00

回复 20# hfxiang

源代码是:
  1. "path":"D:\\Firefox106\\Profiles\\extensions\\s3google@translator.xpi","path":"D:\\Firefox106\\browser\\features\\screenshots@mozilla.org.xpi",,"path":"D:\\Firefox106\\browser\\features\\webcompat@mozilla.org.xpi",
复制代码
假设我当前文件夹是【E:\FF\Firefox107】(注:当前路径是变量,是任意路径)
要做的就是把【D:\\Firefox106】变为【E:\FF\Firefox107】

最终效果的代码是:
  1. "path":"E:\\FF\\Firefox107\\Profiles\\extensions\\s3google@translator.xpi","path":"E:\\FF\\Firefox107\\browser\\features\\screenshots@mozilla.org.xpi",,"path":"E:\\FF\\Firefox107\\browser\\features\\webcompat@mozilla.org.xpi",
复制代码
谢谢!
作者: terse    时间: 2022-11-28 21:23

本帖最后由 terse 于 2022-11-28 21:26 编辑

先ECHO 看这样替换成功不 (没写入文件)
  1. @if(0)==(0) @echo off
  2. set "file=extensions.json"
  3. set "oid=%cd%"
  4. set "s=(?=\Profiles\extensions\|\browser\features\)"
  5. cscript.exe -NoLogo -E:JScript %0  "%file%" "%s%" "%oid%"
  6. PAUSE & exit/b
  7. rem 保存为ANSI文件
  8. @end
  9. function adoLoadText(filename, charset) {
  10.     stream = new ActiveXObject("ADODB.Stream");
  11.     stream.type = 2;
  12.     stream.charset = charset;
  13.     stream.open();
  14.     stream.loadFromFile(filename);
  15.     text = stream.readText(-1);
  16.     stream.close();
  17.     return(text);
  18. }
  19. var s = WSH.Arguments.Item(1);
  20. var p = WSH.Arguments.Item(2);
  21. var file = WSH.Arguments.Item(0);
  22. var jsontext =adoLoadText(file, "UTF-8");
  23. var obj = new Function("return" + unescape(jsontext))();
  24. var re = new RegExp(s.replace(/\\/g, "\\$&"));
  25. var reg =new RegExp( '('+ '.+?' + ')'+ s.replace(/\\/g, "\\$&"));
  26. for (var k  in obj) {var arr = obj[k] }
  27. for (var i=0, len = arr.length;  i<len;i++) {
  28.       var path=arr[i]["path"];
  29.       if (re.test(path))
  30.       {
  31.            WSH.Echo( path.replace( reg, function($a,$b) { return( p ) } ) );
  32.       }
  33. }
复制代码

作者: WHY    时间: 2022-11-28 21:39

gawk 肯定可以的,毋庸置疑。不过,好多好多斜杠啊
http://bcn.bathome.net/tool/4.1.0/gawk.exe
  1. @echo off
  2. set "p=%~dp0"
  3. gawk "{print $0=gensub(/(\"path\":\")[^^\"]+(Profiles\\\\extensions|browser\\\\features)/,\"\\1%p:\=\\\\\\\\%\\2\",\"g\")}" extensions.json > a.json
  4. pause
复制代码

作者: kidzgy    时间: 2022-11-28 21:41

回复 22# terse


    这个替换成功!如果要写入文件的话不知怎么处理呢?
作者: kidzgy    时间: 2022-11-28 21:44

回复 8# Batcher


对源文件 sed处理后的效果是这样的

作者: kidzgy    时间: 2022-11-28 21:49

回复 23# WHY


    效果图是


作者: WHY    时间: 2022-11-28 21:56

本帖最后由 WHY 于 2022-11-28 21:59 编辑

回复 26# kidzgy


    set "p=%~dp0"
这一句你丢了,并且要存为bat脚本文件运行
作者: kidzgy    时间: 2022-11-28 22:05

回复 27# WHY


是哈,是我大意了!感谢!非常完美!
作者: kidzgy    时间: 2022-11-28 23:49

本帖最后由 kidzgy 于 2022-11-29 02:09 编辑

回复 27# WHY


    请教一下,gawk有没有办法直接修改源文件,而不是再生成新文件?另外,如何开启忽略大小写?
作者: terse    时间: 2022-11-29 01:14

Ps
  1. <# :
  2. @echo off
  3. PowerShell -NoProfile -C ". ([ScriptBlock]::Create((gc -Literal '%~f0') -join \"`r`n\"))"
  4. pause & exit/b
  5. #>
  6. $oid = [Io.Directory]::GetCurrentDirectory()
  7. $jointxt =  @(CAT .\extensions.json  -Encoding UTF8)|ConvertFrom-Json
  8. $pat ='^.*?\\(?=Profiles\\extensions|browser\\features)'
  9. for ( $i=0; $i -lt $jointxt.addons.Count;$i++) {
  10.     $jointxt.addons[$i].path = $jointxt.addons[$i].path -replace $pat,$oid
  11. }
  12. $jointxt|ConvertTo-Json |  sc 'New_extensions.json' -Encoding UTF8
复制代码

作者: WHY    时间: 2022-11-29 13:26

回复 29# kidzgy


    比如,把 1.txt 中的 abc 改成 xyz
  1. gawk -v "IGNORECASE=1" "{print $0=gensub(/abc/,\"xyz\",\"g\")>\"1.txt\"}" 1.txt
复制代码

作者: kidzgy    时间: 2022-11-29 19:15

回复 30# terse


    这个管用,谢谢!感觉ps比bat+第三方复杂好多!
作者: kidzgy    时间: 2022-11-29 19:26

回复 31# WHY


    感谢!!现在是更加完善了!
作者: terse    时间: 2022-11-29 21:06

回复 33# kidzgy
直接正则替换效率提高的  练手一下
PS
  1. <# :
  2. @echo off
  3. PowerShell -NoProfile -C ". ([ScriptBlock]::Create((gc -Literal '%~f0') -join \"`r`n\"))"
  4. pause & exit/b
  5. #>
  6. $oid = [Io.Directory]::GetCurrentDirectory() -replace '\\','\\'
  7. $pat = '(?<="path":")[^"]+(?=\\\\Profiles\\\\extensions\\\\|\\\\browser\\\\features\\\\)'
  8. $(gc extensions.json -Raw -Encoding UTF8) -replace $pat , $oid | sc 'extensions.json' -Encoding UTF8
复制代码
JS代码长,效率不低
  1. @if(0)==(0) @echo off
  2. set "file=extensions.json"
  3. set "ph=%~dp0"
  4. cscript.exe -NoLogo -E:JScript %0  "%file%" "%ph:~,-1%"
  5. PAUSE & exit/b
  6. @end
  7. function adoLoadText(filename, charset) {
  8.     stream = new ActiveXObject("ADODB.Stream");
  9.     stream.type = 2;
  10.     stream.charset = charset;
  11.     stream.open();
  12.     stream.loadFromFile(filename);
  13.     text = stream.readText(-1);
  14.     stream.close();
  15.     return(text);
  16. }
  17. function adoSaveText(filename, text) {
  18.   var stream;
  19.   stream = new ActiveXObject("ADODB.Stream");
  20.   stream.type = 2;
  21.   stream.charset ='utf-8';
  22.   stream.open();
  23.   stream.writeText(text);
  24.   stream.saveToFile(filename, 2);
  25.   stream.close();
  26. }
  27. var file = WSH.Arguments.Item(0);
  28. var p = WSH.Arguments.Item(1).replace(/\\/g,"\\\\");
  29. var jsontext =adoLoadText(file, "UTF-8");
  30. var re =/("path":")[^"]+(?=\\\\Profiles\\\\extensions\\\\|\\\\browser\\\\features\\\\)/ig;
  31. adoSaveText('extensions.json',jsontext.replace( re, function($a,$b ) {return($b+p)}));
复制代码

作者: kidzgy    时间: 2022-11-29 22:38

回复 34# terse


    第二段代码提示(UTF-8编码)
  1. 输入错误: 无法找到脚本文件“D:\Firefox107 - 副本\profiles\123.bat聽聽extensions.json”。
复制代码
或者(GBK编码或ANSI编码)
  1. CScript 错误: 加载脚本“D:\Firefox107 - 副本\profiles\123.bat??extensions.json”失败(文件名、目录名 或卷标语法不正确。 )。
复制代码

作者: terse    时间: 2022-11-30 00:11

回复 35# kidzgy
我这边测试的是你发的extensions.json文件,都通过测试,系统win10
会不会文件编码问题
作者: kidzgy    时间: 2022-11-30 18:06

回复 36# terse

我知道是什么原因了,是我火狐浏览器的问题,107版本在复制时,会有【<0xa0>】 的特别空白符,导致批处理运行失败。在106版本或换成EDGE浏览器时则无此情况,这应该是火狐107独有的BUG。
   




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2