Board logo

标题: [文本处理] [已解决]批处理如何将同一行内容自动换行? [打印本页]

作者: lonron    时间: 2023-4-14 13:52     标题: [已解决]批处理如何将同一行内容自动换行?

本帖最后由 lonron 于 2023-4-14 21:02 编辑
  1. {"fileId":"82474140744160028","fileName":"测试文件1.exe","fileSize":1575742,"fileType":"exe","isFolder":false,"createTime":"2022-12-19 14:58:31","lastOpTime":"2023-03-30 18:00:48","url":"436c7fd527213cb63d26dde4be6d702b5c50b0a19617b0f577fdc395095ad220fbbeb6e462ab99f63a2b2f5ccc9b428b98715086072763289c44b26e7e7c92d6"},{"fileId":"82486141026441368","fileName":"测试文件2.exe","fileSize":2021129740,"fileType":"exe","isFolder":false,"createTime":"2022-12-21 12:03:02","lastOpTime":"2023-03-30 18:02:45","url":"436c7fd527213cb63d26dde4be6d702b5c50b0a19617b0f577fdc395095ad22073f81f0692d5a6bb0c647e4ec30104b998715086072763289c44b26e7e7c92d6"},{"fileId":"52393157241817145","fileName":"测试文件3.exe","fileSize":3270166619,"fileType":"exe","isFolder":false,"createTime":"2023-03-24 22:02:27","lastOpTime":"2023-03-30 18:02:39","url":"436c7fd527213cb63d26dde4be6d702b6dbc0c88d300af99ea325241126fbda9c9055f4cc6dd7264a2f3166668bcbb5998715086072763289c44b26e7e7c92d6"},{"fileId":"72408159516708019","fileName":"测试文件4.exe","fileSize":124534230,"fileType":"exe","isFolder":false,"createTime":"2023-04-06 13:02:06","lastOpTime":"2023-04-06 13:02:06","url":"436c7fd527213cb63d26dde4be6d702bf1e905559843e42cea1dae75df4e28229ddf191b0cc2660c4d0f555b2c4ddc7598715086072763289c44b26e7e7c92d6"},{"fileId":"92365143335143586","fileName":"测试文件5.exe","fileSize":26051557,"fileType":"exe","isFolder":false,"createTime":"2023-01-05 16:08:27","lastOpTime":"2023-03-30 18:02:33","url":"436c7fd527213cb63d26dde4be6d702b8220e0080713c08cbe1e9f4139522e664a289dd4dca12eb9af645ea22958582298715086072763289c44b26e7e7c92d6"},{"fileId":"62329140744365621","fileName":"测试文件6.exe","fileSize":35043416,"fileType":"exe","isFolder":false,"createTime":"2022-12-19 15:01:20","lastOpTime":"2023-03-30 18:02:27","url":"436c7fd527213cb63d26dde4be6d702b883eef7895d30b8c0cec047a5ba099256186f7b2ffaeacba207c74a89637074c98715086072763289c44b26e7e7c92d6"},{"fileId":"12486140744030191","fileName":"测试文件7.exe","fileSize":59686896,"fileType":"exe","isFolder":false,"createTime":"2022-12-19 14:57:41","lastOpTime":"2023-03-30 18:00:21","url":"436c7fd527213cb63d26dde4be6d702b3f13d9e5712fb34717f2317a8eb682cfd1f36a9d465fc0f90e759b702ea4605198715086072763289c44b26e7e7c92d6"},{"fileId":"22486145619725981","fileName":"测试文件8.exe","fileSize":85052424,"fileType":"exe","isFolder":false,"createTime":"2023-01-18 22:44:19","lastOpTime":"2023-03-30 18:01:46","url":"436c7fd527213cb63d26dde4be6d702b592b947f1de0a4f83de736a55ce2c23ae8e8ea6d1096d69a56b1a344d88a811f98715086072763289c44b26e7e7c92d6"},{"fileId":"52550160899027709","fileName":"测试文件9.exe","fileSize":2193907800,"fileType":"exe","isFolder":false,"createTime":"2023-04-14 09:13:35","lastOpTime":"2023-04-14 09:13:35","url":"436c7fd527213cb63d26dde4be6d702b6dbc0c88d300af99ea325241126fbda92e4a1efac943fbec0f12de9d5b4a7bfc98715086072763289c44b26e7e7c92d6"},{"fileId":"92415142359643162","fileName":"测试文件10.exe","fileSize":30655423,"fileType":"exe","isFolder":false,"createTime":"2022-12-30 14:40:35","lastOpTime":"2023-03-30 18:00:40","url":"436c7fd527213cb63d26dde4be6d702b8220e0080713c08cbe1e9f4139522e66209a2014fac136399ad357c10714b7f598715086072763289c44b26e7e7c92d6"}
复制代码
如上数据,保存在本地的一个命名为test.txt的文本文件。
由于数据都在 同一行 且可能实际数据量更多,所以直接用 for 循环可能会存在变量不够用的情况。
故想请教各位老师是否可以将这一行数据用什么命令使其在特定位置换行,然后再用 for 将 fileId、fileName、fileSize 后的这三个数据提取出来。
作者: Batcher    时间: 2023-4-14 14:27

回复 1# lonron


在你的文本开头加一个[
在你的文本结尾加一个]
文本内容另存为UTF-8编码

下载jq64.exe把它和你的test.txt放在同一个目录
http://bcn.bathome.net/s/tool/index.html?key=jq64

test.bat保存为UTF-8编码然后双击执行
  1. @echo off
  2. chcp 65001
  3. jq64.exe < "test.txt" | findstr /c:"fileId" /c:"fileName" /c:"fileSize" > "test_new.txt"
复制代码

作者: lonron    时间: 2023-4-14 14:34

本帖最后由 lonron 于 2023-4-14 16:06 编辑

回复 2# Batcher


    得出的结果是这样的,
  1.     "fileId": "82474140744160028",
  2.     "fileName": "测试文件1.exe",
  3.     "fileSize": 1575742,
  4.     "fileId": "82486141026441368",
  5.     "fileName": "测试文件2.exe",
  6.     "fileSize": 2021129740,
  7.     "fileId": "52393157241817145",
  8.     "fileName": "测试文件3.exe",
  9.     "fileSize": 3270166619,
复制代码
能否把这三个字段输出在同一行呢?
像这样:
  1.     "fileId": "82474140744160028","fileName": "测试文件1.exe","fileSize": 1575742,
  2.     "fileId": "82486141026441368","fileName": "测试文件2.exe","fileSize": 2021129740,
  3.     "fileId": "52393157241817145","fileName": "测试文件3.exe","fileSize": 3270166619,
复制代码

作者: lonron    时间: 2023-4-14 16:07

回复 2# Batcher


    老师帮帮忙!
作者: 77七    时间: 2023-4-14 16:17

  1. rem http://www.bathome.net/redirect.php?goto=findpost&ptid=36013&pid=169719
  2. @sed -i "/},/ s//\n/g" filename.txt
复制代码

使用sed直接把 }, 替换为换行符,我改了下代码,不知道有没有问题,是在原文件直接操作的,注意备份
作者: lonron    时间: 2023-4-14 16:21

回复 5# 77七


    http://bcn.bathome.net/s/tool/index.html?key=sed
是这里面哪个工具?
作者: 77七    时间: 2023-4-14 16:27

回复 6# lonron


   http://bcn.bathome.net/tool/4.8/sed.exe sed  流文本处理工具
作者: Batcher    时间: 2023-4-14 17:00

回复 3# lonron
  1. @echo off
  2. chcp 65001
  3. jq64.exe < "test.txt" | findstr /c:"fileId" /c:"fileName" /c:"fileSize" > "test_new1.txt"
  4. (for /f "tokens=1* delims=:" %%i in ('type "test_new1.txt"') do (
  5.     set /p ="%%i:%%j "<nul
  6.     if "%%i" equ "    "fileSize"" (
  7.         echo,
  8.     )
  9. ))>"test_new2.txt"
复制代码

作者: lonron    时间: 2023-4-24 10:41

回复 5# 77七


    老师您好,我在使用sed命令之后有一个疑问,需要您帮忙解答下:是否可以在一条命令中定义两处或以上不同符号的换行操作?如果可以应该怎么写?(我不会正则表达式)
作者: 77七    时间: 2023-4-24 11:22

回复 9# lonron


   

我也没学过sed,试了一下
  1. @sed -i "/},/ s//\n/g;/:/ s//\n/g" 1.txt
复制代码


将 }, 和 : 替换为换行符
作者: aloha20200628    时间: 2023-4-24 16:45

给一个纯P解法》test.txt存为ansi(简中)格式。
  1. @echo off
  2. for /f "delims=" %%a in (test.txt) do (set "all=%%a")
  3. set alllines=%all:},=}^&echo,%
  4. (echo,%alllines%)>test.new
  5. for /f "tokens=1-3 delims={," %%1 in (test.new) do (echo,%%1,%%2,%%3)
  6. pause&exit/b
复制代码

作者: jyswjjgdwtdtj    时间: 2023-4-24 17:05

这是json 为什么不直接用jscript脚本呢?
作者: lonron    时间: 2023-4-24 23:07

本帖最后由 lonron 于 2023-5-8 10:36 编辑

回复 11# aloha20200628


    如果可以不借助第三方命令确实很好,不过for好像单行8000多个左右的字符就无效了,实际的数据比我列出的多多了。有没有办法绕过for的单行数据字符数量限制?
作者: terse    时间: 2023-4-25 01:26

本帖最后由 terse 于 2023-4-25 01:44 编辑
  1. @if(0)==(0) echo off
  2. cscript -NoLogo -E:JScript %0 <a.txt
  3. pause & exit
  4. 文件有中文情况,存为ANSI格式
  5. @end
  6. var text =WSH.StdIn.ReadAll();
  7. var arr=text.match(/\{.*?\}/g)
  8. for (i = 0, len=arr.length; i<len; i++) {
  9.       var obj = new Function("return" + unescape(arr[i]))();
  10.       WSH.Echo(obj.fileId,obj.fileName,obj.fileSize);
  11. }
复制代码
  1. powershell "((sls -Path .\aa.txt -Pattern '\{.*?\}' -AllMatches ).Matches.Value|ConvertFrom-Json|group fileId,fileName,fileSize).name"
复制代码
另一种格式的话
  1. @if(0)==(0) echo off
  2. cscript -NoLogo -E:JScript %0 <a.txt
  3. pause & exit
  4. 文件有中文情况,存为ANSI格式
  5. @end
  6. var text =WSH.StdIn.ReadAll();
  7. var obj = new Function("return" + unescape(text))();
  8. var arr = obj.data;
  9. for (i = 0, len=arr.length; i<len; i++) {
  10.       WSH.Echo(arr[i].fileId,arr[i].fileName,arr[i].fileSize);
  11. }
复制代码

作者: lonron    时间: 2023-4-25 10:13

回复 14# terse


    感谢老师帮助,请问powershell的这个方式如果在 https://189.ly93.cc/qieiaeUNRrMj?accessCode=? 上面这种格式的数据头要如何修改?以及数据段落之间能否换成其他分隔符,比如 “|”。
另外因为数据源我是在网页上抓取的,本身自动保存的是UTF-8格式,如果在完全不考虑手动另存为的情况,如何将JS的这两种方式在数据源带中文的时候可以不乱码?
作者: aloha20200628    时间: 2023-4-25 10:53

楼主如是,就请cmd同门js@cscript出场相助吧,其胃口要比8K大多了,所要的三项数据正好联排,用js可直接定点剥离...
  1. @set @v=1 /*
  2. @echo off
  3. ::输入文件须为ansi(简中编码)
  4. set "jsonF=test.txt"
  5. (cscript.exe -e:jscript "%~f0" "%jsonF%")
  6. pause&exit/b
  7. */
  8. var v=WSH.arguments;
  9. if (v.length==0) WSH.quit();
  10. var fso=new ActiveXObject('scripting.filesystemobject');
  11. var fr=fso.opentextfile(v(0)), all=fr.readall(); fr.close();
  12. var line,nb,ne,line;
  13. for (nb=all.indexOf('\"fileId\":');
  14. nb>0;
  15. nb=all.indexOf('\"fileId\":',ne)) {
  16. ne=all.indexOf('\"fileType\":',nb);
  17. if (ne==-1) break; //遭遇残缺数据则退出
  18. line=all.slice(nb,ne-1);
  19. WSH.echo(line);
  20. }
  21. WSH.quit();
复制代码


关于utf-8文件转为简中(gb2312)编码可以试试如下的PS代码》将指定目录中的全部utf-8文件转为gb213...

  1. @echo off
  2. set "u8D=" &set/p "u8D=拖入一个仅含UTF8编码文件的目录: "
  3. if not defined u8D exit
  4. cd /d %u8D% 2>nul
  5. echo,转换开始...
  6. powershell -nop -c "$dir=dir *.*;foreach($_ in $dir){$txtLines=[System.IO.File]::ReadLines($_.FullName,[text.encoding]::UTF8);[System.IO.File]::WriteAllLines($_.FullName+'.ansi',$txtLines,[text.encoding]::Default)}"
  7. echo,请到 %u8D% 查看转换结果
  8. pause&exit/b
复制代码

作者: lonron    时间: 2023-4-25 11:11

本帖最后由 lonron 于 2023-4-25 11:19 编辑

回复 16# aloha20200628


    感谢,第二个转换的时候会把我其他同目录文件也一起转换了,不知道为啥。

另外,能否麻烦老师帮忙看下14楼这位老师里面提到的PS的方法,
  1. powershell "((sls '\{.*?\}' 'test.txt' -allmatches).matches.value | convertfrom-json | group 'fileId','fileName').name"
复制代码
我测试过如果用的是我帖子里的例子是可以成功转换的,但是如果用 https://189.ly93.cc/qieiaeUNRrMj?accessCode=? 里的这种就报错了。还有就是它得出的结果用的分隔符是逗号的,实际文件名有可能也存在逗号的情况,所以最好能用别的分隔符来代替,比如“|”。因为“|”在windows的文件名规则中并不被允许保存。

在cmd满足不了的前提下,我个人还是倾向PS一点,主要是代码看起来也简洁点,对我一个小白来说读起来还算能理解。
而且就上面这个PS代码来说貌似也不存在转换编码的问题,我试过当源数据是UTF-8的时候,如果保存的PS文本也是UTF-8,得出的结果不会报错。
因为实际情况是我在爬取网页数据的时候我希望我不用手动另存为其他编码就可以正确截取我要的数据列,而且我的脚本最好保存的也是UTF-8的,所以想尽可能保持数据原样,因为要考虑转换的情况下那代码可能就太长了。
作者: terse    时间: 2023-4-25 11:25

  1. ((gc .\aa.txt -Encoding UTF8|ConvertFrom-Json).data|group fileId,fileName,fileSize).name
复制代码
回复 15# lonron
作者: terse    时间: 2023-4-25 11:36

试试这样呢
  1. (gc .\a.txt -Encoding UTF8|ConvertFrom-Json).data.ForEach({"{0}|{1}|{2}" -f $_.fileId,$_.fileName,$_.fileSize  })
复制代码
回复 17# lonron
作者: lonron    时间: 2023-4-25 11:41

本帖最后由 lonron 于 2023-4-25 11:47 编辑

回复 18# terse


   18L的代码这个可以成功读取网页的那种格式了,但是分隔符还是逗号。
19L的代码可以了。

不过这两个代码都加了-Encoding UTF8这个参数是为什么?源数据也是UTF8啊
作者: terse    时间: 2023-4-25 12:03

回复 20# lonron
源数据是UTF8,有带BOM的,也有不带的,不带的话有时会出错
作者: lonron    时间: 2023-4-25 12:27

回复 21# terse


    好的,真的非常感谢,今天评分用完了,明天我追加给您,谢谢了
作者: lonron    时间: 2023-4-25 15:57

回复 19# terse


    老师,如果我不用gc的方式读取下载下来的本地json文件,而是直接从网页中获取,应该怎么写,我套用iwr时,中文部分乱码了,该如何修改?
  1. powershell "(iwr 'https://189.ly93.cc/qieiaeUNRrMj?accessCode=?&accessToken=B29F77379D3A9977A6C840F8CEF74142' | convertfrom-json).data | % {'{0}|{1}' -f $_.fileId,$_.fileName}"
复制代码

作者: terse    时间: 2023-4-25 16:49

本帖最后由 terse 于 2023-4-25 17:37 编辑

回复 23# lonron
i除了nvoke-webreques 有几种方法都可以实现 IWR不行的话 这样可以试
  1. powershell "$url='https://189.ly93.cc/qieiaeUNRrMj?accessCode=?&accessToken=B29F77379D3A9977A6C840F8CEF74142';$web=New-Object System.Net.WebClient;$web.Encoding=[System.Text.Encoding]::UTF8;($web.DownloadString($url)| convertfrom-json).data| %% {'{0}|{1}' -f $_.fileId,$_.fileName}"
复制代码
这样也行
  1. $url='https://189.ly93.cc/qieiaeUNRrMj?accessCode=?&accessToken=B29F77379D3A9977A6C840F8CEF74142';((iwr $url).Content| convertfrom-json).data| % {'{0}|{1}' -f $_.fileId,$_.fileName}
复制代码

作者: lonron    时间: 2023-4-25 18:16

本帖最后由 lonron 于 2023-4-25 18:17 编辑

回复 24# terse


    太强了!最后请教老师您两个问题:
    为什么加了.content属性就不会变成乱码了?
    iwr请求指定网址的时候,在控制台显示出来时,数据是保存在内存中的还是有实际路径的?
作者: terse    时间: 2023-4-25 19:06

回复 25# lonron
大概是convertfrom-json的因素

要么就不用convertfrom-json 直接 irm
  1. $url = 'https://189.ly93.cc/qieiaeUNRrMj?accessCode=?&accessToken=B29F77379D3A9977A6C840F8CEF74142'; (irm $url).data| % {'{0}|{1}' -f $_.fileId,$_.fileName}
复制代码

作者: lonron    时间: 2023-5-7 02:00

本帖最后由 lonron 于 2023-5-8 10:49 编辑

回复 26# terse
  1. @echo off
  2. for /f "delims=" %%a in ('curl "https://gitee.com/dm/releases/tag/t"') do (
  3.     for /f "delims=" %%b in ('powershell "(echo '%%a' | ConvertFrom-Json).release.release.title"') do (
  4.         echo %%b
  5.     )
  6. )
  7. pause
复制代码
老师,还请您帮忙看下,还是类似的问题。
不知道为什么只有用curl命令时才会获取到json数据,如果用ps的irm和iwr获取的都只是html数据。
然后有了上面这段代码,结果是报错了。但当我把%%a重定向到文本之后,再用gc方式获取,然后结果是正确的。
或者直接把(echo '%%a' | ConvertFrom-Json).release.release.title 这部分,手动带入%%a的值,然后在ps控制台运行,结果也是正确的。

上面这段代码要怎么修改才能在不需要重定向文本的前提下,直接在cmd脚本里运行就能得到正确结果?
作者: terse    时间: 2023-5-7 13:06

回复 27# lonron

html数据不能当作Json数据处理把,’https://gitee.com/lonron/dm/releases/tag/t ‘地址里 并没有看到你在27楼描述的 release  title 这部分 你是怎么得到的
作者: lonron    时间: 2023-5-7 13:15

回复 28# terse


    就是第一个for里面的 curl得到的,这个不是ps的iwr别名,就是win10自带的curl命令,您看下返回值。
作者: lonron    时间: 2023-5-7 13:21

本帖最后由 lonron 于 2023-5-8 10:50 编辑

回复 28# terse
  1. @echo off
  2. for /f "delims=" %%a in ('curl "https://gitee.com/dm/releases/tag/t"') do (
  3.     >"test.txt" echo %%a
  4.     for /f "delims=" %%b in ('powershell "(gc 'test.txt' | ConvertFrom-Json).release.release.title"') do (
  5.         echo %%b
  6.     )
  7. )
  8. pause
复制代码
如果改成这样,返回值是我想要的,但是这需要输出到本地文本之后gc读取才行,我希望直接用curl的返回值直接处理,而不需要输出一个实体文本。
作者: terse    时间: 2023-5-7 13:55

回复 30# lonron
搞混了 之前我以为你那个CURL是PS的,原来不是
这样试呢
  1. ((iwr $url -Headers @{"Accept"="application/json"}).Content|  ConvertFrom-Json).release.release.title
复制代码

作者: lonron    时间: 2023-5-7 14:07

回复 31# terse


    这个可以了,不过iwr会跳出蓝色的下载条,但是irm就不会有,如果是加 请求头,是不是irm也可以套用呢?
作者: buyiyang    时间: 2023-5-7 15:06

  1. (curl.exe -s --ssl-no-revoke 'https://gitee.com/lonron/dm/releases/tag/t' | ConvertFrom-Json).release.release.title
  2. or
  3. (irm 'https://gitee.com/lonron/dm/releases/tag/t' -Headers @{'Accept'='application/json'}).release.release.title
复制代码
回复 27# lonron
作者: terse    时间: 2023-5-7 15:23

irm 直接装对象 不需要另行处理   irm应该方便一点 前提是对象格式要正确




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2