[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[完成]40元从xml提取数据

本帖最后由 lxh623 于 2020-6-23 10:17 编辑

文件夹下有多级子文件夹。总共有近两万个xml文件。附件是例子。来源于大藏经,CBReader 。
比如:
  1. <char xml:id="CB04865">
  2. <charName>CBETA CHARACTER CB04865</charName>
  3. <charProp>
  4. <localName>composition</localName>
  5. <value>[目*丐]</value>
  6. </charProp>
  7. <charProp>
  8. <localName>normalized form</localName>
  9. <value>眄</value>
  10. </charProp>
  11. <mapping type="normal_unicode">U+7704</mapping>
  12. <mapping cb:dec="987905" type="PUA">U+F1301</mapping>
  13. </char>
复制代码
也没有全部研究,大约有五个字段。CBETA CHARACTER、composition、normalized form、unicode、PUA。
想把字段提取到excel。主要的问题是,后面三个字段不是每一个字都有。(提取不到,可以写为0 。)
如果做成制表符分隔的文本,最好是unicode编码。因为汉字的原因。
谢谢!


链接:https://pan.baidu.com/s/1msOq72fmUsI7vrmrU2bTKw
提取码:qfyg
复制这段内容后打开百度网盘手机App,操作更方便哦

本帖最后由 lxh623 于 2020-7-7 15:06 编辑

回复 2# zaqmlp
请查收!
如果想得到下面的字段,怎么操作。谢谢!
<mapping type="PUA" cb:dec="983109">U+F0045</mapping>

TOP

返回列表