[完成]40元从xml提取数据

本帖最后由 lxh623 于 2020-6-23 10:17 编辑

文件夹下有多级子文件夹。总共有近两万个xml文件。附件是例子。来源于大藏经，CBReader 。
比如：

<char xml:id="CB04865">
	<charName>CBETA CHARACTER CB04865</charName>
	<charProp>
		<localName>composition</localName>
		<value>[目*丐]</value>
	</charProp>
	<charProp>
		<localName>normalized form</localName>
		<value>眄</value>
	</charProp>
	<mapping type="normal_unicode">U+7704</mapping>
	<mapping cb:dec="987905" type="PUA">U+F1301</mapping>
</char>
复制代码

也没有全部研究，大约有五个字段。CBETA CHARACTER、composition、normalized form、unicode、PUA。
想把字段提取到excel。主要的问题是，后面三个字段不是每一个字都有。（提取不到，可以写为0 。）
如果做成制表符分隔的文本，最好是unicode编码。因为汉字的原因。
谢谢！

链接：https://pan.baidu.com/s/1msOq72fmUsI7vrmrU2bTKw
提取码：qfyg
复制这段内容后打开百度网盘手机App，操作更方便哦

lxh623

中尉

Rank: 5 Rank: 5

帖子: 378
积分: 761
技术: 2
捐助: 0
注册时间: 2008-11-24

2楼

发表于 2020-6-22 16:11 | 显示全部帖子

本帖最后由 lxh623 于 2020-7-7 15:06 编辑

回复 2# zaqmlp
请查收！
如果想得到下面的字段，怎么操作。谢谢！
<mapping type="PUA" cb:dec="983109">U+F0045</mapping>

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[完成]40元从xml提取数据

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]