本帖最后由 lxh623 于 2020-6-23 10:17 编辑
文件夹下有多级子文件夹。总共有近两万个xml文件。附件是例子。来源于大藏经,CBReader 。
比如:- <char xml:id="CB04865">
- <charName>CBETA CHARACTER CB04865</charName>
- <charProp>
- <localName>composition</localName>
- <value>[目*丐]</value>
- </charProp>
- <charProp>
- <localName>normalized form</localName>
- <value>眄</value>
- </charProp>
- <mapping type="normal_unicode">U+7704</mapping>
- <mapping cb:dec="987905" type="PUA">U+F1301</mapping>
- </char>
复制代码 也没有全部研究,大约有五个字段。CBETA CHARACTER、composition、normalized form、unicode、PUA。
想把字段提取到excel。主要的问题是,后面三个字段不是每一个字都有。(提取不到,可以写为0 。)
如果做成制表符分隔的文本,最好是unicode编码。因为汉字的原因。
谢谢!
链接:https://pan.baidu.com/s/1msOq72fmUsI7vrmrU2bTKw
提取码:qfyg
复制这段内容后打开百度网盘手机App,操作更方便哦 |