 
- 帖子
- 423
- 积分
- 817
- 技术
- 2
- 捐助
- 0
- 注册时间
- 2008-11-24
|
【完结】50元求批处理——汉字信息提取
本帖最后由 lxh623 于 2020-11-20 07:42 编辑
文本a是如下:
CB30597 [灬亠口├〡兀木]
方括号里面有些解析部件。有些可能有unicode码,有些没有。
文本IDS,如下:
U+24410 𤐐 ⿰火詹
文本dump,如下:
u6b0b | 99:0:0:2:0:160:200:u6728-01$99:0:0:59:0:197:200:dkw-23747@1
我的想法是:
把方括号里面的解析部件,从文本IDS提取unicode码,在文本dump搜索,同时含有所有的话,(没有unicode码的,忽略)把文本a那一行写入文本b,后面加上制表符+文本dump中制表符前面的内容。多个可能,就写几行。
文本IDS中的unicode码,我也可以处理到与文本dump一样。
所有文本编码是UTF8。
谢谢! |
|