标题: [问题求助] [已解决]gawk如何匹配一个汉字 [打印本页]
作者: g495326 时间: 2022-11-15 08:52 标题: [已解决]gawk如何匹配一个汉字
本帖最后由 g495326 于 2022-11-18 13:40 编辑
[<汉字>],提前感谢了
作者: BAT221110 时间: 2022-11-15 09:17
考虑用UNICODE编码范围来做?如这篇文章:https://www.w3cschool.cn/regexp/nck51pqj.html
作者: g495326 时间: 2022-11-15 11:13
回复 2# BAT221110
不行的
作者: hfxiang 时间: 2022-11-15 11:51
本帖最后由 hfxiang 于 2022-11-15 11:55 编辑
在cmd窗口测试如下指令,看能否满足你的需求- echo;中文|gawk "/[\322\273-\375\233]/" >con
- echo;12.3|gawk "/[\322\273-\375\233]/" >con
复制代码
异类一点的用- 纯中文,用:[一-龥]
- 带标点,用:[一-龥– —‘’“”…、。〈〉《》「」『』【】〔〕!(),.:;?]
复制代码
作者: g495326 时间: 2022-11-15 12:42
回复 4# hfxiang
解决了我的问题,多谢
但还是一点不理解,「一」的编码是0xD2BB,「龥」的编码是FD9B,它们之间的范围并没有包括「啊」的编码0xB0A1,为什么仍然能匹配到「啊」字。见下图
点击放大查看
作者: BAT221110 时间: 2022-11-15 13:07
回复 hfxiang
解决了我的问题,多谢
但还是一点不理解,「一」的编码是0xD2BB,「龥」的编码 ...
g495326 发表于 2022-11-15 12:42
可能GAWK用的是UTF8?会不会不一样
作者: g495326 时间: 2022-11-15 13:31
回复 6# BAT221110
不是的
作者: hfxiang 时间: 2022-11-16 08:11
回复 5# g495326
7000汉字的排序可参见:
https://zhuanlan.zhihu.com/p/266732210?utm_id=0
作者: g495326 时间: 2022-11-16 09:10
我明白了,输入编码是gbk,但内部还是使用unicode字符集来比较的。
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |