[新手上路]批处理新手入门导读[视频教程]批处理基础视频教程[视频教程]VBS基础视频教程[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动[批处理精品]CMD命令50条不能说的秘密[在线下载]第三方命令行工具[在线帮助]VBScript / JScript 在线参考
返回列表 发帖

[问题求助] [已解决]gawk如何匹配一个汉字

本帖最后由 g495326 于 2022-11-18 13:40 编辑

[<汉字>],提前感谢了

考虑用UNICODE编码范围来做?如这篇文章:https://www.w3cschool.cn/regexp/nck51pqj.html

TOP

回复 2# BAT221110


    不行的

TOP

本帖最后由 hfxiang 于 2022-11-15 11:55 编辑

在cmd窗口测试如下指令,看能否满足你的需求
  1. echo;中文|gawk "/[\322\273-\375\233]/" >con
  2. echo;12.3|gawk "/[\322\273-\375\233]/" >con
复制代码
异类一点的用
  1. 纯中文,用:[一-龥]
  2. 带标点,用:[一-龥– —‘’“”…、。〈〉《》「」『』【】〔〕!(),.:;?]
复制代码
1

评分人数

TOP

回复 4# hfxiang


    解决了我的问题,多谢
但还是一点不理解,「一」的编码是0xD2BB,「龥」的编码是FD9B,它们之间的范围并没有包括「啊」的编码0xB0A1,为什么仍然能匹配到「啊」字。见下图

点击放大查看

TOP

回复  hfxiang


    解决了我的问题,多谢
但还是一点不理解,「一」的编码是0xD2BB,「龥」的编码 ...
g495326 发表于 2022-11-15 12:42



    可能GAWK用的是UTF8?会不会不一样

TOP

回复 6# BAT221110


    不是的

TOP

回复 5# g495326


   
7000汉字的排序可参见:
https://zhuanlan.zhihu.com/p/266732210?utm_id=0
1

评分人数

TOP

我明白了,输入编码是gbk,但内部还是使用unicode字符集来比较的。

TOP

返回列表