用正则表达式匹配汉字,完整总结

您所在的位置:网站首页 表达可有可无的两个字 用正则表达式匹配汉字,完整总结

用正则表达式匹配汉字,完整总结

2024-07-10 09:34| 来源: 网络整理| 查看: 265

提到用正则表达式匹配汉字,很容易搜到这个[\u4e00-\u9fa5],但是它不算全面,不包含一些生僻汉字。

本文对此问题做一个梳理。

 

以下是比较全面的汉字Unicode分布,参考Unicode 10.0标准(2017年6月发布):

区块 范围 实际汉字个数/备注 正则式 CJK统一汉字

4E00-62FF, 6300-77FF,

7800-8CFF, 8D00-9FFF.

20,971常见

[\u4E00-\u9FFF] 或

[一-鿆]

CJK统一汉字扩展A区 3400-4DBF. 6,582罕见 [\u3400-\u4DBF] CJK统一汉字扩展B区

20000-215FF, 21600-230FF,

23100-245FF, 24600-260FF,

26100-275FF, 27600-290FF,

29100-2A6DF.

42,711罕见,历史 [\U00020000-\U0002A6DF] CJK统一汉字扩展C区 2A700-2B73F. 4,149罕见,历史 [\U0002A700-\U0002B73F] CJK统一汉字扩展D区 2B740–2B81F. 222不常见,仍在使用 [\U0002B740-\U0002B81F] CJK统一汉字扩展E区 2B820–2CEAF. 5,762罕见,历史 [\U0002B820-\U0002CEAF] CJK统一汉字扩展F区 2CEB0-2EBEF. 7,473罕见,历史 [\U0002CEB0-\U0002EBEF] CJK兼容汉字 F900–FAFF. 472重复、可统一变体、公司定义  [\uF900-\uFAFF] CJK兼容汉字增补 2F800-2FA1F. 542可统一变体 [\U0002F800-\U0002FA1F]

 

★ 如果想表示最普遍的汉字,用:

[\u4E00-\u9FFF]  或   [一-鿆]

共有20950个汉字,包括了常用简体字和繁体字,镕等字。

基本就是GBK的所有(21003个)汉字。也包括了BIG5的所有(13053个)繁体汉字。

一般情况下这个就够用了。

说明:

仅仅未包括出现在GBK里的CJK兼容汉字的21个汉字:郎凉秊裏隣兀嗀﨎﨏﨑﨓﨔礼﨟蘒﨡﨣﨤﨧﨨﨩

CJK兼容汉字用于转码处理,日常中是用不到的,所以不包括也没什么问题。

注意此凉非彼凉,兀也不是常用的那个,虽然用眼睛看是一样的,参见 http://www.zhihu.com/question/20697984

 

★ 如果想表示BMP之内的汉字,也就是Unicode值



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3