用正则表达式匹配汉字,完整总结 |
您所在的位置:网站首页 › 表达可有可无的两个字 › 用正则表达式匹配汉字,完整总结 |
提到用正则表达式匹配汉字,很容易搜到这个[\u4e00-\u9fa5],但是它不算全面,不包含一些生僻汉字。 本文对此问题做一个梳理。
以下是比较全面的汉字Unicode分布,参考Unicode 10.0标准(2017年6月发布): 区块 范围 实际汉字个数/备注 正则式 CJK统一汉字4E00-62FF, 6300-77FF, 7800-8CFF, 8D00-9FFF. 20,971常见[\u4E00-\u9FFF] 或 [一-鿆] CJK统一汉字扩展A区 3400-4DBF. 6,582罕见 [\u3400-\u4DBF] CJK统一汉字扩展B区20000-215FF, 21600-230FF, 23100-245FF, 24600-260FF, 26100-275FF, 27600-290FF, 29100-2A6DF. 42,711罕见,历史 [\U00020000-\U0002A6DF] CJK统一汉字扩展C区 2A700-2B73F. 4,149罕见,历史 [\U0002A700-\U0002B73F] CJK统一汉字扩展D区 2B740–2B81F. 222不常见,仍在使用 [\U0002B740-\U0002B81F] CJK统一汉字扩展E区 2B820–2CEAF. 5,762罕见,历史 [\U0002B820-\U0002CEAF] CJK统一汉字扩展F区 2CEB0-2EBEF. 7,473罕见,历史 [\U0002CEB0-\U0002EBEF] CJK兼容汉字 F900–FAFF. 472重复、可统一变体、公司定义 [\uF900-\uFAFF] CJK兼容汉字增补 2F800-2FA1F. 542可统一变体 [\U0002F800-\U0002FA1F]
★ 如果想表示最普遍的汉字,用: [\u4E00-\u9FFF] 或 [一-鿆] 共有20950个汉字,包括了常用简体字和繁体字,镕等字。 基本就是GBK的所有(21003个)汉字。也包括了BIG5的所有(13053个)繁体汉字。 一般情况下这个就够用了。 说明: 仅仅未包括出现在GBK里的CJK兼容汉字的21个汉字:郎凉秊裏隣兀嗀﨎﨏﨑﨓﨔礼﨟蘒﨡﨣﨤﨧﨨﨩 CJK兼容汉字用于转码处理,日常中是用不到的,所以不包括也没什么问题。 注意此凉非彼凉,兀也不是常用的那个,虽然用眼睛看是一样的,参见 http://www.zhihu.com/question/20697984
★ 如果想表示BMP之内的汉字,也就是Unicode值 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |