用正则表达式匹配汉字，完整总结

弘护正法 2020-02-11

展开全文

提到用正则表达式匹配汉字，很容易搜到这个[\u4e00-\u9fa5]，但是它不算全面，不包含一些生僻汉字。

本文对此问题做一个梳理。

以下是比较全面的汉字Unicode分布，参考Unicode 10.0标准（2017年6月发布）：

区块	范围	实际汉字个数/ 备注	正则式
CJK统一汉字	4E00-62FF, 6300-77FF, 7800-8CFF, 8D00-9FFF.	20,971 常见	[\u4E00-\u9FFF] 或 [一-鿆]
CJK统一汉字扩展A区	3400-4DBF.	6,582 罕见	[\u3400-\u4DBF]
CJK统一汉字扩展B区	20000-215FF, 21600-230FF, 23100-245FF, 24600-260FF, 26100-275FF, 27600-290FF, 29100-2A6DF.	42,711 罕见，历史	[\U00020000-\U0002A6DF]
CJK统一汉字扩展C区	2A700-2B73F.	4,149 罕见，历史	[\U0002A700-\U0002B73F]
CJK统一汉字扩展D区	2B740–2B81F.	222 不常见，仍在使用	[\U0002B740-\U0002B81F]
CJK统一汉字扩展E区	2B820–2CEAF.	5,762 罕见，历史	[\U0002B820-\U0002CEAF]
CJK统一汉字扩展F区	2CEB0-2EBEF.	7,473 罕见，历史	[\U0002CEB0-\U0002EBEF]
CJK兼容汉字	F900–FAFF.	472 重复、可统一变体、公司定义	[\uF900-\uFAFF]
CJK兼容汉字增补	2F800-2FA1F.	542 可统一变体	[\U0002F800-\U0002FA1F]

★ 如果想表示最普遍的汉字，用：

[\u4E00-\u9FFF] 或 [一-鿆]

共有20950个汉字，包括了常用简体字和繁体字，镕等字。

基本就是GBK的所有（21003个）汉字。也包括了BIG5的所有（13053个）繁体汉字。

一般情况下这个就够用了。

说明：

仅仅未包括出现在GBK里的CJK兼容汉字的21个汉字：郎凉秊裏隣兀嗀﨎﨏﨑﨓﨔礼﨟蘒﨡﨣﨤﨧﨨﨩

CJK兼容汉字用于转码处理，日常中是用不到的，所以不包括也没什么问题。

注意此凉非彼凉，兀也不是常用的那个，虽然用眼睛看是一样的，参见 http://www.zhihu.com/question/20697984