1995年GBK 1.0字库
为了配合 UNICODE 的实施,全国信息技术标准化技术委员会于1995年12月1日制订了《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification。国家技术监督局标准化司、电子工业部科技与质量监督司于1995年12月15日联合以技监标函[1995]229号文件的形式,将它确定为技术规范指导性文件,并予以发布和实施。这一版的GBK规范为1.0版。GB即“国标”,K是“扩展”的汉语拼音第一个字母。GBK向下与 GB2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的标准。
GBK共收录了21886个汉字和图形符号,包括ISO 10646.1中的全部CJK汉字和符号,并有所补充。具体包括:
1. GB2312中的全部汉字、非汉字符号。
2. 与 ISO-10646 相应的国家标准GB13000.1中的其他CJK汉字。以上合计20902个国标化汉字。
3.《简化字总表》中未收入GB13000.1的52个汉字。
4.《康熙字典》及《辞海》中未收入GB13000.1的28个部首及重要构件。
5. 13个汉字结构符。
6. BIG-5中未被GB2312收入、但存在于GB13000.1中的139个图形符号。
7. GB12345增补的6个拼音符号。
8. 汉字“○”。
9. GB12345增补的19个竖排标点符号(GB12345较GB2312增补竖排标点符号29个,其中10个未被GB13000.1收入,故GBK亦不收)。
10. 从GB13000.1的CJK兼容区挑选出的21个汉字。
11. GB13000.1收入的31个IBMOS/2专用符号。
GBK亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除xx7F一条线。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。
GBK 编码区分三部分,其中的汉字区包括:
△B0A1-F7FE, 收录 GB2312 汉字6763个,按原序排列;
△8140-A0FE,收录 GB13000.1中的CJK 汉字6080个;
△AA40-FEA0,收录 CJK 汉字和增补的汉字8160个。CJK汉字在前,按UCS代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
微软公司自 Windows 95 简体中文版开始支持 GBK 代码,标准叫法是 Windows Codepage 936,也叫做 GBK(国标扩展),它是 8-bit 的变长编码。
GBK 从来没有成为正式的国家标准,只不过因为 Windows 的普及,它已经成为事实上的标准了。
GBK所收字数是GB2312的3倍,收集的汉字包含大部分的冷僻字、繁体字等,从而较好地解决了中文冷僻字问题,受到业界的广泛关注。
GBK的优点是与现行的GB2312内码体系兼容,保持系统兼容性,容易为用户所接受,而且是等长双字节代码,码长较短,通信、处理速度都比较快,占存储空间比较小,因此是GB2312-80的理想换代标准。
本文输出的汉字共20902字
原文:http://blog./post/93.html