分享

PHP输出GBK 1.0所有汉字

 共同成长888 2015-04-19

PHP输出GBK 1.0所有汉字 

1995年GBK 1.0字库

为了配合 UNICODE 的实施,全国信息技术标准化技术委员会于1995年12月1日制订了《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification。国家技术监督局标准化司、电子工业部科技与质量监督司于1995年12月15日联合以技监标函[1995]229号文件的形式,将它确定为技术规范指导性文件,并予以发布和实施。这一版的GBK规范为1.0版。GB即“国标”,K是“扩展”的汉语拼音第一个字母。GBK向下与 GB2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的标准。

GBK共收录了21886个汉字和图形符号,包括ISO 10646.1中的全部CJK汉字和符号,并有所补充。具体包括:

1. GB2312中的全部汉字、非汉字符号。

2. 与 ISO-10646 相应的国家标准GB13000.1中的其他CJK汉字。以上合计20902个国标化汉字。

3.《简化字总表》中未收入GB13000.1的52个汉字。

4.《康熙字典》及《辞海》中未收入GB13000.1的28个部首及重要构件。

5. 13个汉字结构符。

6. BIG-5中未被GB2312收入、但存在于GB13000.1中的139个图形符号。

7. GB12345增补的6个拼音符号。

8. 汉字“○”。

9. GB12345增补的19个竖排标点符号(GB12345较GB2312增补竖排标点符号29个,其中10个未被GB13000.1收入,故GBK亦不收)。

10. 从GB13000.1的CJK兼容区挑选出的21个汉字。

11. GB13000.1收入的31个IBMOS/2专用符号。

GBK亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除xx7F一条线。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

GBK 编码区分三部分,其中的汉字区包括:

△B0A1-F7FE, 收录 GB2312 汉字6763个,按原序排列;

△8140-A0FE,收录 GB13000.1中的CJK 汉字6080个;

△AA40-FEA0,收录 CJK 汉字和增补的汉字8160个。CJK汉字在前,按UCS代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。

微软公司自 Windows 95 简体中文版开始支持 GBK 代码,标准叫法是 Windows Codepage 936,也叫做 GBK(国标扩展),它是 8-bit 的变长编码。

GBK 从来没有成为正式的国家标准,只不过因为 Windows 的普及,它已经成为事实上的标准了。

GBK所收字数是GB2312的3倍,收集的汉字包含大部分的冷僻字、繁体字等,从而较好地解决了中文冷僻字问题,受到业界的广泛关注。

GBK的优点是与现行的GB2312内码体系兼容,保持系统兼容性,容易为用户所接受,而且是等长双字节代码,码长较短,通信、处理速度都比较快,占存储空间比较小,因此是GB2312-80的理想换代标准。

本文输出的汉字共20902字

  1. <?php
  2. $begin = hexdec( "4e00" );
  3. $end = hexdec( "9fa5" );
  4. $a = ' ["' ;
  5. for ($i = $begin; $i <= $end; $i ++) {
  6. $a .= '\u' . dechex ($i);
  7. }
  8. $a .= '"] ' ;
  9. $b = json_decode($a);
  10. print_r($b[0]);
  11. ?>

原文:http://blog./post/93.html

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多