在计算机中,对非数值的文字和其他符号进行处理时,要对文字和符号进行数字化,即用二进制编码来表示文字和符号。其中西文字符最常用到的编码方案有ASCII编码和EBCDIC编码。对于汉字,我国也制定的相应的编码方案。 1、ASCII编码 微机和小型计算机中普遍采用ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)表示字符数据,该编码被ISO(国际化标准组织)采纳,作为国际上通用的信息交换代码。 表1 ASCII码表 ASCII码是7位编码,为了便于处理,我们在ASCII码的最高位前增加1位0,凑成8位的一个字节,所以,一个字节可存储一个ASCII码,也就是说一个字节可以存储一个字符。ASCII码是使用最广的字符编码,数据使用ASCII码的文件称为ASCII文件。 2、 ANSI编码和其他扩展的ASCII码 ANSI(美国国家标准协会)编码是一种扩展的ASCII码,使用8个比特来表示每个符号。8个比特能表示出256个信息单元,因此它可以对256个字符进行编码。ANSI码开始的128个字符的编码和ASCII码定义的一样,只是在最左边加了一个0。例如:在 ASCII编码中,字符“a”用1100001表示,而在ANSI编码中,则用01100001表示。除了ASCII码表示的128个字符外,ANSI码还可以表示另外的128个符号,如版权符号、英镑符号、希腊字符等。 3、EBCDIC编码尽管ASCII码是计算机世界的主要标准,但在许多IBM大型机系统上却没有采用。在IBM System/360计算机中,IBM研制了自己的8位字符编码——EBCDIC码(Extended Binary Coded Decimal Interchange Code,扩展的二-十进制交换码)。该编码是对早期的BCDIC 6位编码的扩展,其中一个字符的EBCDIC码占用一个字节,用8位二进制码表示信息,一共可以表示出256 种字符。 4、Unicode编码 在假定会有一个特定的字符编码系统能适用于世界上所有语言的前提下,1988年,几个主要的计算机公司一起开始研究一种替换ASCII码的编码,称为Unicode编码。鉴于ASCII码是7位编码,Unicode采用16位编码,每一个字符需要2个字节。这意味着Unicode的字符编码范围从0000h~FFFFh,可以表示65536个不同字符。 3.4.6 国家标准汉字编码(GB2312-80) 国家标准汉字编码简称国标码。该编码集的全称是“信息交换用汉字编码字符—基本集”,国家标准号是“GB2312-80”。该编码的主要用途是作为汉字信息交换码使用。 5、 其他汉字编码除了我们前面谈到的国标码之外,还有另外的一些汉字编码方案。例如,在我国的台湾地区,就使用Big5汉字编码方案。这种编码就不同于我们的国标码,因此在双方的交流中就会涉及到汉字内码的转换,特别是Internet的发展使人们更加关注这个问题。现在虽然已经推出了许多支持多内码的汉字操作系统平台,但是全球汉字信息编码的标准化已成为社会发展的必然趋势。 |
|
来自: 呐喊oqzde1fbyd > 《计算机》