编码是对原始信息符号按一定的规则,所进行的变换。方便使用,是信息编码的主要目的。
设计编码时应满足,唯一性和实用性的原则。也就是说:编码不重复、编码要有规律、位数尽量少、编码可扩展。
在计算机中,信息是以“0”和“1”的编码形式存储和处理的。它的奇妙之处在于,一串由二进制数组成的数据,可以用来表示数值,也可以用来表示某个字符、标点符号或汉字,甚至还可以用来表示声音或图像。
用二进制数编码时,确定位数的方法:第一步,因为是用二进制数编码,所以,明确基数为2;第二步,明确关系式:2 的n次方 >=需编码对象的个数;第三步,求出n的值。注意:n的值应满足尽可能少的编码长度
控制字符34个,阿拉伯数字10个,大、小英文字母各26个,各种标点符号和运算符号32个,一共128个字符。采用ASCII编码。在这种编码方式中,所有数字字符小于大写字符小于小写字符。
汉字编码:由于汉字字符数量比较多,所以需要更多的二进制位数。
在1980年,我国就颁布了汉字编码字符集的国家标准,其中GB2312-80方案中,共收录了7445个字符,其中汉字6763个,规定用两个字节表示一个汉字。
同一个汉字,可采用不同的输入码,方便从键盘输入。输入计算机后,对应这个汉字的内码,内码只有一个。输出时,这个汉字的内码,可对应多个字形码。
无论是英文字符、还是汉字字符,都是需要编成二进制码后,才能存储在计算机中。英文字符在计算机内的编码,称为ASCII码,汉字在计算机内部的编码,称为内码或机内码。ASCII码,有7位二进制位,存储时,最高位补零,占一个字节,用十六进制显示时有2位。汉字因为数量比较多,内码,一般有16位二进制位,占两个字节,用十六进制显示时有4位。