Java中一个字符到底多少个字节

gaoshenmu 2016-09-22

展开全文

前言：

如果你一看这个标题的第一反应是“java使用unicode编码，地球人都知道是2个字节呀”，如果你的认识也是这样的，看完本文一定会有所收获，如果你的回答是在内存中有些字符使用2个字节表示，有些使用4个字节表示，那么你的认识完全碾压本博文的内容，可以笑笑的离去。

注：由于我当前的wordpress使用的mysql 不支持unicode扩展字符集，所以只能用0×20001 来代替具体的字符。大家在运行代码的时候content:|0×20001| 输出的是具体的字符。

在java.lang.Character类的javadoc中，对这个问题有完美答案，大致为：

一个字符的Unicode编码的专业术语叫code point，如果一个字符的编码属于U+0000 到 U+FFFF范围，那么可以使用2个字节表示，这个范围不能表示全天下所有的字符，比如“0×20001”。unicode在这个的基础上制定了一个扩展集，对于的范围为U+10000到U+10FFFF，这个范围的字符有个名字叫做“supplementary characters”，它们将占用四个字节。所以在java中并不是一个char 对应一个字符，对于扩展集中的字符，而是一个对应两个字符。不信？请看下面的示例：

public static void main(String[] args) throws Exception {

char[] arr = Character.toChars(0x20001);

System.out.println('char array length:' + arr.length);

System.out.println('content:|' + new String(arr) + '|');

System.out.println('String length:' + new String(arr).length());

}

输出为：

char array length:2

content:|0×20001|

String length:2

看到了吧，确实如此，这也解释了为什么Character类的很多函数都有参数为int的版本，因为有些字符是不能用一个char表示的。

下面我们再看看String.getBytes()方法

因为很多童鞋都认为String.getBytes().length返回的值是该字符在内存中对应的字节数的证据，其实不然。String.getBytes()是使用系统默认字符集处理后的结果，这个可以查看相应源码确认。在启动程序时我们可以通过更改file.encoding属性（“java -Dfile.encoding=utf-8 待执行的类”），在Eclipse中可以通过Run configurations->Common->Encoding来更改

，如图：