Android中文乱码彻底解决
以下是我研究的成果,希望对您有帮助:
sb = new StringBuffer(); HttpEntity entity = response.getEntity(); InputStream is = entity.getContent(); BufferedReader br = new BufferedReader( new InputStreamReader(is,"GB2312")); String data = ""; while ((data = br.readLine()) != null) { sb.append(data); } String result = sb.toString();
//下面的是多余的代码,平台会按照默认编码读数据,谢谢melode11和eleda指点 result = new String(result.getBytes(),"UTF-8"); 我解释一下,
BufferedReader br = new BufferedReader( new InputStreamReader(is,"GB2312"));
|
|
评论
如果源真的是GB2312,那么InputStreamReader读入的已经是正确的值了。
如果想要把result按utf-8编码存到某文件, 那么 result.getBytes("utf-8")得到字节数组,再写入 outputStream才是对的。
厄,如果对字符编码没概念的话,解释起来很麻烦。
result.getBytes() 是 new String(byte[]) 的逆过程。
前面那个是 String->byte[] ,后面那个是 byte[] -> String.
在java运行时的时候,String与String是没有区别的都是以2字节的unicode的形式存在内存中,所谓编码,是针对把String转换成 byte[]而言的。比如我可以把 "abc" 通过 utf-8转换成了一串数据 A ,也可以通过gb2312转换成另一串数据 B,这个过程就是 String.getBytes(),比如 "abc".getBytes("utf-8")得到A , "abc".getBytes("gb2312")得到B。如果是"abc".getBytes(),就不知道用的什么编码了,这和平台相关。
那如何从A串或者 B串重新得到String呢,那就是 new String(A,"utf-8") 或者 new String(B,"gb2312")。因为A是从utf-8转换得到的,所以用utf-8转回String ,如果new String(A,"gb2312"), 那么其中的中文就是乱码。
当然gbk和utf-8的有小部分编码集合是一样的,所以英文字符,一般不管怎么转都可以歪打正着。
另外,因为网络传输肯定是用byte[]的,不可能直接把String对象给传过来,所以server想把某个字符串传给client之前,需要将他转成byte[] , 这中间就用了server指定的一种编码,client在收到这个 byte[]之后,就必须要采用和server相同的编码,把byte[]重新转换为String。这就是InputStreamReader需要指定一个编码的原因。
InputStreamReader作用就是在通过inputStream读到byte[]的同时,将byte[]用指定的编码,转换为 char[],也就是实际上的String.
说了一大堆,不知道这表达的你能不能明白
我明白您的意思了
这句话确实是多余的,按照您的意思client已经按照默认编码进行转换了。再次感谢melode11以后请多多关照。
如果源真的是GB2312,那么InputStreamReader读入的已经是正确的值了。
如果想要把result按utf-8编码存到某文件, 那么 result.getBytes("utf-8")得到字节数组,再写入 outputStream才是对的。
厄,如果对字符编码没概念的话,解释起来很麻烦。
result.getBytes() 是 new String(byte[]) 的逆过程。
前面那个是 String->byte[] ,后面那个是 byte[] -> String.
在java运行时的时候,String与String是没有区别的都是以2字节的unicode的形式存在内存中,所谓编码,是针对把String转换成 byte[]而言的。比如我可以把 "abc" 通过 utf-8转换成了一串数据 A ,也可以通过gb2312转换成另一串数据 B,这个过程就是 String.getBytes(),比如 "abc".getBytes("utf-8")得到A , "abc".getBytes("gb2312")得到B。如果是"abc".getBytes(),就不知道用的什么编码了,这和平台相关。
那如何从A串或者 B串重新得到String呢,那就是 new String(A,"utf-8") 或者 new String(B,"gb2312")。因为A是从utf-8转换得到的,所以用utf-8转回String ,如果new String(A,"gb2312"), 那么其中的中文就是乱码。
当然gbk和utf-8的有小部分编码集合是一样的,所以英文字符,一般不管怎么转都可以歪打正着。
另外,因为网络传输肯定是用byte[]的,不可能直接把String对象给传过来,所以server想把某个字符串传给client之前,需要将他转成byte[] , 这中间就用了server指定的一种编码,client在收到这个 byte[]之后,就必须要采用和server相同的编码,把byte[]重新转换为String。这就是InputStreamReader需要指定一个编码的原因。
InputStreamReader作用就是在通过inputStream读到byte[]的同时,将byte[]用指定的编码,转换为 char[],也就是实际上的String.
说了一大堆,不知道这表达的你能不能明白
如果源真的是GB2312,那么InputStreamReader读入的已经是正确的值了。
如果想要把result按utf-8编码存到某文件, 那么 result.getBytes("utf-8")得到字节数组,再写入 outputStream才是对的。
厄,如果对字符编码没概念的话,解释起来很麻烦。
result.getBytes() 是 new String(byte[]) 的逆过程。
前面那个是 String->byte[] ,后面那个是 byte[] -> String.
在java运行时的时候,String与String是没有区别的都是以2字节的unicode的形式存在内存中,所谓编码,是针对把String转换成 byte[]而言的。比如我可以把 "abc" 通过 utf-8转换成了一串数据 A ,也可以通过gb2312转换成另一串数据 B,这个过程就是 String.getBytes(),比如 "abc".getBytes("utf-8")得到A , "abc".getBytes("gb2312")得到B。如果是"abc".getBytes(),就不知道用的什么编码了,这和平台相关。
那如何从A串或者 B串重新得到String呢,那就是 new String(A,"utf-8") 或者 new String(B,"gb2312")。因为A是从utf-8转换得到的,所以用utf-8转回String ,如果new String(A,"gb2312"), 那么其中的中文就是乱码。
当然gbk和utf-8的有小部分编码集合是一样的,所以英文字符,一般不管怎么转都可以歪打正着。
如果源真的是GB2312,那么InputStreamReader读入的已经是正确的值了。
如果想要把result按utf-8编码存到某文件, 那么 result.getBytes("utf-8")得到字节数组,再写入 outputStream才是对的。
嗯,这段的确有问题!
如果系统的默认编码是utf-8还好。
如果不是的话,result = new String(result.getBytes(),"UTF-8"); 这句就是乱码的源泉!
您说的对,我是把GB2312转换成UTF-8的,要不也不会出现乱码,可能是我表达不清
如果源真的是GB2312,那么InputStreamReader读入的已经是正确的值了。
如果想要把result按utf-8编码存到某文件, 那么 result.getBytes("utf-8")得到字节数组,再写入 outputStream才是对的。
如果源真的是GB2312,那么InputStreamReader读入的已经是正确的值了。
如果想要把result按utf-8编码存到某文件, 那么 result.getBytes("utf-8")得到字节数组,再写入 outputStream才是对的。
嗯,这段的确有问题!
如果系统的默认编码是utf-8还好。
如果不是的话,result = new String(result.getBytes(),"UTF-8"); 这句就是乱码的源泉!
如果源真的是GB2312,那么InputStreamReader读入的已经是正确的值了。
如果想要把result按utf-8编码存到某文件, 那么 result.getBytes("utf-8")得到字节数组,再写入 outputStream才是对的。
不敢当,也许会有更好的办法呢