分享

VC++下处理UTF8编码的字符串

 herowuking 2015-06-26

在windows下打开一个记事本,保存文件,下面有四种编码选择。ANSI,也就是多字节字符集,在VC中也就是CHAR(char)字符串。Unicode,就是UTF16,在VC中也就是WCHAR(wchar_t)字符串。Unicode big endian ,就是UTF32,这种编码用的比较少。UTF8,网页上几乎都是用UTF8,UTF8用1-4个字节来编码所有的字符,英文只需要1个 字节,中文需要3-4个字节。比起UTF16来说,UTF8这样可以尽可能的节省网络带宽,因为在网络上传输的字符,大部分以英文为主。UTF16至少是2个字节,部分字符4个字节。

如果我们写一个VC程序,从获取HTML网页数据,这些数据的编码是UTF8的,获取到我们VC程序中的CHAR字符数组中时就会发现,英文可以正常显示,中文全部乱码了。因为我们的CHAR型字符串用的是ANSI编码。要想把UTF8转换为ANSI,一般有两种方法。一种是手工写代码实现,百度上搜索可以发现很多资料,透彻了解这些字符集编码后,可以手工来实现转换,网上也有很多别人写好的转换函数。一种方法就是借助第三方函数库。由于我们在windows平台下编写程序,我们可以使用API函数来转换MultiByteToWideChar和WideCharToMultiByte。使用这个函数,我们得进行两次转换,先用MultiByteToWideChar把UTF8编码的CHAR字符串转换成WCHAR字符串,第一个参数要注明我们要转换的代码页为CP_UTF8,即UTF8的意思。然后用WideCharToMultiByte吧WCHAR字符串转换成CHAR字符串,第一个参数使用936,936代码页的意思是简体中文。有关代码页的知识可以百度百科一下。

下面贴出我写的两个ANSI与UTF8互转的函数。参数为MFC中的CString字符串,如果要传入C样式的字符数组型字符串,只需稍加修改即可。

  1. //UTF8转ANSI  
  2. void UTF8toANSI(CString &strUTF8)  
  3. {  
  4.     //获取转换为多字节后需要的缓冲区大小,创建多字节缓冲区  
  5.     UINT nLen = MultiByteToWideChar(CP_UTF8,NULL,strUTF8,-1,NULL,NULL);  
  6.     WCHAR *wszBuffer = new WCHAR[nLen+1];  
  7.     nLen = MultiByteToWideChar(CP_UTF8,NULL,strUTF8,-1,wszBuffer,nLen);  
  8.     wszBuffer[nLen] = 0;  
  9.   
  10.     nLen = WideCharToMultiByte(936,NULL,wszBuffer,-1,NULL,NULL,NULL,NULL);  
  11.     CHAR *szBuffer = new CHAR[nLen+1];  
  12.     nLen = WideCharToMultiByte(936,NULL,wszBuffer,-1,szBuffer,nLen,NULL,NULL);  
  13.     szBuffer[nLen] = 0;  
  14.       
  15.     strUTF8 = szBuffer;  
  16.     //清理内存  
  17.     delete []szBuffer;  
  18.     delete []wszBuffer;  
  19. }  
  1. //ANSI转UTF8  
  2. void ANSItoUTF8(CString &strAnsi)  
  3. {  
  4.     //获取转换为宽字节后需要的缓冲区大小,创建宽字节缓冲区,936为简体中文GB2312代码页  
  5.     UINT nLen = MultiByteToWideChar(936,NULL,strAnsi,-1,NULL,NULL);  
  6.     WCHAR *wszBuffer = new WCHAR[nLen+1];  
  7.     nLen = MultiByteToWideChar(936,NULL,strAnsi,-1,wszBuffer,nLen);  
  8.     wszBuffer[nLen] = 0;  
  9.     //获取转为UTF8多字节后需要的缓冲区大小,创建多字节缓冲区  
  10.     nLen = WideCharToMultiByte(CP_UTF8,NULL,wszBuffer,-1,NULL,NULL,NULL,NULL);  
  11.     CHAR *szBuffer = new CHAR[nLen+1];  
  12.     nLen = WideCharToMultiByte(CP_UTF8,NULL,wszBuffer,-1,szBuffer,nLen,NULL,NULL);  
  13.     szBuffer[nLen] = 0;  
  14.       
  15.     strAnsi = szBuffer;  
  16.     //内存清理  
  17.     delete []wszBuffer;  
  18.     delete []szBuffer;  
  19. }  


 

值得注意的是,UTF8编码的字符串一般要将其保存在CHAR(char)型数组里,而不保存在WCHAR(wchar_t)型数组里。为什么呢?因为UTF8编码的字符串每个字符占1-4个字节,有的字符只占1个字节,应该用CHAR型数组来保存。而WCHAR的话,一个WCHAR就占两个字节,对于只需要一个字节的字符,就会出问题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多