因为在做链接来源统计的时候需要把 http://www.baidu.com/baidu?word=%D6%D0%B9%FA%B4%F3%B0%D9%BF%C6%D4%DA%CF%DF%C8%AB%CE%C4%BC%EC%CB%F7&tn=myie2dg 这类的URL编码还原成明文字串,一般大部分的网站都是用普通的URL编码形式,如上面链接中的badu,这种很容易转换和还原,Java包里提供了两个类的不同方法URLEncode.encode()和URLDecode.decode()可以很方便实现,但也有特别一点的就是Google了,http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD%E5%A4%A7%E7%99%BE%E7%A7%91%E5%9C%A8%E7%BA%BF%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2&btnG=%E6%90%9C%E7%B4%A2&lr= 他们的编码和别人不一样,如果使用URLDecode.decode()的话则变成乱码,查询的一些相关资料都说Google使用的是UTF-8编码,这点我就有些奇怪了,如果Google使用的是UTF-8编码,那别人使用的又是什么?IE的高级选项里不是有项“始终以UTF-8形式发送URL”的吗?但是UTF-8一个中文是3byte,而一般的编码则是2个byte,这就是为什么一般的URL中是以两组‘%‘代码表示一个汉字,如“中”的URL编码为"%D6%D0",而UTF-8则为3组,“中”为"%E4%B8%AD",这个问题我在Google里也没得到较好回答。我对各种编码形式了解的不是很好,之前只看过如何将字符串转成Utf8-URL编码的方法,其实也挺简单的,直接转成byte后直接取其16进制值前面加个%就行,还原方法在网上搜了几圈居然没发现有现成的!倒是也是几个人在CSDN问了此类的问题。最后还是决定自己搞定了,基本上是toUTF8的原路退回法,再加了个检测URL链接是否UTF-8形式的方法,觉得已经蛮好用了。可以拿出来share一下。
[Edit on 2006-6-27 0:06:06 By flashman]
≡≡≡ 网友评论 ≡≡≡
![]() 最近我也在研究中文分词,到你的blog来找点资料 ^_^ 有什么好东西记得给兄弟分享一份。
正式的正式: 这编文章的理论基础有错误,建议fox去看看编码相关的基础知识。ISO-8859-1 和GB2312是不能直接转的。他们都属于ANSI编码。 一共有三类编码 ANSI(ISO-8859-1,GBK,GB2312,BIG5等) UCS(UCS2,UCS4) UTF(UTF7 UTF8 UTF16) 其中 所有的编码都可以转成UCS,UTF是UCS为了节省空间的一种存储方式(使用huffman编码的理论的变长编码,如果全部都是e文的话可以有效地压缩成UTF8,如果是中文编码成UTF8反而会浪费空间)。ANSI各个编码之间不存在抓换关系只存在极少数的对应关系(比如每个ANSI编码都必须包含英文,又比如简体字与繁体字之间的对应关系使GBK和BIG5之间的某些编码存在对应关系,这种关系是无规律的)。 我的blog上也有不少关于这方面的内容 ![]() ----------------------------------------------------------------------------------------------------------------------------
<html>
<head> <meta http-equiv=‘Content-Type‘ content=‘text/html; charset=gb2312‘> <title>URL解码(Decode)/编码(Encode)</title> </head> <body> <center><font color=green size=+2>URL解码(Decode)/编码(Encode)</font><br> 需要解码的字符串:<TEXTAREA ID="String1" ROWS="10" COLS="30"></TEXTAREA> 解码后的字符串:<TEXTAREA ID="String2" ROWS="10" COLS="30"></TEXTAREA><br> 需要编码的字符串:<TEXTAREA ID="String3" ROWS="10" COLS="30"></TEXTAREA> 编码后的字符串:<TEXTAREA ID="String4" ROWS="10" COLS="30"></TEXTAREA><br> <INPUT TYPE="button" ID="Decode" value="解码(Decode)" onClick="javascript:String2.value=decodeURI(String1.value);"> <INPUT TYPE="button" ID="Encode" value="编码(Encode)" onClick="javascript:String4.value=encodeURI(String3.value);"> </center> </body> </html> |
|