使用HttpClient+Regex抓取第三方网站信息（三）

hailong_qin 2011-07-17

展开全文

在这里，介绍一种解决抓取后网页内容显示为乱码的办法。

前几天，在抓取某网站的信息时(http://www./Price/Price/Default.aspx)，第一次碰到了这种应用下的乱码问题。于是上网查了一下，提供的解决办法大致有两种：

１>　　private static final String CONTENT_CHARSET = "GBK";

　httpClient.getParams().setContentCharset("UTF-8");

　httpClient.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET, ＣONTENT_CHARSET);

2>　　private static final String CONTENTTYPE = " text/html; charset=GBK";

　　getMethod.setRequestHeader("Content-Type", CONTENTTYPE);

测试了，没有任何效果（换成UTF-8也不行）。也用了String result = new String(pageSrc.getBytes("UTF-8"),"GBK")，依然无效。

在焦头烂额时想到了以前在学校时经常用的一句话：找问题要会追根溯源。仔细想想，字符串里面的文本内容也是通过文件流获取的，既然转换字符串字符编码不起作用，那可以设置文件流的默认编码吗？查了jdk，是可行的。

private static final String CHARSET = "UTF-8";

InputStream ins = getMethod.getResponseBodyAsStream();

//按指定的字符集构建文件流
BufferedReader br = new BufferedReader(new InputStreamReader(ins,CHARSET));
StringBuffer sbf = new StringBuffer();
String line = null;
while ((line = br.readLine()) != null)
{
sbf.append(line);
}
/** 回收资源 */
br.close();
getMethod.releaseConnection();

/** 页面源文件 */
pageSource = sbf.toString();

问题解决，^_^。这里的CHARSET要根据实际情况设置