您的位置:首页 > 运维架构 > Apache

Apache Nutch网页快照乱码的问题

2012-03-19 20:15 218 查看
ApacheNutch显示网页快照时,如果有汉字,可能会出现乱码。比如,原网页是用gb2312编码的,显示时就不能正常显示。

解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。

具体为:修改cached.jsp文件



else

content = new String(bean.getContent(details));

修改为:

else {

int index = contentType.indexOf("charset=");

encoding = "utf-8";

if(index>=0){

encoding = contentType.substring(index+8);

}

content = new String(bean.getContent(details),encoding);

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: