Apache Nutch网页快照乱码的问题
2012-03-19 20:15
218 查看
ApacheNutch显示网页快照时,如果有汉字,可能会出现乱码。比如,原网页是用gb2312编码的,显示时就不能正常显示。
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件
把
else
content = new String(bean.getContent(details));
修改为:
else {
int index = contentType.indexOf("charset=");
encoding = "utf-8";
if(index>=0){
encoding = contentType.substring(index+8);
}
content = new String(bean.getContent(details),encoding);
}
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件
把
else
content = new String(bean.getContent(details));
修改为:
else {
int index = contentType.indexOf("charset=");
encoding = "utf-8";
if(index>=0){
encoding = contentType.substring(index+8);
}
content = new String(bean.getContent(details),encoding);
}
相关文章推荐
- CentOS下Apache环境支持GBK编码解决网页乱码问题
- apache 搭建网站中文gbk乱码问题解决
- Apache HTTP Server上常会遇到的乱码问题
- nutch网页快照乱码解决方法
- org.apache.commons.httpclient.HttpClient请求乱码问题
- struts2 表单 get 乱码问题/apache+tomcat+jk 乱码问题
- apache+jk+tomcat6.0地地址栏乱码问题
- Apache 2乱码问题解决方法
- 关于nutch 网页快照的中文问题
- MySQL + php + apache 中文乱码问题
- 关于 tomcat与apache集成后 中文乱码的问题
- 利用org.apache.commons.net.ftp实现ftp下载,解决中文文件名乱码问题
- freebsd8.2搭建apache2.2+tomcat6.x+mysql5.5 web服务器,乱码问题
- Apache+tomcat服务器解决中文乱码的问题
- apache httpclient3 httpclient4 上传文件名乱码问题
- oracle apache php乱码问题
- apache httpclien访问乱码,返回信息乱码问题
- vsftp+apache--中文乱码问题
- Nutch爬取网页ReadSegmen dump中文乱码问题
- Apache 中文乱码问题解决方法