java爬虫爬取的html内容中空格( )变为问号“?”的解决方法
2016-11-30 16:33
573 查看
用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一下,大概意思是显示的这个问号其实并不是问号,是乱码,主要是由于编码的问题导致的。
//替换抓取内容中“ ”变为问号的问题
try {
intro = new String(intro.getBytes(),"GBK").replace('?', ' ').replace(' ', ' ');
} catch (Exception e){
e.printStackTrace();
}其中replace(' ',
' ')中,前面哪一个空格是全角空格。
//替换抓取内容中“ ”变为问号的问题
try {
intro = new String(intro.getBytes(),"GBK").replace('?', ' ').replace(' ', ' ');
} catch (Exception e){
e.printStackTrace();
}其中replace(' ',
' ')中,前面哪一个空格是全角空格。
相关文章推荐
- java爬虫爬取的html内容中空格( )变为问号“?”的解决方法
- 解决Jsoup解析html页面空格( )解析为乱码(问号)
- 关于利用Jsoup解析HTML中 变成非传统空格或乱码问题解决方法
- 关于利用Jsoup解析HTML中 ;变成非传统空格或乱码问题解决方法
- 空格在Html中的表示方法(&nbsp含义)
- 空格&nbsp在不同浏览器中显示距离不一致问题解决方法
- 空格在Html中的表示方法(&nbsp含义)
- 空格在Html中的表示方法( 含义)
- 空格在Html中的表示方法(&nbsp含义)
- tapestry不支持 等html特殊符号的解决方法
- 空格在Html中的表示方法( 含义)
- Java heap space 解决方法
- 空格 在不同浏览器中显示距离不一致问题解决方法
- 空格&nbsp在不同浏览器中显示距离不一致问题解决方法
- (转)空格在HTML中的表示方法( 含义)
- [JSP Style]空格在Html中的表示方法(&nbsp含义)
- 空格 在不同浏览器中显示距离不一致问题解决方法
- 空格 在不同浏览器中显示距离不一致问题解决方法
- 空格在Html中的表示方法( 含义)
- 空格 在不同浏览器中显示距离不一致问题解决方法