抓取sogou新闻中的编码问题
2017-09-08 13:50
183 查看
问题:
我们的新闻经常和百度搜狗等新闻进行对比,于是有个自动化评测的平台。但是我们在抓sogou的页面的时候发现其编码明明写了GBK,但是在python中却用GBK不能解码!解决方案:
在python使用GB18030编码解码出来,然后再编码成UTF-8传给我们的ParserService做解析。response = urllib2.urlopen(req).read().decode("GB18030").encode('utf-8')
原因:
在中文编码上面,有如下几个编码集:GB2312 < GBK < GB18030,后者兼容前者。但是sogou的页面在meta中声称自己是GBK编码,事实上页面中用了超出GBK编码集范围的字符,一些解码工具可以自己尝试去切换编码,但是这个python的decode显然不行。
所以我们指定正确的编码即可解码成功。
相关文章推荐
- nodejs爬虫抓取数据之编码问题
- 使用Curl进行抓取远程内容时url中文编码问题示例探讨
- 解决Scrapy抓取中文结果保存为文件时的编码问题
- 使用Curl进行抓取远程内容时url中文编码问题
- httpclient自动获取页面编码,解决网页抓取乱码问题
- python抓取网页编码问题
- 使用Curl进行抓取远程内容时url中文编码问题
- nodejs爬虫抓取数据之编码问题
- 网页抓取中遇到的编码问题
- 使用HtmlAgilityPack和ScrapySharp抓取网页数据遇到的几个问题解决方法——格式编码问题
- android(20)(从网络抓取html显示在本地,把流转换成String,请求网络,简单的消息处理机制,编码问题)
- 使用Curl进行抓取远程内容时url中文编码问题 转载
- python抓取gb2312/gbk编码网页乱码问题
- [CPyUG] 抓取网页数据时遇到的中文编码问题
- 使用Curl进行抓取远程内容时url中文编码问题示例探讨
- 使用Curl进行抓取远程内容时url中文编码问题
- 黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)
- urllib2抓取网页出现中文编码问题
- 黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)
- JSP/Servlet中的汉字编码问题