Scrapy研究探索(四)——中文输出与中文保存
2016-11-15 23:14
232 查看
提取网页中中文并输出或者是保存时经常会出现一个问题是显示的是中文对应的unicode编码而非中文本身,这里讲述解决这种问题的方法。
一. 针对交互输出。
如以下代码:[python] view
plain copy
![](https://code.csdn.net/assets/CODE_ico.png)
title = site.xpath('a/text()').extract()
link = site.xpath('a/@href').extract()
desc = site.xpath('a/@title').extract()
[python] view
plain copy
![](https://code.csdn.net/assets/CODE_ico.png)
print title
此时title的输出可能是类似于如下:
[python] view
plain copy
![](https://code.csdn.net/assets/CODE_ico.png)
\xe4\xbd\xbf\xe7\x94\xa8
这是title对应中文的unicode格式。
将其转换为utf-8在输出即可:
[python] view
plain copy
![](https://code.csdn.net/assets/CODE_ico.png)
title = site.xpath('a/text()').extract()
link = site.xpath('a/@href').extract()
desc = site.xpath('a/@title').extract()
print title
for t in title:
print t.encode('utf-8')
这时两次输出的前一次为unicode码,而后一次为中文。
注意:
encode()只针对str数据结构,如果不是,可以先转换为str。上面由于得到的title为list类型,所以转换如上。二. 针对存储。
关于存储,可查看在教程(二)中在w3school和pipelines中使用的方式达到保存中文的效果。原文链接:http://blog.csdn.net/u012150179/article/details/34450547
相关文章推荐
- Scrapy研究探索(四)——中文输出与中文保存
- scrapy中输出中文保存中文
- Scrapy中文输出与中文保存
- 【转】 Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)
- flex 通过as3xls包来实现datagrid输出保存到excel。并处理中文乱码
- scrapy使用extract()输出unicode转为中文的方法
- scrapy研究探索(二)——爬w3school.com.cn
- 【转】 [置顶] Scrapy研究探索(七)——如何防止被ban之策略大集合
- Scrapy研究探索(五)——自动多网页爬取(抓取某人博客所有文章)
- 解决Scrapy抓取中文结果保存为文件时的编码问题
- Scrapy研究和探索(七)——如何防止被ban大集合策略
- 关于CodeSmith不能保存及输出中文的解决办法
- scrapy研究探索(二)——爬w3school.com.cn
- scrapy研究探索1
- Scrapy研究和探索(五岁以下儿童)——爬行自己主动多页(抢别人博客所有文章)
- scrapy输出中文字符到文件
- scrapy抓取中文输出乱码解决方案
- Scrapy研究探索(一)——基础入门
- vim解决中文的保存(时间不多,等下研究)
- Scrapy研究探索(七)——如何防止被ban之策略大集合