python 中文乱码问题 网络爬虫
2013-12-12 18:14
387 查看
1 python 中数据统一采用unicode编码,调用某些系统函数可能将数据变成utf8 编码格式
2 在python中如果想输出中文现将数据转化成unicode
3在eclipse中写python程序,要先改变ecipse的编码
4下面是一个网页爬虫的例子
#--*-- coding:utf-8 --*--
import urllib2
import re
url='http://www.baidu.com/s?wd=python'
content=urllib2.urlopen(url).read()
urls_pat = re.compile(r'<a.*?</a>',re.DOTALL)
siteUrls = re.findall(urls_pat, content)
baike =''
for url in siteUrls:
if '_百度百科' in url:
usample=unicode(url,'utf8')
baike = usample
print usample
url = re.findall(r'"http.*?"',baike)
for u in url:
print u.strip('\"')
2 在python中如果想输出中文现将数据转化成unicode
3在eclipse中写python程序,要先改变ecipse的编码
4下面是一个网页爬虫的例子
#--*-- coding:utf-8 --*--
import urllib2
import re
url='http://www.baidu.com/s?wd=python'
content=urllib2.urlopen(url).read()
urls_pat = re.compile(r'<a.*?</a>',re.DOTALL)
siteUrls = re.findall(urls_pat, content)
baike =''
for url in siteUrls:
if '_百度百科' in url:
usample=unicode(url,'utf8')
baike = usample
print usample
url = re.findall(r'"http.*?"',baike)
for u in url:
print u.strip('\"')
相关文章推荐
- 解决Python网页爬虫之中文乱码问题
- python爬虫获取编码时中文乱码问题
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- python 爬虫中文乱码问题
- Python爬虫处理抓取数据中文乱码问题
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- Python 爬虫过程中的中文乱码问题
- Python爬虫处理抓取数据中文乱码问题
- BeautifulSoup中文乱码解决问题 python 爬虫 乱码
- Python操作MySQL以及中文乱码的问题
- python抓网页中文乱码问题
- python中文编码问题深入分析(二):print打印中文异常及显示乱码问题分析与解决
- 关于python在cmd中输出中文乱码的问题
- 解决Python Pandas 读取Oracle数据库中文乱码问题
- python zip 文件解压中文乱码问题解决
- Python经典问题——中文乱码:打印中文时显示乱码
- Python java解决中文乱码问题,读取文本文件为乱码,编辑器打开正常
- 【python】python新手必碰到的问题---encode与decode,中文乱码[转]
- python在终端上中文乱码问题的小结