您的位置:首页 > 理论基础 > 计算机网络

python 中文乱码问题 网络爬虫

2013-12-12 18:14 387 查看
1 python 中数据统一采用unicode编码,调用某些系统函数可能将数据变成utf8 编码格式

2 在python中如果想输出中文现将数据转化成unicode

3在eclipse中写python程序,要先改变ecipse的编码

4下面是一个网页爬虫的例子

#--*-- coding:utf-8 --*--

import urllib2

import re

url='http://www.baidu.com/s?wd=python'

content=urllib2.urlopen(url).read()

urls_pat = re.compile(r'<a.*?</a>',re.DOTALL)

siteUrls = re.findall(urls_pat, content)

baike =''

for url in siteUrls:

if '_百度百科' in url:

usample=unicode(url,'utf8')

baike = usample

print usample

url = re.findall(r'"http.*?"',baike)

for u in url:

print u.strip('\"')
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: