python编码问题(2)
2014-12-08 10:14
225 查看
先上代码:
在win7上输出是:
windows上的IDLE(python GUI),默认编码为ascii码(第一行);
CP936 -> CP1252 , why????
读取网页的编码貌似取自网页。
为什么,cp1252的编码能够在gb2312的编码的字符串中找到匹配?
============
解答
============
请保持关注,目前无
# -*- coding: utf-8 -*- import sys import urllib2 import re import chardet import sys print sys.getdefaultencoding() keyword = u'来源:.+[\u4e00-\u9fa5]+'.encode('CP936') html = 'http://finance.people.com.cn/money/n/2014/1009/c42877-25798373.html' src = urllib2.urlopen(html).read() print chardet.detect(keyword) print chardet.detect(src) match = re.compile(keyword) list = match.findall( src) for line in list: print line
在win7上输出是:
ascii {'confidence': 0.73, 'encoding': 'windows-1252'} {'confidence': 0.99, 'encoding': 'GB2312'} 来源:人民网-理财频道 原创稿 来源:<a href="http://finance.people.com.cn/money/" target="_blank">人民网-理财频道</a></span> <a href="http://www.people.com.cn/GB/123231/365208/index.html" target="_blank"><img src="/img/2012wbn/images/peopleclienticon.jpg" />手机看新闻 来源:<a href="http://news.baidu.com/view.html?from=people" target="_blank">百度新闻
windows上的IDLE(python GUI),默认编码为ascii码(第一行);
CP936 -> CP1252 , why????
读取网页的编码貌似取自网页。
为什么,cp1252的编码能够在gb2312的编码的字符串中找到匹配?
============
解答
============
请保持关注,目前无
相关文章推荐
- [Python]编码问题
- 菜鸟学Python(4):编码问题
- python的编码问题
- python 在 ubuntu 下中文编码问题
- 编码问题的思考-python编码问题
- 利用python处理xml -- 中文编码问题
- Python 中文编码问题
- python编码问题和i18n
- [转]Python: python编码问题
- python中的中文编码问题
- python编码问题
- Python 和 数据库相关的编码问题
- python编码问题
- Python解决文件编码问题
- [原创]python中文编码老是出错问题。
- python操作数据时编码问题
- python中的汉字编码问题,兼及Qt,兼及各种编码 unicode, utf8,gbk,gb2312,gb18030.....
- python中文字符串数组编码的问题
- python 编码 问题 UTF-8 unicode
- [python] ConfigParser 编码问题和示例