此輯 碰到这种码怎么办
2018-03-15 11:17
288 查看
python爬虫爬取网站发现中文字会转成类似这种编码: 此輯重要私人珍藏,涵十九件中國古代及近現代
这是unicode十进制编码。
解决方案:
from HTMLParser import HTMLParser
print HTMLParser().unescape('中国')
这是unicode十进制编码。
解决方案:
from HTMLParser import HTMLParser
print HTMLParser().unescape('中国')
相关文章推荐
- "要不是碰到我妻子,我可能没有机会追求电影生涯"(转贴)
- &既可以做取地址,也可以作引用,怎么区分?
- KindEditor 怎么解决复制内容的时候自动添加的<pre>标签
- 身边的"它"怎么都病了
- <IOS>当程序崩溃的时候怎么办 Part-2
- <thead></thead>标签怎么用?
- "自适应网页设计"到底是怎么做到的?
- <float.h> - C语言标准库可以知道这种浮点型小数的信息
- 这种题目怎么做 为什么 谢谢 给个例题 "正方形的周长C与它的边长"中的2个变量是否成正比例
- & && | || 什么意思?怎么用?
- <<给你个团队你能怎么管>>读书笔记-1
- <h:outputText>标签 中怎么限制字数 多余的用省略号,并且鼠标放上时显示全部信息
- <input type="file" 上传图片不是绝对路径 而是相对路径 怎么解决?
- DB2 JCC驱动程序时碰到"Encoding not supported"错误怎么办
- 提交时卡在"Your application is being uploaded"时,怎么办?
- &怎么区分它是引用,还是取地址符?
- <copy>AWS 亚马逊云是什么,怎么发展起来的
- Swift NSDate的一个分类,把"Mon Apr 04 19:45:37 +0800 2016"这种格式的时间转换为"2016-04-04 11:45:37 +0000"
- 怎么用正则表达式获取文章内容中的&lt;img标签和 src的路径
- "Karma-How It Works"Karma怎么运行