python爬虫爬取内容中,-xa0,-u3000的含义
2017-02-03 19:33
836 查看
最近用scrapy爬某网站,发现拿到的内容里面含有\xa0、\u3000这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233。
\xa0是不间断空白符
我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。
latin1字符集向下兼容ASCII(0x20~0x7e)。通常我们见到的字符多数是latin1的,比如在MySQL数据库中。
这里也有一张简陋的Latin1字符集对照表。
这里还有一个Unicode.org上关于CJK标点符号块的字符代码表。
\xa0是不间断空白符
我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。
latin1字符集向下兼容ASCII(0x20~0x7e)。通常我们见到的字符多数是latin1的,比如在MySQL数据库中。
这里也有一张简陋的Latin1字符集对照表。
\u3000是全角的空白符
根据Unicode编码标准及其基本多语言面的定义,\u3000属于CJK字符的CJK标点符号区块内,是空白字符之一。它的名字是Ideographic Space,有人译作表意字空格、象形字空格等。顾名思义,就是全角的CJK空格。它跟nbsp不一样,是可以被换行间断的。常用于制造缩进,wiki还说用于抬头,但没见过。这里还有一个Unicode.org上关于CJK标点符号块的字符代码表。
相关文章推荐
- python之简单主机批量管理工具
- python之twisted模块安装
- python zip函数
- Python简单爬虫的应用
- [bigdata-041] python3+re 正则表达式 手机号微信号qq号
- 使用python库xlsxwriter库来输出各种xlsx文件
- Python3爬虫(一)抓取网页的html
- Python:解析properties文件
- 0000python中文乱码解决方案
- python 查找指定名称的目录并删除
- Python subprocess模块学习总结--转载
- python with
- mac10.10 打造Python多版本虚拟环境
- python内存管理
- python递归函数
- 0002python中dict和list的特殊构造
- python模块之re正则表达式详解
- python模块之re正则表达式
- python高级函数v1.0
- Python基础学习一