python爬虫爬取内容中,\xa0,\u3000的含义
2017-07-05 10:42
369 查看
最近用scrapy爬某网站,发现拿到的内容里面含有\xa0、\u3000这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233。
我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking
space)。
latin1字符集向下兼容ASCII(0x20~0x7e)。通常我们见到的字符多数是latin1的,比如在MySQL数据库中。
这里也有一张简陋的Latin1字符集对照表。
根据Unicode编码标准及其基本多语言面的定义,\u3000属于CJK字符的CJK标点符号区块内,是空白字符之一。它的名字是Ideographic
Space,有人译作表意字空格、象形字空格等。顾名思义,就是全角的CJK空格。它跟nbsp不一样,是可以被换行间断的。常用于制造缩进,wiki还说用于抬头,但没见过。
这里还有一个Unicode.org上关于CJK标点符号块的字符代码表
\xa0是不间断空白符
我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking
space)。
latin1字符集向下兼容ASCII(0x20~0x7e)。通常我们见到的字符多数是latin1的,比如在MySQL数据库中。
这里也有一张简陋的Latin1字符集对照表。
\u3000是全角的空白符
根据Unicode编码标准及其基本多语言面的定义,\u3000属于CJK字符的CJK标点符号区块内,是空白字符之一。它的名字是IdeographicSpace,有人译作表意字空格、象形字空格等。顾名思义,就是全角的CJK空格。它跟nbsp不一样,是可以被换行间断的。常用于制造缩进,wiki还说用于抬头,但没见过。
这里还有一个Unicode.org上关于CJK标点符号块的字符代码表
相关文章推荐
- python爬虫爬取内容中,\xa0,\u3000的含义
- python 爬虫爬取内容时, \xa0 、 \u3000 的含义
- python 爬虫爬取内容时, \xa0 、 \u3000 的含义
- python爬虫爬取内容中,-xa0,-u3000的含义
- python爬虫爬取内容中,-xa0,-u3000的含义
- windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息
- 【python学习】网络爬虫——爬百度贴吧帖子内容
- Python爬虫爬民主湖(5)-------------爬回复内容
- 抓取糗百内容小爬虫(python2.7) 2015最新版
- python网络爬虫(一):网络爬虫科普与URL含义
- Python即时网络爬虫项目: 内容提取器的定义
- Python伪装浏览器爬虫读取网页内容
- Python伪装浏览器爬虫读取网页内容
- [python爬虫]利用urllib2爬取百度贴吧帖子相关内容
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- Python 即时网络爬虫项目: 内容提取器的定义
- python入门,自制小爬虫获得百度贴吧内容
- Python3伪装浏览器爬虫读取网页内容
- [Python]网络爬虫1:抓取网页的含义和URL基本构成 笔记
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容