python 爬虫爬取内容时, \xa0 、 \u3000 的含义
2018-03-06 10:41
459 查看
最近用 scrapy 爬某网站,发现拿到的内容里面含有 \xa0 、 \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少 233 。\xa0 是不间断空白符
我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我们见到的字符多数是 latin1 的,比如在 MySQL 数据库中。这里也有一张简陋的Latin1字符集对照表。
\xa0 是不间断空白符
我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。而 \xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。
latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我们见到的字符多数是 latin1 的,比如在 MySQL 数据库中。这里也有一张简陋的Latin1字符集对照表。
\u3000 是全角的空白符
根据Unicode编码标准及其基本多语言面的定义, \u3000 属于CJK字符的CJK标点符号区块内,是空白字符之一。它的名字是 Ideographic Space ,有人译作表意字空格、象形字空格等。顾名思义,就是全角的 CJK 空格。它跟 nbsp 不一样,是可以被换行间断的。常用于制造缩进, wiki 还说用于抬头,但没见过。这里还有一个 Unicode.org 上关于 CJK 标点符号块的字符代码表。相关文章推荐
- python 爬虫爬取内容时, \xa0 、 \u3000 的含义
- python爬虫爬取内容中,\xa0,\u3000的含义
- python爬虫爬取内容中,\xa0,\u3000的含义
- python爬虫爬取内容中,-xa0,-u3000的含义
- python爬虫爬取内容中,-xa0,-u3000的含义
- Python 爬虫4——使用正则表达式筛选内容
- 分享:Python3伪装浏览器爬虫读取网页内容
- python爬虫-糗事百科段子内容
- Python爬虫爬取新浪微博内容示例【基于代理IP】
- Python爬虫之urllib简单下载内容
- 萌新的Python学习日记 - 爬虫无影 - 添加headers抓取动态网页内容:TripAdvisor(上)
- 从零开始写Python爬虫 --- 1.5 爬虫实践: 获取百度贴吧内容
- Python网络爬虫项目:内容提取器的定义
- 基于python Scrapy的爬虫——爬取某网站新闻内容
- python3 爬虫 HTML 指定内容
- 用python爬虫csdn的内容,完美解决403 Forbidden
- Python爬虫,抓取淘宝商品评论内容
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- Python 即时网络爬虫项目: 内容提取器的定义
- Python爬虫:Selenium+ BeautifulSoup 爬取JS渲染的动态内容(雪球网新闻)