python爬取数据需要注意的问题
2017-12-19 15:21
387 查看
1 爬取https的网站或是接口的时候,如果是不受信用的SSL证书,会报错,需要添加如下代码,如下代码可以保证当前代码块内所有的请求都自动屏蔽ssl证书问题:
import ssl # 这个是爬取https的链接需要的,以及下面一行代码 ssl._create_default_https_context = ssl._create_unverified_context2 爬取jsonp的接口,返回的数据需要删除callback名字和最外层括号,可以通过以下方式过滤:text方法将取得的数据转为文本,然后re.match将字符串过滤掉callback名字和最外层括号,留下原本json部分的数据,然后通过json.loads将过滤出来的json转为python对象
import re getOneSongInfoCallback=json.loads(re.match(".*?({.*}).*", requests.get(url, headers=headers).text)[1])3 获取请求的地址后面跟的参数的方法,如下方式得到qs就可以进一步直接获取自己想要的参数值:
import urllib.parse as parse parse_query=parse.urlparse(url).query qs=parse.parse_qs(parse_query)
相关文章推荐
- 数据整合需要注意的问题
- 数据恢复过程中需要注意的一些问题
- 使用SQLite附加(ATTACH)数据库时,需要注意数据文件编码的问题
- 采用Json字符串,往服务器回传大量富文本数据时,需要注意的地方,最近开发时遇到的问题。
- Mater-Details数据查询修改时,在用DetailsView进行新建,编辑(添加DropDownList控件)应用时需要注意的几点问题
- socket 发送数据需要注意的问题
- 在定义SharePoint列表的SPD数据视图的时候需要注意的问题
- Oracle判断数据是否存在(使用游标判断需要注意的问题)
- mysql通过直接复制数据库文件夹来还原数据时需要注意的问题
- 创建实体数据模型需要注意的,不要选单复数形式,否则AddObject出问题
- 大数据处理前所需要注意的问题
- SQL Server数据导入、导出需要注意的问题
- Python初学者需要注意的问题
- DataTable数据导入到Excel 引用Microsoft Office 12.0 Object Library和 Microsoft Excel 14.0 Object Library 并且需要注意的问题
- ASP.NET数据控件绑定需要注意的问题
- linux 下配置python 以及 python脚本的移植需要注意的问题
- Python初学者需要注意的问题
- mysql通过直接复制数据库文件夹来还原数据时需要注意的问题
- 润乾报表数据填报需要注意的问题
- 使用分区删除数据需要注意的问题