6 浏览器抓包及headers设置(案例一:抓取知乎) jason格式
2018-02-01 17:11
435 查看
翻页后url不变
今日头条url也没有变化翻页
左侧多了
chorm中josonview插件
所以加入不一样的请求头:headers
http://www.zhihu.com/api/v4/people/112
根据经验把api删掉即可打开这个链接
第一个参数固定是url不用指定,后面的参数需要指明。headers字典。
下面是翻页
百度输入python.extend
import requests import pandas as pd import time headers = { 'authorization':'Bearer 2|1:0|10:1513832293|4:z_c0|92:Mi4xUFJOakF3QUFBQUFBa0lLVHVlN2REQ1lBQUFCZ0FsVk5aWTBvV3dBTW4yUk1XX0l2YjNhNlNSUmhmRy1GaDZsWWVR|d45ed089d0c3ca18eff8a3f5bee812db4804d2a13a92b69f124d47b5a82d0292','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3278.0 Safari/537.36','X-UDID':'AGBsMCXoEg2PTrQf77mdwRHSy0xePXc5juQ=' } url = 'https://www.zhihu.com/api/v4/members/zhong-guo-ke-pu-bo-lan/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=60&limit=20' user_data = [] def get_user_data(page): #爬取几页 for i in range(page): url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20) response = requests.get(url, headers=headers).json()['data'] user_data.extend(response) #把response数据添加进user_data print('正在爬取第%s页' % str(i+1)) time.sleep(1) #设置爬取网页的时间间隔为1秒,爬虫暂停1s,防止被监测到 if __name__ == '__main__': get_user_data(10) df = pd.DataFrame.from_dict(user_data) df.to_csv('users.csv') 截止。 ''' response = requests.get(url,headers = headers).json()['data'] df = pd.DataFrame.from_dict(response) #from_dict函数可以直接把json数据转换 df.to_csv('zhihu.csv')#出现错误,经验告诉是知乎反爬
'''
json是个像字典一样使用的东西。
你看看json返回的东西,是一个字典,取字典的值是怎样取的就怎样取,xpath是取源代码的
代码运行结果如下:
a选项不一定是当前页面,因为有时候翻页页面地址不变。
x-requested-with XMLHttpRequest //表明是AJax异步,也就是json格式
range(3) 0,1,2
星号题
相关文章推荐
- Python爬虫(入门+进阶)学习笔记 1-6 浏览器抓包及headers设置(案例一:爬取知乎)
- 如何设置浏览器查看代码时的编码格式
- servlet从服务器磁盘文件读出到浏览器显示,中文乱码问题,不要忘记在输入流和输出流都要设置编码格式,否则一个地方没设置不统一就会各种乱码
- Firefox浏览器设置字符编码格式
- Mac用户抓包软件Charles 4.0 破解 以及 抓取Https链接设置
- http协议之response案例三:【content-type】--服务器发送给浏览器的数据类型和数据编码格式
- 过滤器篇(2)-----过滤器设置编码格式与清除浏览器缓存(EncodingFilter , NoCacheFilter)
- Fiddler4 https证书安装 与 设定特书浏览器 与 解决乱码问题设置 与 手机抓包
- json中文字符串从服务器到浏览器的编码格式设置
- 设置浏览器查看源文件打开的默认格式
- 【MySQL运维】事物隔离级别和行日志格式设置不当导致故障案例 推荐
- 网站页面在浏览器中设置样式格式。
- fmt的时间格式的设置的
- myeclipse中java文件头注释格式设置
- select 设置边框兼容所有浏览器
- GridView导出Excel 设置导出单元格格式
- IE7 浏览器下面设置text-indent属性变成margin属性BUG
- SEO设置浏览器tab显示小图标
- jxl对某一列设置单元格格式
- 内网端口映射应用案例及设置方法详解