您的位置:首页 > 编程语言 > Python开发

python3爬取拉勾网招聘信息存为excel格式

2017-06-29 20:21 387 查看
#encoding:utf-8
import json  # 使用json解码 因为拉勾网的格式是json
import requests  # 使用这个requests是得到网页源码
import pandas  # 使用这个数据进行存储
import openpyxl


items = []  # 定义空列表用来存放你得到的数据
#  循环两页 这里爬取的是两页内容
for i in range(1,2):
# 传入data 因为这个url是post的请求方法 pn指的是页数 kd指的是你搜索的内容
data = {'first': 'true', 'pn': i, 'kd': 'python'}
# 拉钩网的链接是固定的就变化的是页数 因为是post的提交方法 所以传入data
yuan = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false', data=data).text
# 使用json进行解码 因为返回的是一个json的格式
yuan = json.loads(yuan)
# 得到14个数据
for i in range(14):
item = []
# 看下面的图片item里面的是什么数据
item.append(yuan['content']['positionResult']['result'][i]['positionName'])
item.append(yuan['content']['positionResult']['result'][i]['companyFullName'])
item.append(yuan['content']['positionResult']['result'][i]['salary'])
item.append(yuan['content']['positionResult']['result'][i]['city'])
item.append(yuan['content']['positionResult']['result'][i]['positionAdvantage'])
items.append(item)
#  使用的是pands的存数据 存为xlsx就是excel格式
data = pandas.DataFrame(items)
data.to_excel('拉钩.xlsx')




大家多评论,指正。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: