100%教会爬取全国保险业务员微信号码和拉勾网招聘数据
2018-03-18 13:05
471 查看
下方两幅图是最近爬取某保险网站和拉勾的招聘数据,大家随意感受一下
截图部分保险业务员微信二维码
截图部分拉勾网爬取信息
本文主要讲爬取某保险网站所有卖保险的人的微信号,个人网站,所在地区、所属保险公司等信息,代码已上传到QQ群(627714866)
开发环境:乌班图、pycharm、mysql、redis、mongodb爬虫技术:requests、redis加密对数据去重、xpath、os模块、保存csv、mysql、面向对象写法
废话不多说,直接上代码
利用hashlib对提取的名字信息生成哈希加密指纹,并利用redis的集合数据类型,保存加密字段,如果该加密字段能sadd保存到redis,则返回值是1,如果不能sadd保存,则返回值是0(作用:实现根据姓名字段判断到数据库是执行更新操作还是增加操作,也即增量含义)
11、启动程序遍历两个条件,公司名称和信用等级,只做示意,公司取两个,信息用等级取2个,next_url为初始URL
本文代码和一些python教程已经上传到QQ群(627714866),有兴趣的同学可以加群下载,本文只限于技术交流,请勿用于商业用途
python爬虫人工智能大数据公众号
本公众号长期提供各种免费视频学习资源,欢迎与作者相互探讨学习
公众号回复“资料”获取500GB相关视频教程,部分教程分类和截图如下:python、django 、flask、数据分析、爬虫、运维、大数据、量化金融、机器学习、深度学习、自然语言处理、人工智能、电子书0、python入门教程
1、Django教学网站项目实战视频,带xadmin后台和源码:
2、Flask项目实战视频和源码:
3、爬虫项目实战视频和源码:
4、数据分析项目实战和源码:
5、全部资料
截图部分保险业务员微信二维码
截图部分拉勾网爬取信息
本文主要讲爬取某保险网站所有卖保险的人的微信号,个人网站,所在地区、所属保险公司等信息,代码已上传到QQ群(627714866)
开发环境:乌班图、pycharm、mysql、redis、mongodb爬虫技术:requests、redis加密对数据去重、xpath、os模块、保存csv、mysql、面向对象写法
废话不多说,直接上代码
1、pymongo、pymysql、redis, hashlib用于对redis字段加密
2、创建一个类,并初始化数据(网站是post请求,需要带data)
headers、post请求数据、初始化csv文件、创建数据库连接对象(具体技术不明白的请查阅相关资料)3、最大重复请求3次,增加程序健壮性
4、获取数据列表
(具体提取方式请根据post请求URL查看前端代码)5、返回con_list列表、下一页URL和data数据
(注意:所有URL都一样,不一样的是传的data数据,主要还是构造data数据)
6、获取展业证号
因为展业证号对应的详情页有多种页面结构,所以需要根据页面中特有的信息做一些判断,选择合适的提取方式提取
7、构造增量式爬虫
利用hashlib对提取的名字信息生成哈希加密指纹,并利用redis的集合数据类型,保存加密字段,如果该加密字段能sadd保存到redis,则返回值是1,如果不能sadd保存,则返回值是0(作用:实现根据姓名字段判断到数据库是执行更新操作还是增加操作,也即增量含义)
8、保存mysql
根据res返回值,是1还是0,对应执行增加insert操作和更新update操作
同时分表存储,方式有点lowb,判断字段而已,9、保存mongodb
10、保存csv和构造保存二维码图片命名格式
11、启动程序遍历两个条件,公司名称和信用等级,只做示意,公司取两个,信息用等级取2个,next_url为初始URL
《500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享》
100%教会你python爬取微信好友性别比例和城市分布信息
100%教会你用python代码实现多线程并发死循环短信轰炸器
史上最全100本免费python编程书籍和python教程
10分钟100%教你用python代码实现车辆识别程序
后期爬取拉勾数据代码也已经实现,会继续更新本文代码和一些python教程已经上传到QQ群(627714866),有兴趣的同学可以加群下载,本文只限于技术交流,请勿用于商业用途
python爬虫人工智能大数据公众号
本公众号长期提供各种免费视频学习资源,欢迎与作者相互探讨学习
公众号回复“资料”获取500GB相关视频教程,部分教程分类和截图如下:python、django 、flask、数据分析、爬虫、运维、大数据、量化金融、机器学习、深度学习、自然语言处理、人工智能、电子书0、python入门教程
1、Django教学网站项目实战视频,带xadmin后台和源码:
2、Flask项目实战视频和源码:
3、爬虫项目实战视频和源码:
4、数据分析项目实战和源码:
5、全部资料
相关文章推荐
- 【Python】抓取拉勾网全国Python的招聘信息
- 拉勾网爬取的招聘数据解读--大数据分析师要掌握的工具与语言
- 使用Spark分析拉勾网招聘信息(二): 获取数据
- 使用Spark分析拉勾网招聘信息(二): 获取数据
- 数据开源 - Boss直聘、拉勾网岗位和招聘信息数据
- 拉勾网爬取全国python职位并数据分析薪资,工作经验,学历等信息
- 数据开源 - Boss直聘、拉勾网岗位和招聘信息数据
- 对拉勾网招聘信息做一次数据分析(上)--40行代码拿下所有数据
- 100%教会你python爬取微信好友男女性别比例和地区分布
- 拉勾网招聘数据分析
- python爬取拉勾网招聘信息并利用pandas做简单数据分析
- 获取拉勾网招聘信息数据
- 全国短信中心号码:
- C#实现微信AES-128-CBC加密数据的解密
- 目前最新全国行政区域JSON数据截止2015年9月30日
- 微信开发数据收发原理及消息数据格式
- Android程序之聚合数据全国天气预报查询API接口使用演示
- PHP聚合数据-全国车辆违章
- 如何实现100%的动态数据管道(三)
- 全国省份,城市,地区全数据(SQL版与XML版)包括各城市邮编