您的位置:首页 > 移动开发 > 微信开发

100%教会爬取全国保险业务员微信号码和拉勾网招聘数据

2018-03-18 13:05 471 查看
下方两幅图是最近爬取某保险网站和拉勾的招聘数据,大家随意感受一下
截图部分保险业务员微信二维码


截图部分拉勾网爬取信息


本文主要讲爬取某保险网站所有卖保险的人的微信号,个人网站,所在地区、所属保险公司等信息,代码已上传到QQ群(627714866)
开发环境:乌班图、pycharm、mysql、redis、mongodb爬虫技术:requests、redis加密对数据去重、xpath、os模块、保存csv、mysql、面向对象写法
废话不多说,直接上代码

1、pymongo、pymysql、redis, hashlib用于对redis字段加密



2、创建一个类,并初始化数据(网站是post请求,需要带data)

headers、post请求数据、初始化csv文件、创建数据库连接对象(具体技术不明白的请查阅相关资料)




3、最大重复请求3次,增加程序健壮性




4、获取数据列表

(具体提取方式请根据post请求URL查看前端代码)





5、返回con_list列表、下一页URL和data数据

(注意:所有URL都一样,不一样的是传的data数据,主要还是构造data数据)




6、获取展业证号

因为展业证号对应的详情页有多种页面结构,所以需要根据页面中特有的信息做一些判断,选择合适的提取方式提取



7、构造增量式爬虫

利用hashlib对提取的名字信息生成哈希加密指纹,并利用redis的集合数据类型,保存加密字段,如果该加密字段能sadd保存到redis,则返回值是1,如果不能sadd保存,则返回值是0(作用:实现根据姓名字段判断到数据库是执行更新操作还是增加操作,也即增量含义)



8、保存mysql

根据res返回值,是1还是0,对应执行增加insert操作和更新update操作

同时分表存储,方式有点lowb,判断字段而已,





9、保存mongodb



10、保存csv和构造保存二维码图片命名格式



11、启动程序遍历两个条件,公司名称和信用等级,只做示意,公司取两个,信息用等级取2个,next_url为初始URL


《500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享》

100%教会你python爬取微信好友性别比例和城市分布信息

100%教会你用python代码实现多线程并发死循环短信轰炸器

史上最全100本免费python编程书籍和python教程

10分钟100%教你用python代码实现车辆识别程序

后期爬取拉勾数据代码也已经实现,会继续更新
本文代码和一些python教程已经上传到QQ群(627714866),有兴趣的同学可以加群下载,本文只限于技术交流,请勿用于商业用途


python爬虫人工智能大数据公众号


本公众号长期提供各种免费视频学习资源,欢迎与作者相互探讨学习                        
公众号回复“资料”获取500GB相关视频教程,部分教程分类和截图如下:python、django 、flask、数据分析、爬虫、运维、大数据、量化金融、机器学习、深度学习、自然语言处理、人工智能、电子书0、python入门教程


1、Django教学网站项目实战视频,带xadmin后台和源码:


2、Flask项目实战视频和源码:


3、爬虫项目实战视频和源码:


4、数据分析项目实战和源码:


5、全部资料

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息