网络爬虫--之爬起校招信息代码
2013-08-23 16:16
190 查看
记得去年10月份那会儿,正是校招高峰期,北邮人和水木上的校招信息特别多,各种企业都在疯狂地刷屏。
于是每天我都要经常打开北邮人和水木的招聘信息版块,一页一页地筛选我所关注的公司和职位的校招信息,却仍然会漏掉一些重要的校招信息。
重复的事情做久了,就有了自动化的想法。
于是当时我写了一个小爬虫给自己用,选择爬取北邮人和水木的招聘信息版块,爬虫会根据自定义关键字(如“应届”、“校招”、“Google”)先对校招信息进行过滤,然后存储到本机redis中。本机若搭有lamp环境,那么直接从redis读取信息到web页面上即可。
这个小爬虫的目的,就是把各路校招信息聚合在一起并且过滤出自己感兴趣的校招信息如Google的校招、百度的校招等等。
此外,这个小玩意还帮了我大忙,13届阿里补招的时候让我在单位时间内看到了补招信息,火速投出简历并最终抓住了机会。
据我所知,后来投递的应届生简历都已经晚了。
天下武功,唯快不破。
这个小爬虫在我的机器上跑了快一年了,虽然对它挺有感情,但如今对我来说也没有什么用了。新的一轮校招快到了,我决定把它分享出来,有需要的童鞋直接拿去就可以用,有兴趣的同学也可以很容易地扩展它,满足自己的个性化需求。
初步介绍可以见博文
抓取北邮人论坛和水木社区校招信息的爬虫程序, 直接运行main.py即可在本机(http://127.0.0.1:8888)访问,非常简洁,可以扩展。
此外,已经增加手机短信通知功能,移动、联通、电信都可以用。
Talk is cheap, show you the code:https://github.com/lizherui/spider_python.
Enjoy it.
Talk is cheap, show you the code.
代码托管在github:https://github.com/lizherui/spider_python
下载地址:http://download.csdn.net/detail/gshengod/5999879
感谢@mmoonzhu的patch。
PS:已增加手机短信通知功能,利用了139邮箱短信通知的原理,移动联通电信都可以用。
Enjoy it.
于是每天我都要经常打开北邮人和水木的招聘信息版块,一页一页地筛选我所关注的公司和职位的校招信息,却仍然会漏掉一些重要的校招信息。
重复的事情做久了,就有了自动化的想法。
于是当时我写了一个小爬虫给自己用,选择爬取北邮人和水木的招聘信息版块,爬虫会根据自定义关键字(如“应届”、“校招”、“Google”)先对校招信息进行过滤,然后存储到本机redis中。本机若搭有lamp环境,那么直接从redis读取信息到web页面上即可。
这个小爬虫的目的,就是把各路校招信息聚合在一起并且过滤出自己感兴趣的校招信息如Google的校招、百度的校招等等。
此外,这个小玩意还帮了我大忙,13届阿里补招的时候让我在单位时间内看到了补招信息,火速投出简历并最终抓住了机会。
据我所知,后来投递的应届生简历都已经晚了。
天下武功,唯快不破。
这个小爬虫在我的机器上跑了快一年了,虽然对它挺有感情,但如今对我来说也没有什么用了。新的一轮校招快到了,我决定把它分享出来,有需要的童鞋直接拿去就可以用,有兴趣的同学也可以很容易地扩展它,满足自己的个性化需求。
初步介绍可以见博文
抓取北邮人论坛和水木社区校招信息的爬虫程序, 直接运行main.py即可在本机(http://127.0.0.1:8888)访问,非常简洁,可以扩展。
此外,已经增加手机短信通知功能,移动、联通、电信都可以用。
Talk is cheap, show you the code:https://github.com/lizherui/spider_python.
Enjoy it.
Talk is cheap, show you the code.
代码托管在github:https://github.com/lizherui/spider_python
下载地址:http://download.csdn.net/detail/gshengod/5999879
感谢@mmoonzhu的patch。
PS:已增加手机短信通知功能,利用了139邮箱短信通知的原理,移动联通电信都可以用。
Enjoy it.
相关文章推荐
- python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息,抓取政府网新闻内容
- java 网络爬虫jsoup 抓取全中国 省市县镇村 完整全集信息 代码
- python网络爬虫笔记之信息提取
- 网易页面的网络爬虫,获取网易页面的所有文本信息
- 使用网络爬虫爬取新浪二手房网站中的西安二手房信息
- Python新手写出漂亮的爬虫代码2——从json获取信息
- (一)表层网络信息获取(Python引擎爬虫)
- Python网络爬虫与信息提取 网络爬虫之规则
- Python 实现网络爬虫 抓取静态网页【代码】
- 网络爬虫讲解及java代码实现
- 在vb中使用Iphlpapi.dll获取网络信息 第四章 第一节 错误代码
- CrawlScript语言轻松实现网络爬虫——轻松爬取整站信息
- Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例
- python网络爬虫实战3——抓取新闻内文相关信息
- 从零实现一个高性能网络爬虫(一)网络请求分析及代码实现
- 网站商品信息爬虫代码及详细注释
- HTMLParser入门_02_网络爬虫的雏形_解析文章的主题和作者及关键字等信息
- Python爬虫——2017高校网络信息安全管理运维挑战赛:随机数
- java实现一个简单的网络爬虫代码示例
- java 网络爬虫页面信息