PY爬虫开发利器
2016-09-19 15:00
274 查看
一.模块
爬虫的主要模块是三个:请求、解析、储存。这里介绍一下我们项目常用的模块。
1. 请求
requests(第三方模块):Requests: HTTP for Humans
对HTTP协议进行高度封装的库,比系统自带的urllib系列的库好用很多。2、3兼容的库。
更多介绍:http://xlzd.me/2015/12/11/requests
2. 解析:
bs4(即beautifulsoup,第三方模块):https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
解析HTML的神器。比正则好用很多。2、3兼容的库。
3. 储存:
csv(系统模块):https://docs.python.org/2/library/csv.html
把数据写成csv格式。
pymongo(第三方模块):https://api.mongodb.com/python/current/
把数据写入MongoDB(https://www.mongodb.com/)
MySQL-python(第三方模块):https://pypi.python.org/pypi/MySQL-python/1.2.4
把数据写入MySQL里面。
4. 并发(主要是为了提高效率)
主要是三个:协程、线程、进程
(1)协程:gevent(第三方模块)http://www.gevent.org/
(2)线程:threading(系统模块)https://docs.python.org/2/library/threading.html
(3)进程:multiprocessing(系统模块)https://docs.python.org/2/library/multiprocessing.h
4000
tml
二.框架
爬虫的主要模块是三个:请求、解析、储存。这里介绍一下我们项目常用的模块。
1. 请求
requests(第三方模块):Requests: HTTP for Humans
对HTTP协议进行高度封装的库,比系统自带的urllib系列的库好用很多。2、3兼容的库。
更多介绍:http://xlzd.me/2015/12/11/requests
2. 解析:
bs4(即beautifulsoup,第三方模块):https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
解析HTML的神器。比正则好用很多。2、3兼容的库。
3. 储存:
csv(系统模块):https://docs.python.org/2/library/csv.html
把数据写成csv格式。
pymongo(第三方模块):https://api.mongodb.com/python/current/
把数据写入MongoDB(https://www.mongodb.com/)
MySQL-python(第三方模块):https://pypi.python.org/pypi/MySQL-python/1.2.4
把数据写入MySQL里面。
4. 并发(主要是为了提高效率)
主要是三个:协程、线程、进程
(1)协程:gevent(第三方模块)http://www.gevent.org/
(2)线程:threading(系统模块)https://docs.python.org/2/library/threading.html
(3)进程:multiprocessing(系统模块)https://docs.python.org/2/library/multiprocessing.h
4000
tml
二.框架
相关文章推荐
- 开发爬虫时所用到的页面元素分析利器Jsoup
- python_慕课\Python开发简单爬虫\5-3 Python爬虫urlib2实例代码.py
- Web开发利器:Ruby on Rails
- Linux的开发利器,Kylix
- 程序员眼中的2007:寻找软件开发利器
- 开发利器之单元测试
- 探讨微软团队开发利器VSTS之安装及部署篇
- 10位程序员眼中的2007:寻找软件开发利器
- js之WEB开发调试利器:Firebug 下载
- 10位程序员眼中的2007:寻找软件开发利器
- 使用VIM开发软件项目 - (10) 程序员的利器: cscope
- 程序开发文档生成利器
- Web开发利器——IEDevToolBar
- 10位程序员眼中的2007:寻找软件开发利器
- 程序员眼中的2007:寻找软件开发利器
- 嵌入式EasyHMI V0.1版终于推出,C#真是软件开发的利器
- 多层开发利器ASTA系列视频之一
- JSF开发利器FaceletsTools 1.0 for Dreamweaver 发布
- 《程序员》杂志试读:Web开发人员的利器:Ruby on Rails
- 探讨微软团队开发利器VSTS联合MS PROJECT协同开发