您的位置:首页 > 其它

PY爬虫开发利器

2016-09-19 15:00 274 查看
一.模块

爬虫的主要模块是三个:请求、解析、储存。这里介绍一下我们项目常用的模块。

1. 请求

requests(第三方模块):Requests: HTTP for Humans

对HTTP协议进行高度封装的库,比系统自带的urllib系列的库好用很多。2、3兼容的库。

更多介绍:http://xlzd.me/2015/12/11/requests

2. 解析:

bs4(即beautifulsoup,第三方模块):https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

解析HTML的神器。比正则好用很多。2、3兼容的库。

3. 储存:

csv(系统模块):https://docs.python.org/2/library/csv.html

把数据写成csv格式。

pymongo(第三方模块):https://api.mongodb.com/python/current/

把数据写入MongoDB(https://www.mongodb.com/

MySQL-python(第三方模块):https://pypi.python.org/pypi/MySQL-python/1.2.4

把数据写入MySQL里面。

4. 并发(主要是为了提高效率)

主要是三个:协程、线程、进程

(1)协程:gevent(第三方模块)http://www.gevent.org/

(2)线程:threading(系统模块)https://docs.python.org/2/library/threading.html

(3)进程:multiprocessing(系统模块)https://docs.python.org/2/library/multiprocessing.h
4000
tml

二.框架
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: