Python爬虫(二):整体设计
2016-05-09 22:47
543 查看
由前文Python爬虫(一):环境配置的方案选取可知,项目的核心是使用
![](https://oscdn.geek-share.com/Uploads/Images/Content/201908/30/825aa656d7442a1012c41049b46bdd69)
Task0为GUI进程,Task1~Task6为6个爬虫进程,每个进程负责下载和分析某个特定的网站,Task7为Task0的子线程,负责数据存储。各个进程间的数据通信采用进程安全的队列Queue,事件同步采用Event。
时序关系如下:
scrapy抓取感兴趣的内容,使用PyQt实时显示结果,所爬取的条目数量为10W数量级,访问频率在被网站可容忍的情况下尽可能的快。很明显,这里存在多任务并行,例如,多个爬之间属于并行任务,爬虫与GUI显示属于并行任务。使用python多进程模型应该是最基本的实现方式,数据流如下:
Task0为GUI进程,Task1~Task6为6个爬虫进程,每个进程负责下载和分析某个特定的网站,Task7为Task0的子线程,负责数据存储。各个进程间的数据通信采用进程安全的队列Queue,事件同步采用Event。
时序关系如下:
相关文章推荐
- zabbix实战调用短信接口报警
- Python:Python基础(二)
- ipython的安装
- 未解之谜:gb2312如何转到utf-8
- 统计字符串中的字符个数
- python for循环
- [Python]将Excel文件中数据导入MySQL
- Python requets 登录51cto家园
- python
- python之urllib2使用总结
- Python----文件操作
- python爬虫:案例二:携程网酒店价格信息
- python 字符串内建函数
- LintCode:在二叉查找树中插入节点
- 地铁译:Spark for python developers --- 搭建Spark虚拟环境2
- Python学习笔记(二)列表统计词频
- [Python] Spaceship游戏初步实现 Mini-project #7
- Python 迭代器
- python property
- python json json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes