一种爬虫架构分享
2017-08-18 16:06
211 查看
这是舆情分析系统,一种泛提取的爬虫,主要是要爬取63个网站或搜索引擎的新闻。
爬虫系统主要是分为主动式调度系统和被动式调度系统。这个架构图是主动去拿种子。
还有一种是被动调用模式,自己不去爬,但是会被http接口触发来爬,比如查一个地方的房价,不是全网爬完再存数据库,而是不需要数据库,每次爬取都是实时的爬取并返回结果。
爬虫系统主要是分为主动式调度系统和被动式调度系统。这个架构图是主动去拿种子。
还有一种是被动调用模式,自己不去爬,但是会被http接口触发来爬,比如查一个地方的房价,不是全网爬完再存数据库,而是不需要数据库,每次爬取都是实时的爬取并返回结果。
相关文章推荐
- 一种Android客户端架构设计分享
- 一种分布式爬虫架构
- web架构设计经验分享
- OpenCL:一种异构计算架构(转)
- 一种较实用的用户架构
- 架构 Roadmap 笔记分享
- MYSQL企业常用架构与调优经验分享
- 老李分享:Web Services 架构 2
- 大恶人吉日嘎拉之走火入魔闭门造车之.NET疯狂架构经验分享系列之(十五)ASP.NET分页控件
- 一种更清晰的Android架构
- web架构设计经验分享 - 朱燚:-) - 博客园
- 请画出一个抓虫系统的架构图并说明你的爬虫需要如何优化来提升性能
- 一种更清晰的Android架构
- 《分布式架构设计》架构分享会
- 一种更清晰的Android架构
- 淘宝网架构分享总结
- 简单好用的nodejs 爬虫框架分享
- 一个爬虫分享网站
- 技术分享和交流-中小企业(SMB)如何设计IDC网络架构?如何管理运维资源和知识?
- 分享一种便利的短信方式 潇湘