大数据处理点滴笔记
2013-06-23 21:24
302 查看
自我头脑风暴,说得对与错都请指点,后续补充。
当下三大技术热点:高并发、分布式、大数据(也许,还有很多,这只是自我修炼的三个目标)。
大数据处理系统有几点要求:
低延迟
高性能
分布式
可扩展(更多的要求是可横向扩展)
容错
现在用的比较多的就是Hadoop、Storm。
Hadoop
依赖于HDFS磁盘
延时较高(可精确到小时)
统计结果存在HBase
Storm
依赖于内存计算
延时较短(可以精确到10秒)
统计结果存在MySQL
数据收集,交给Kafka
kafka是LinkedIn开源的一款分布式的发布-订阅消息系统,它具有:
通过O(1)的磁盘结构持久化存储消息,即使TB级的数据也能保持长期稳定;
高吞吐率:即使非常普通的硬件,kafka也能支持每秒数十万的消息;
支持通过kafka服务器和消费集群来分区消息;
支持Hadoop并行加载;
storm参考:http://www.searchtb.com/2012/09/introduction-to-storm.html
当下三大技术热点:高并发、分布式、大数据(也许,还有很多,这只是自我修炼的三个目标)。
大数据处理系统有几点要求:
低延迟
高性能
分布式
可扩展(更多的要求是可横向扩展)
容错
现在用的比较多的就是Hadoop、Storm。
Hadoop
依赖于HDFS磁盘
延时较高(可精确到小时)
统计结果存在HBase
Storm
依赖于内存计算
延时较短(可以精确到10秒)
统计结果存在MySQL
数据收集,交给Kafka
kafka是LinkedIn开源的一款分布式的发布-订阅消息系统,它具有:
通过O(1)的磁盘结构持久化存储消息,即使TB级的数据也能保持长期稳定;
高吞吐率:即使非常普通的硬件,kafka也能支持每秒数十万的消息;
支持通过kafka服务器和消费集群来分区消息;
支持Hadoop并行加载;
storm参考:http://www.searchtb.com/2012/09/introduction-to-storm.html
相关文章推荐
- 深度学习笔记8 数据预处理
- 杂乱数据点滴笔记
- R语言实战笔记--第十五章 处理缺失数据
- 机器学习笔记:为什么要对数据进行归一化处理?
- SpringMVC:学习笔记(4)——处理模型数据
- C++学习笔记3 - 处理数据
- Data Analysis学习笔记 --- Python数据清洗处理时间数据
- Linux icmp 学习笔记 之二 icmp数据处理流程
- MyCat 学习笔记 第十二篇.数据分片 之 分片事务处理
- 黑马程序员之ADO.NET学习笔记:网络数据的事务处理
- Scrapy爬虫系列笔记之六:使用item以及对得到的数据进行存储以及处理_by_书訢
- [学习笔记]二进制数据的处理(1) 普通二进制数据处理 A -------保存到数据库
- MyGeneration学习笔记(8) :dOOdad提供的数据绑定、特殊函数和事务处理
- [Aaronyang] 写给自己的WPF4.5 笔记10[层次数据需求处理,TreeView绿色文章1/4]
- ZP的EXTJS学习笔记(三)——邮箱功能的开发(按钮事件、下拉框、分页、record小图标、整条数据格式处理、定时刷新、record复选删除、分组)
- Data Analysis学习笔记 --- Python数据清洗对字符串处理
- R语言实战笔记--第十五章 处理缺失数据
- (二)机器学习笔记之数据预处理
- SpringMVC 学习笔记(四) 处理模型数据
- 数据挖掘笔记-聚类-Canopy-并行处理分析