您的位置：首页 > 大数据

大数据处理点滴笔记

2013-06-23 21:24 302 查看

自我头脑风暴，说得对与错都请指点，后续补充。

当下三大技术热点：高并发、分布式、大数据（也许，还有很多，这只是自我修炼的三个目标）。

大数据处理系统有几点要求：

低延迟
高性能
分布式
可扩展（更多的要求是可横向扩展）
容错

现在用的比较多的就是Hadoop、Storm。

Hadoop

依赖于HDFS磁盘
延时较高（可精确到小时）
统计结果存在HBase

Storm

依赖于内存计算
延时较短（可以精确到10秒）
统计结果存在MySQL

数据收集，交给Kafka

kafka是LinkedIn开源的一款分布式的发布-订阅消息系统，它具有：

通过O(1)的磁盘结构持久化存储消息，即使TB级的数据也能保持长期稳定；
高吞吐率：即使非常普通的硬件，kafka也能支持每秒数十万的消息；
支持通过kafka服务器和消费集群来分区消息；
支持Hadoop并行加载；

storm参考：http://www.searchtb.com/2012/09/introduction-to-storm.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航