Google每天处理20PB数据 37倍于三年前 ZT
2008-01-10 17:42
218 查看
Google的Jeff Dean和Sanjay Ghemawat近日披露,Google庞大的分布式计算集群现在平均每天都要处理20PB(20000TB)以上的数据,三大核心技术之一的MapReduce每天工作量超过10万个。
在2007年9月,MapReduce的工作量多达221.7万个,平均完成时间395秒,平均每个工作使用394台机器,一个月下来就要动用11081台服务器;当月每天Map输入数据403152TB,Map输出数据34774TB,Reduce输出数据14018TB,最终输出20756TB,也就是将近21PB。
Google还同时透露了2004年8月和2006年3月的MapReduce状态统计,对比之下更能看出Google的飞跃发展,单就处理数据量而言就是三年前的37倍。
![](http://news.mydrivers.com/img/20080110/12122731.png)
最后再看看Google集群节点的标准配置:双路Intel Xeon 2GHz超线程处理器、4GB内存、两块160GB IDE硬盘、千兆以太网。这种机器在企鹅计算或戴尔那里价值大约2400美元,在Verio等处的主机托管费用一个月要900美元左右。一个MapReduce工作的硬件集群运行成本高达100万美元,而且这还不包括带宽费用、数据中心开销、员工工资等。
附注:
MapReduce:Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算,“Map”(映射)和“Reduce”(简化)以及主要思想都是从函数式编程语言和矢量编程语言那里借来的。
Jeff Dean:天才架构师,Google大型并发编程框架MapReduce的作者。
Sanjay Ghemawat:Google基石之一、大规模分布式文件系统“Google FileSystem”(GFS)的主要作者,同时也是Google MapReduce以及Google BigTable的作者之一。
在2007年9月,MapReduce的工作量多达221.7万个,平均完成时间395秒,平均每个工作使用394台机器,一个月下来就要动用11081台服务器;当月每天Map输入数据403152TB,Map输出数据34774TB,Reduce输出数据14018TB,最终输出20756TB,也就是将近21PB。
Google还同时透露了2004年8月和2006年3月的MapReduce状态统计,对比之下更能看出Google的飞跃发展,单就处理数据量而言就是三年前的37倍。
![](http://news.mydrivers.com/img/20080110/12122731.png)
最后再看看Google集群节点的标准配置:双路Intel Xeon 2GHz超线程处理器、4GB内存、两块160GB IDE硬盘、千兆以太网。这种机器在企鹅计算或戴尔那里价值大约2400美元,在Verio等处的主机托管费用一个月要900美元左右。一个MapReduce工作的硬件集群运行成本高达100万美元,而且这还不包括带宽费用、数据中心开销、员工工资等。
附注:
MapReduce:Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算,“Map”(映射)和“Reduce”(简化)以及主要思想都是从函数式编程语言和矢量编程语言那里借来的。
Jeff Dean:天才架构师,Google大型并发编程框架MapReduce的作者。
Sanjay Ghemawat:Google基石之一、大规模分布式文件系统“Google FileSystem”(GFS)的主要作者,同时也是Google MapReduce以及Google BigTable的作者之一。
相关文章推荐
- Google 每天处理约 20000TB 的数据
- Google 每天处理约 20000TB 的数据
- Google 每天处理约 20000TB 的数据
- Google 每天处理约 20000TB 的数据
- iOS中NSJSONSerialization解析JSON数据暨google地理信息处理案例
- 利用SQL 2005 CTE处理树型数据(ZT)
- TensorFlow:实战Google深度学习框架(六)图像数据处理
- GOOGLE Gadgets 处理远程内容,如何提取和控制远程文本(通常为 HTML)、XML、JSON 和 RSS/Atom 供稿数据。
- Facebook大数据:每天处理逾25亿条内容和500TB数据
- Android 使用google-gson处理json格式数据
- PostgreSQL 如何潇洒的处理每天上百TB的数据增量
- 如何在SQLServer中处理每天四亿三千万记录的(数据库大数据处理)
- 【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。
- 如何使用Google APIs和Google应用系统集成(7)----在里面JSON兑换XML数据处理,JSON数据包括违规XML数据规范:XML节点名称不支持号码Java解
- Apache Beam: Google一统大数据处理的野心?
- 揭秘 IFTTT 每天处理几十亿事件数据的基础结构
- 【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。
- 每天TB级数据处理,携程大数据高并发应用架构涅槃
- Google处理1TB数据只需68秒1PB六个小时
- 如何在SQLServer中处理每天四亿三千万记录的(数据库大数据处理)