Google 每天处理约 20000TB 的数据
2008-11-24 12:12
162 查看
Google 热衷于处理全球的信息,每天,他们花费大量时间探索更好的信息整理技术,他们目前使用的技术为 MapReduce,这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力,MapReduce 是 Google 日常数据处理的完美技术方案。
![](http://img.cnbeta.com/newsimg/081124/07272901188885286.jpg)
Google 的数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣,并获得经验和教训,以改进下一代数据处理技术。
目前,Google 的每 TB 数据处理能力为,在1000台计算机中处理 1TB 数据的时间为68秒(使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中),以前的表现为 910 台电脑 209秒。
但 Google 要处理的数据远超过 TB 级,因此,Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍,或者,形象一点说,1PB 数据相当于 2008 年5月,美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示,Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。
有一个有趣的问题,就是,如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中(每个只利用了部分空间),每次进行数据整理,至少有一个硬盘坏掉(鉴于处理的时长,硬盘的数目和硬盘本身的寿命,这并不奇怪),因此,为了保证数据安全,Google 将每份数据都在不同的硬盘上写三份。
本文国际来源:http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html
![](http://img.cnbeta.com/newsimg/081124/07272901188885286.jpg)
Google 的数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣,并获得经验和教训,以改进下一代数据处理技术。
目前,Google 的每 TB 数据处理能力为,在1000台计算机中处理 1TB 数据的时间为68秒(使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中),以前的表现为 910 台电脑 209秒。
但 Google 要处理的数据远超过 TB 级,因此,Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍,或者,形象一点说,1PB 数据相当于 2008 年5月,美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示,Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。
有一个有趣的问题,就是,如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中(每个只利用了部分空间),每次进行数据整理,至少有一个硬盘坏掉(鉴于处理的时长,硬盘的数目和硬盘本身的寿命,这并不奇怪),因此,为了保证数据安全,Google 将每份数据都在不同的硬盘上写三份。
本文国际来源:http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html
相关文章推荐
- Google 每天处理约 20000TB 的数据
- Google 每天处理约 20000TB 的数据
- Google 每天处理约 20000TB 的数据
- Google每天处理20PB数据 37倍于三年前 ZT
- Google处理1TB数据只需68秒1PB六个小时
- 每天进步一点点------入门视频采集与处理(显示YUV数据)
- 如何在SQLServer中处理每天四亿三千万记录的(数据库大数据处理)
- 每天TB级数据处理,携程大数据高并发应用架构涅槃
- 如何在SQLServer中处理每天四亿三千万记录的(数据库大数据处理)
- iOS中NSJSONSerialization解析JSON数据暨google地理信息处理案例
- 【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。
- PostgreSQL 如何潇洒的处理每天上百TB的数据增量
- TensorFlow:实战Google深度学习框架(六)图像数据处理
- 【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。
- 如何使用Google APIs和Google应用系统集成(7)----在里面JSON兑换XML数据处理,JSON数据包括违规XML数据规范:XML节点名称不支持号码Java解
- 揭秘 IFTTT 每天处理几十亿事件数据的基础结构
- GOOGLE Gadgets 处理远程内容,如何提取和控制远程文本(通常为 HTML)、XML、JSON 和 RSS/Atom 供稿数据。
- Android 使用google-gson处理json格式数据
- 如何在SQLServer中处理每天四亿三千万记录的(数据库大数据处理)
- Facebook大数据:每天处理逾25亿条内容和500TB数据