您的位置：首页 > 运维架构

hadoop

2015-06-02 11:56 381 查看

Hadoop是什么？

　　 Hadoop是一个基于Java开发的处理巨大数据量的平台.软件，能够分布式运行且复制数据，也可以在一个集群上运行多个进程，管理由用户创建的并行任务，可以处理非结构化数据半结构化数据和结构化数据，实现灵活的数据分析和机器学习，低成本且可扩展。

　　Hadoop为部署在低成本的硬件上设计。提供高吞吐量的应用数据访问，并且适合于拥有大数据集的应用程序使用。

　　MapReduce曾经是谷歌的秘密武器：是将复杂的问题分开并在多台计算机传播他们的一种方式。 Hadoop是MapReduce的一个开源实现，它有自己的文件系统HDFS（Hadoop分布式文件系统）。Hadoop集群排序1 TB的数据只花了209秒。

Hadoop有多个版本：

Apache Hadoop:

[b]Hadoop Common: [/b]通用包.
[b]HDFS: [/b]分布式文件系统
[b]MapReduce: [/b]核心

[b]Avro: [/b] 数据序列化系统
[b]Chukwa: [/b] 为管理大型分布式系统的数据收集
[b]HBase: [/b]可伸缩的分布式数据库
[b]Hive: [/b]数据仓库
[b]Mahout: [/b]机器学习和数据挖掘库包
[b]Pig: [/b]高层次的数据流脚本语言用于并行计算的执行框架。
[b]ZooKeeper: [/b]高性能的服务负载平衡器

Cloudera Hadoop:

　　Cloudera的分布为Apache的Hadoop（CDH）设置了基于Hadoop的数据管理平台的新标准。它是当今最全面的平台，能显著加快您在组织中部署Apache的Hadoop。

　　Hadoop可安装模式

独立模式：要在独立模式下部署Hadoop的，我们只需要设置J***A_HOME的路径。在这种模式下，不需要启动守护进程，不需要的节点名称格式因为数据保存在本地磁盘上。
伪分布式模式：在这种模式下，所有的守护进程（名称节点，数据节点，secondaryNameNode，JobTracker的，TaskTracker必须）在一台机器上运行。
分布式模式：守护进程 (nameNode, jobTracker, secondaryNameNode(Optionally)) 运行在主节点(名称节点NameNode) ，而其他守护(dataNode and taskTracker) 运行在从节点(DataNode).

　　本教程以简明扼要地方式介绍Hadoop原理，以及如何使用Hadoop

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航