您的位置:首页 > 运维架构

hadoop

2015-06-02 11:56 381 查看


Hadoop是什么?

   Hadoop是一个基于Java开发的处理巨大数据量的平台.软件, 能够分布式运行且复制数据,也可以在一个集群上运行多个进程,管理由用户创建的并行任务,可以处理非结构化数据 半结构化数据和结构化数据,实现灵活的数据分析和机器学习,低成本且可扩展。

  Hadoop为部署在低成本的硬件上设计。提供高吞吐量的应用数据访问,并且适合于拥有大数据集的应用程序使用。

  MapReduce曾经是谷歌的秘密武器:是将复杂的问题分开并在多台计算机传播他们的一种方式。 Hadoop是MapReduce的一个开源实现,它有自己的文件系统HDFS(Hadoop分布式文件系统)。Hadoop集群排序1 TB的数据只花了209秒。

Hadoop有多个版本:

Apache Hadoop:

[b]Hadoop Common: [/b]通用包.
[b]HDFS: [/b]分布式文件系统
[b]MapReduce: [/b]核心

[b]Avro: [/b] 数据序列化系统
[b]Chukwa: [/b] 为管理大型分布式系统的数据收集
[b]HBase: [/b]可伸缩的分布式数据库
[b]Hive: [/b]数据仓库
[b]Mahout: [/b]机器学习和数据挖掘库包
[b]Pig: [/b]高层次的数据流脚本语言 用于并行计算的执行框架。
[b]ZooKeeper: [/b]高性能的服务负载平衡器

Cloudera Hadoop:

  Cloudera的分布为Apache的Hadoop(CDH)设置了基于Hadoop的数据管理平台的新标准。它是当今最全面的平台,能显著加快您在组织中部署Apache的Hadoop。

  Hadoop可安装模式

独立模式:要在独立模式下部署Hadoop的,我们只需要设置J***A_HOME的路径。在这种模式下,不需要启动守护进程,不需要的节点名称格式因为数据保存在本地磁盘上。
伪分布式模式:在这种模式下,所有的守护进程(名称节点,数据节点,secondaryNameNode,JobTracker的,TaskTracker必须)在一台机器上运行。
分布式模式:守护进程 (nameNode, jobTracker, secondaryNameNode(Optionally)) 运行在主节点(名称节点NameNode) ,而其他守护(dataNode and taskTracker) 运行在从节点(DataNode).

  本教程以简明扼要地方式介绍Hadoop原理,以及如何使用Hadoop
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: