hadoop
2015-06-02 11:56
381 查看
Hadoop是什么?
Hadoop是一个基于Java开发的处理巨大数据量的平台.软件, 能够分布式运行且复制数据,也可以在一个集群上运行多个进程,管理由用户创建的并行任务,可以处理非结构化数据 半结构化数据和结构化数据,实现灵活的数据分析和机器学习,低成本且可扩展。Hadoop为部署在低成本的硬件上设计。提供高吞吐量的应用数据访问,并且适合于拥有大数据集的应用程序使用。
MapReduce曾经是谷歌的秘密武器:是将复杂的问题分开并在多台计算机传播他们的一种方式。 Hadoop是MapReduce的一个开源实现,它有自己的文件系统HDFS(Hadoop分布式文件系统)。Hadoop集群排序1 TB的数据只花了209秒。
Hadoop有多个版本:
Apache Hadoop:
[b]Hadoop Common: [/b]通用包.
[b]HDFS: [/b]分布式文件系统
[b]MapReduce: [/b]核心
[b]Avro: [/b] 数据序列化系统
[b]Chukwa: [/b] 为管理大型分布式系统的数据收集
[b]HBase: [/b]可伸缩的分布式数据库
[b]Hive: [/b]数据仓库
[b]Mahout: [/b]机器学习和数据挖掘库包
[b]Pig: [/b]高层次的数据流脚本语言 用于并行计算的执行框架。
[b]ZooKeeper: [/b]高性能的服务负载平衡器
Cloudera Hadoop:
Cloudera的分布为Apache的Hadoop(CDH)设置了基于Hadoop的数据管理平台的新标准。它是当今最全面的平台,能显著加快您在组织中部署Apache的Hadoop。
Hadoop可安装模式
独立模式:要在独立模式下部署Hadoop的,我们只需要设置J***A_HOME的路径。在这种模式下,不需要启动守护进程,不需要的节点名称格式因为数据保存在本地磁盘上。
伪分布式模式:在这种模式下,所有的守护进程(名称节点,数据节点,secondaryNameNode,JobTracker的,TaskTracker必须)在一台机器上运行。
分布式模式:守护进程 (nameNode, jobTracker, secondaryNameNode(Optionally)) 运行在主节点(名称节点NameNode) ,而其他守护(dataNode and taskTracker) 运行在从节点(DataNode).
本教程以简明扼要地方式介绍Hadoop原理,以及如何使用Hadoop
相关文章推荐
- Linux系统编程——进程间通信:管道(pipe)
- PowerShell实现动态获取当前脚本运行时消耗的内存
- PowerShell Continue语句使用示例
- 解析properties文件
- PowerShell实现按条件终止管道的方法
- docker_work_with_images
- docker_work_with_container
- tomcat7可能带来的问题
- Powershell互斥参数使用实例
- docker_run_application
- CentOS 搭建hadhoop单机模式
- PowerShell实现统计函数嵌套深度
- IE11之F12 Developer Tools--概述篇
- GRE Argument 范文Topic 55
- 【运维】SaltStack 初探
- shell 脚本变量赋值
- Linux下libsvm的安装及简单练习
- Shell中的while循环
- operator==( )与forward_list
- GRE Argument 范文 Topic 75