Hadoop大数据平台构建
2016-01-15 11:03
288 查看
基础:linux常用命令、Java编程基础
大数据:科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等等。
Hadoop: 一个开源的分布式存储、分布式计算平台.(基于Apache)
Hadoop的组成:
HDFS:分布式文件系统,存储海量的数据。
MapReduce:并行处理框架,实现任务分解和调度。
Hadoop的用处:
搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。
比如搜索引擎、网页的数据处理,各种商业智能、风险评估、预警,还有一些日志的分析、数据挖掘的任务。
Hadoop优势:高扩展、低成本、成熟的生态圈(Hadoop Ecosystem Map)
Hadoop开源工具:
Hive:将SQL语句转换成一个hadoop任务去执行,降低了使用Hadoop的门槛。
HBase:存储结构化数据的分布式数据库,habase提供数据的随机读写和实时访问,实现 对表数据的读写功能。
zookeeper:就像动物管理员一样,监控hadoop集群里面每个节点的状态,管理整个集群 的配置,维护节点针之间数据的一次性等等。
hadoop的版本尽量选稳定版本,即较老版本。
===============================================
Hadoop的安装与配置:
1)在Linux中安装JDK,并设置环境变量
安装jdk: >> sudo apt-get install openjdk-7-jdk
设置环境变量:
>> vim /etc/profile
>> :wq
2)下载Hadoop,并设置Hadoop环境变量
下载hadoop解压缩:
>> cd /opt/hadoop-1.2.1/
>> ls
>> vim /etc/profile
>>:wq
3)修改4个配置文件
(a)修改hadoop-env.sh,设置JAVA_HOME
(b)修改core-site.xml,设置hadoop.tmp.dir, dfs.name.dir, fs.default.name
(c)修改mapred-site.xml, 设置mapred.job.tracker
(d)修改hdfs-site.xml,设置dfs.data.dir
>> cd conf
>> ls
>> vim mapred-site.xml
>> :wq
>> vim core-site.xml
第一部分
第二部分
>> :wq
>> vim hdfs-site.xml
>> :wq
>> vim hadoop-env.sh
>> :wq
# hadoop格式化
>> hadoop namenode -format
# hadoop启动
>> start-all.sh
# 通过jps命令查看当前运行进程
>> jps
看见以下进程即说明hadoop安装成功
相关文章推荐
- [DGMGRL]ORA错误解决(ORA-16829: fast-start failover configuration is lagging)
- 2016年 IT 趋势大预测!
- 行为树-学习笔记(5)-AI寻找玩家目标并攻击的实现
- 放弃iPad Pro并换回iPad Air 2 你是这样吗?
- Plain Old Data (POD)
- codeforces 616E - Sum of Remainders
- POJ1422 Air Raid 【DAG最小路径覆盖】
- HDU 1104 Remainder
- G面经prepare: Straight Partition of A Deck of Cards
- rails分段查询
- 条条大路通罗马- 数据分析的工具
- 身体的智能
- cloudsim模拟云计算
- 一维码:EAN-13码的识别
- Ibatis中的动态SQL:isNotNull,isPropertyAvailable,isNotEmpty用法
- RAID的原理和区别
- main函数参数
- hdfs工具类加注释
- 大数据(三) - YARN
- LeetCode_Climbing Stairs--爬楼梯