您的位置：首页 > 大数据

大数据系列第六课：Spark集群环境搭建

2016-01-08 19:09 811 查看

第一阶段：Spark streaming、spark sql、kafka、spark内核原
理（必须有一个大型项目经验）；

第二阶段：spark运行的各种环境，各种故障的解决，性能优化（精通spark内核、运行原理）；

第三阶段：流处理、机器学习为鳌头，需要首先掌握前两个阶段的内容；

跟随王家林老师的零基础讲解，注重动手实战，成为spark高手，笑傲大数据之林！

第一部分：学习笔记

1 关于虚拟机与Linux

2 Hadoop集群的搭建和配置

3 Spark集群的搭建和配置

4，讨论与作业

（1）首先安装VMware Workstation12

（2）安装好Ubuntu14：Master和Worker

安装ssh（遇到如下问题）

1.一个彻底去掉这个提示的方法是，修改/etc/ssh/ssh_config文件（或$HOME/.ssh/config）中的配置，添加如下两行配置：

StrictHostKeyChecking no

UserKnownHostsFile /dev/null

修改/etc/ssh/sshd-config文件，将其中的PermitRootLogin no修改为yes，PubkeyAuthentication yes修改为no，AuthorizedKeysFile .ssh/authorized_keys前面加上#屏蔽掉，PasswordAuthentication no修改为yes就可以了。

2. apt-get install aptitude

aptitude install openssh-server

3.安装ssh无秘钥登录

（3）安装Java

Java -version后，显示Java版本

（4）安装Hadoop并运行Wordcount程序

（5）配置伪分布式

core-site.xml

Mapred-site.xml

Hdfa-site.xml

（7）安装Scala

（8）安装启动Spark

（9）测试Spark

（10）SparkPi

object SparkPi {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("Spark Pi")
val spark = new SparkContext(conf)
val slices = if (args.length > 0) args(0).toInt else 2
val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow
val count = spark.parallelize(1 until n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
println("Pi is roughly " + 4.0 * count /

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航