Spark简介及安装注意事项
2011-11-14 23:50
260 查看
Spark是Berkeley AMP实验室研究的最新成果。它是一个基于内存有容错性能的通用的集群计算框架。它的主要目的是用来处理iterative算法(机器学习)和iteractive查询(数据挖掘的一些工具)。
这两种应用场景的共同点是对一个基本不变的数据集会重复访问。而mapreduce对这样的算法的处理性能比较一般。
Spark的具体原理不在这里讲述,有兴趣的朋友可以去http://www.spark-project.org/进行进一步的了解。
下面主要介绍下安装过程(Linux平台)中需要注意的几个问题:
1. Spark安装过程需要用Git。但是在墙内还需要对Git进行代理设置,具体的设置方法请参见:/article/4008803.html
2. 如果想用分布式文件系统HDFS(配置HDFS),那么可能遇到如下问题:
2.1 在访问hdfs文件是抛出异常:“Exception in thread "main" java.io.IOException: Call to localhost/127.0.0.1:9000 failed on local exception: java.io.EOFException”
此问题由于客户端(spark)的hadoop版本与服务器端的hadoop版本不一致,此时你可以把服务器端的hadoop-core-xxxx.jar拷贝到spark目录下得lib_managed/jars/org.apache.hadoop/hadoop-core/文件夹下,并把文件命名成该文件夹原来的hadoop包得名字(不改名字得话,重新编译时不会用拷贝过来的jar包,会重新下载一个),然后重新assembly生成spark-core-xxxxx.jar文件。
2.2 如果在2.1操作后仍然出现问题:
java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
hadoop .NoClassDefFoundError: org/apache/commons/lang/StringUtils org/apache/commons/lang/StringUtils
此时就是缺少一些依赖包,我们可以从服务器端的hadoop下的lib文件夹中把commons-configuration-1.6.jar 和 commons-lang-2.4.jar拷贝spark-core-xxxxx.jar所在的目录即可。
然后把这些包加入CLASSPATH即可。
2.3 关于CLASSPATH的设置问题
经过我的尝试,在系统环境变量CLASSPATH设置没起任何作用。希望有可以的朋友分享一下经验。
现在我是这样做的,利用scala 语言本身功能设置classpath,即 scala -cp <path>。但是目前似乎只能带一个jar包。于是需要把先前的三个jar包打成一个包。
具体打包可以在windows下利用winrar完成:首先把三个包解压到统一个文件夹下,解压过程中可能会产生一些冲突,不过不要紧,有冲突的都是些MANIFEST.MF, LICENSE, NOTICE等文件。最后把解压出来的内容重新打成一个包即可。注意选择zip格式。
以上是自己安装过程遇到的问题的总结,希望对大家有帮助~~
这两种应用场景的共同点是对一个基本不变的数据集会重复访问。而mapreduce对这样的算法的处理性能比较一般。
Spark的具体原理不在这里讲述,有兴趣的朋友可以去http://www.spark-project.org/进行进一步的了解。
下面主要介绍下安装过程(Linux平台)中需要注意的几个问题:
1. Spark安装过程需要用Git。但是在墙内还需要对Git进行代理设置,具体的设置方法请参见:/article/4008803.html
2. 如果想用分布式文件系统HDFS(配置HDFS),那么可能遇到如下问题:
2.1 在访问hdfs文件是抛出异常:“Exception in thread "main" java.io.IOException: Call to localhost/127.0.0.1:9000 failed on local exception: java.io.EOFException”
此问题由于客户端(spark)的hadoop版本与服务器端的hadoop版本不一致,此时你可以把服务器端的hadoop-core-xxxx.jar拷贝到spark目录下得lib_managed/jars/org.apache.hadoop/hadoop-core/文件夹下,并把文件命名成该文件夹原来的hadoop包得名字(不改名字得话,重新编译时不会用拷贝过来的jar包,会重新下载一个),然后重新assembly生成spark-core-xxxxx.jar文件。
2.2 如果在2.1操作后仍然出现问题:
java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
hadoop .NoClassDefFoundError: org/apache/commons/lang/StringUtils org/apache/commons/lang/StringUtils
此时就是缺少一些依赖包,我们可以从服务器端的hadoop下的lib文件夹中把commons-configuration-1.6.jar 和 commons-lang-2.4.jar拷贝spark-core-xxxxx.jar所在的目录即可。
然后把这些包加入CLASSPATH即可。
2.3 关于CLASSPATH的设置问题
经过我的尝试,在系统环境变量CLASSPATH设置没起任何作用。希望有可以的朋友分享一下经验。
现在我是这样做的,利用scala 语言本身功能设置classpath,即 scala -cp <path>。但是目前似乎只能带一个jar包。于是需要把先前的三个jar包打成一个包。
具体打包可以在windows下利用winrar完成:首先把三个包解压到统一个文件夹下,解压过程中可能会产生一些冲突,不过不要紧,有冲突的都是些MANIFEST.MF, LICENSE, NOTICE等文件。最后把解压出来的内容重新打成一个包即可。注意选择zip格式。
以上是自己安装过程遇到的问题的总结,希望对大家有帮助~~
相关文章推荐
- hadoop+spark 安装注意事项,资料及安装大礼包
- Eclipse插件开发简介及插件安装注意事项
- Java简介、安装及一些注意事项
- elasticsearch安装需要注意的事项
- 安装Joomla的注意事项
- 如何安装win7系统及WIN7系统安装的注意事项
- jdk安装注意事项
- 安装eclipse部分注意事项
- 关于centos7安装oracle12C注意事项
- AUSU 安装Win10注意事项
- Linux(Centos)之安装Redis及注意事项
- Jetson TX2刷机及安装tensorflow gpu注意事项
- 硬Raid系统安装注意事项
- 005.EB插件安装注意事项
- Windows Server 2016-安装AD域服务注意事项
- Ubuntu16.04 部署安装Docker容器 & 注意事项
- Cisco works安装注意事项
- Linux(Centos)之安装Redis及注意事项
- Codeblocks 在Linux下安装注意事项
- Dell台式机安装Ubuntu 16.04注意事项( Alienware R6)