Hadoop-2.2.0搭建Spark-1.3.1
2015-06-10 18:01
260 查看
感谢分享:http://itindex.net/detail/53456-spark-1.3.1-hiveHadoop版本:2.2.0JDK版本:1.7.0_15MAVEN版本:3.3.3Scala版本:2.10.5Spark版本:1.3.1Hive版本:0.11.0一:Maven编译Spark1. 切换到根目录:cd ~2. 设置Maven运行时内存大小:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"3. 使用mvn命令编译Spark:mvn -Pyarn -Dyarn.version=2.2.0 -Phadoop-2.2 -Dhadoop.version=2.2.0 -Phive -Phive-0.11.0 -Phive-thriftserver-DskipTests clean package3-1.编译构建完成以后,可以看到如下内容:
/opt/spark-1.3.1/assembly/target/scala-2.10/spark-assembly-1.3.1-hadoop2.2.0.jar /opt/spark-1.3.1/lib_managed/*.jar
二:编辑 ~/.bash_profile文件
1. 增加SPARK_HOME环境变量
2. 配置完成后使用source命令使配置生效
三:hive-site.xml这个配置文件放到spark的conf中
四:配置Spark
进入Spark目录中的conf目录
1. 在slave文件中添加slave节点
1-1. 复制生成slaves:cp slaves.template slaves
1-2. 编辑slaves添加slave节点:vi slaves
2. 配置spark-env.sh
2-1. 复制生成spark-env.sh:cp spark-env.sh.template spark-env.sh
2-2. 配置spark-env.sh3. 启动spark分布式集群和查看3-1. sbin目录下运行./start-all.sh3-2. 在Master中输入jps,可以看到Worker和Master两个进程在Slave中输入jps,可以看到Worker五:启动spark-sql,运行SQL语句进入bin目录,运行./spark-sql进入SQL命令错误提示1:org.datanucleus.store.rdbms.datasource.DatastoreDriverNotFoundException:The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.Please check your CLASSPATH specification, and the name of the driver.解决办法:mysql驱动加载到classpath中运行时指定mysql驱动:./spark-sql --driver-class-path /opt/spark-1.3.1/mysql-connector-java-5.1.25.jar或者在~/.bash_profile指定:SPARK_CLASSPATH=/opt/spark-1.3.1/lib/mysql-connector-java-5.1.25.jar错误提示2:java.lang.OutOfMemoryError:GC overhead limit exceeded错误原因:之前的hadoop中hdfs的数据文件丢失了,会有这个错误
相关文章推荐
- linux无法连接wifi,不显示wifi
- Linux系统编程——多线程实现多任务
- Linux文件系统
- iOS开发常用国外网站
- Linux 系统目录结构
- 让linux支持qq手机音乐播放
- linux文件目录操作
- nginx+keepalived实现双机热备高可用性
- Java Web网站应用中的单点登录
- centos7设置rc.local文件使用
- Hadoop中自定义计数器
- PAT 1066【AVL 建树与维护】
- Hadoop中Map-Reduce处理逻辑理解(转)
- property和constructor-arg的使用
- Linux 中如何查询和卸载已安装的软件
- 第3讲(网站模板的搭建与配置)
- Apache2.4的简介和安装
- Nginx RTMP 功能研究
- 工作中接触的linux命令记录
- Linux下搭建maven服务器nexus