spark和shark
2014-03-20 10:57
260 查看
配置了hadoop和hive进行测试,发现测试结果并不理想,听其他公司说使用spark可以提高计算速度。
安装spark比较顺利,按网上查到的安装就可以了。
shark的安装就麻烦多了,因为新出了0.9.0和0.9.1,网上查到的大部分都是0.7的安装方法,直接配置上就行了,0.9下下来一看只有1.5M,放上去报没有找到jar包,无法执行,查了半天,发现得自己编译,本地32位ubuntu,服务器64位redhat,服务器上不了网,本地如果装64位ubuntu又下不了ia32包,无法支持wps,只能在本地再安装一个redhat试一下了。安装redhat是后话,现在还没装,装的时候估计还得一堆问题。
在本地执行了sbt/sbt package,想编译一下试试,看能不能用,执行报错,java无法启动:
Error occurred during initialization of VM
Could not reserve enough space for object heap
Error: Could not create the Java Virtual Ma
c1bb
chine.
Error: A fatal exception has occurred. Program will exit.
上网查了半天也没找到,后来看了一下sbt文件夹下的sbt-launch-lib.bash,发现里面默认使用2048m启动java,本地32位系统,启动不了2048m内存的java,改为1024m再执行就可以了。
报错还在继续........
报错:
正克隆到 '/home/yangyong/.sbt/staging/90b1b0889ba1299e38f2'...
[error] Nonzero exit code (128): git clone git://github.com/ijuma/junit_xml_listener.git /home/yangyong/.sbt/staging/90b1b0889ba1299e38f2
[error] Use 'last' for the full log.
解决 :
报了一大堆连不上的错啊。估计跟公司的代理设置有关,将地址放到firefox上可以打开,命令行里就报错。直接下了个07的版本。
0.7 的测试结果不理想啊,小表还可以,三个大表关联跑了2个多小时直接溢出了,之前在hive上测试只用了不到700秒,看来还是内存太小了。
不是0.7的问题,重装了0.8也是一样跑得很慢,12和13两台slave的cpu和磁盘都没动静,后来发现shark的master没配置,所以shark只是自己启动了一个spark,没用集群,配置好了以后发现连不上master,将spark从0.9换回0.8后发现0.8的work又启动不了,总是报绑定hadoop11的0端口失败,后来发现是配置了local_ip,程序复制到12和13时这一项也在,去掉后就好了,没必要配置这个。
再次测试select count(*) t_contract_master发现只用了26秒,再次执行19秒,过了一会执行3秒,select count(*) from t_contract_product用了6秒,不知道是按什么规则缓存的。确实是快了很多啊。
表关联的速度还是一般,跟hive相差不大,仍在测试 。
安装spark比较顺利,按网上查到的安装就可以了。
shark的安装就麻烦多了,因为新出了0.9.0和0.9.1,网上查到的大部分都是0.7的安装方法,直接配置上就行了,0.9下下来一看只有1.5M,放上去报没有找到jar包,无法执行,查了半天,发现得自己编译,本地32位ubuntu,服务器64位redhat,服务器上不了网,本地如果装64位ubuntu又下不了ia32包,无法支持wps,只能在本地再安装一个redhat试一下了。安装redhat是后话,现在还没装,装的时候估计还得一堆问题。
在本地执行了sbt/sbt package,想编译一下试试,看能不能用,执行报错,java无法启动:
Error occurred during initialization of VM
Could not reserve enough space for object heap
Error: Could not create the Java Virtual Ma
c1bb
chine.
Error: A fatal exception has occurred. Program will exit.
上网查了半天也没找到,后来看了一下sbt文件夹下的sbt-launch-lib.bash,发现里面默认使用2048m启动java,本地32位系统,启动不了2048m内存的java,改为1024m再执行就可以了。
报错还在继续........
报错:
正克隆到 '/home/yangyong/.sbt/staging/90b1b0889ba1299e38f2'...
[error] Nonzero exit code (128): git clone git://github.com/ijuma/junit_xml_listener.git /home/yangyong/.sbt/staging/90b1b0889ba1299e38f2
[error] Use 'last' for the full log.
解决 :
git config --global url."https://".insteadOf git://
报了一大堆连不上的错啊。估计跟公司的代理设置有关,将地址放到firefox上可以打开,命令行里就报错。直接下了个07的版本。
0.7 的测试结果不理想啊,小表还可以,三个大表关联跑了2个多小时直接溢出了,之前在hive上测试只用了不到700秒,看来还是内存太小了。
测试进行中:
不是0.7的问题,重装了0.8也是一样跑得很慢,12和13两台slave的cpu和磁盘都没动静,后来发现shark的master没配置,所以shark只是自己启动了一个spark,没用集群,配置好了以后发现连不上master,将spark从0.9换回0.8后发现0.8的work又启动不了,总是报绑定hadoop11的0端口失败,后来发现是配置了local_ip,程序复制到12和13时这一项也在,去掉后就好了,没必要配置这个。
再次测试select count(*) t_contract_master发现只用了26秒,再次执行19秒,过了一会执行3秒,select count(*) from t_contract_product用了6秒,不知道是按什么规则缓存的。确实是快了很多啊。
表关联的速度还是一般,跟hive相差不大,仍在测试 。
相关文章推荐
- Ochadoop之shark、spark on yarn搭建[转自 AIMP平台wiki]
- hive,shark,sparkSQL,hive on spark,impala,drill比较
- 大数据开源框架之二:Berkeley Data Analytics Stack(tachyon, spark, shark, spark streaming)
- Shark Hive Spark Hadoop2 环境搭建
- Spark、Shark集群安装部署及遇到的问题解决
- 04大数据内存计算spark系列贴-SHARK(SQL on spark 0.x)
- Spark & Shark & Tachyon 简介
- Shark & Hive & Spark & Hadoop2 进行整合的测试。
- Spark & Shark & Tachyon 简介
- impala & shark/spark
- spark与shark的安装
- Hive-0.11.0+Spark-0.9.1+shark-0.9.1安装
- Spark, Shark, and RDDs
- 目前的一些技术(spark,shark,tachyon)
- 大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL
- Spark(三) -- Shark与SparkSQL
- Spark(三) -- Shark与SparkSQL
- Spark 0.9.1和Shark 0.9.1分布式安装指南
- Shark, Spark SQL, Hive on Spark, 以及SQL on Apache Spark的未来
- spark/shark 部署 (zz)