您的位置:首页 > 编程语言 > Python开发

[hadoop+spark+python]大数据实战随手笔记

2017-08-08 14:44 253 查看
1.提交任务

指令(我配置了spark-submit的环境变量)

spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10  fielname


逐条解释如下:

(1)–class org.apache.spark.examples.SparkPi

设置运行的环境,java或者yarn

(2)–master spark://192.168.12.233:7077

设置spark服务的地址,格式为 spark:// +

(3)–executor-memory 10G

分配内存,这个属性每个worker都会分配10G,根据实际情况分配

(4)–total-executor-cores 10

分配运行cpu核数,不超过总核数即可

(5)fielname

要运行的文件,相对路径或者绝对路径都可以,如果是python文件一定要能在命令行环境运行,requirment和包环境都要满足才行,我一般是把项目打包写好setup.py先编译一遍在运行主程序
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐