您的位置:首页 > 其它

Spark 本地模式运行 磁盘空间不足

2016-12-03 11:03 1226 查看
之前做Kaggle上面的广告预测时,由于数据量过大(80多G),所以这里我就使用了Spark来进行数据的预处理,主要是数据的Join操作。Join操作会产生大量的中间结果,因为实在Windows上面来运行的Spark,它默认是把数据放在了c盘下面,但是,产生的中间数据有100多G,所以c盘根本放不下这些数据。

解决方法

首先,你得确保有一个磁盘可以放下这些数据,然后设置 “spark.local.dir”参数,设置它的位置

sparkConf.set("spark.local.dir","S:\\Data")


运行时间可能会很长。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: