Spark 本地模式运行 磁盘空间不足
2016-12-03 11:03
1226 查看
之前做Kaggle上面的广告预测时,由于数据量过大(80多G),所以这里我就使用了Spark来进行数据的预处理,主要是数据的Join操作。Join操作会产生大量的中间结果,因为实在Windows上面来运行的Spark,它默认是把数据放在了c盘下面,但是,产生的中间数据有100多G,所以c盘根本放不下这些数据。
运行时间可能会很长。
解决方法
首先,你得确保有一个磁盘可以放下这些数据,然后设置 “spark.local.dir”参数,设置它的位置sparkConf.set("spark.local.dir","S:\\Data")
运行时间可能会很长。
相关文章推荐
- centos上PHP5.3升级到PHP5.4及更高版本方法
- 预备作业02 20162312 张家铖
- 基于RN开发的一款视频配音APP(开源)
- 网络图片查看器
- Linux中Oracle服务启动和停止脚本与开机自启动
- 【H264】x264头文件结构体详解
- 计算程序耗时
- 关于二维码。
- ass字幕转换成文本文件
- pthread_struct
- POJ 1065 Wooden Sticks 笔记
- Java多线程入门(一)
- 我的Unity(2)一点一滴 鼠标拖动物体,物体在三维中移动到该位置。
- 自连接和视图
- UiAutomator自动打开关闭wifi
- js数组去重的方法
- Java设计模式之二——策略模式
- 背包九讲
- 小技巧-eclipse如何修改默认工作空间位置
- 20145233 20145228《信息安全系统设计基础》第五次实验报告