pyspark 如何删除hdfs文件
2016-09-27 16:15
2101 查看
问题的背景:我想在每次跑集群的时候,先删除指定路径下之前hdfs跑的数据文件,但是spark又没有提供这样一个可以调用函数。
解决办法:你可以通过调用subprocess.call 执行任意的Linux Shell命令 或者 sh library下面这个方法已经解决我的需求。
如果你用的是 Python 2.x ,你可以尝试
解决办法:你可以通过调用subprocess.call 执行任意的Linux Shell命令 或者 sh library下面这个方法已经解决我的需求。
import subprocess some_path = ... subprocess.call(["hadoop", "fs", "-rm", "-f", some_path])
如果你用的是 Python 2.x ,你可以尝试
spotify/snakebite: (下面一个方法我还没有测试成功)
from snakebite.client import Client host = ... port = ... client = Client(host, port) client.delete(some_path, recurse=True)
相关文章推荐
- Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (中)
- HDFS写文件过程分析
- HDFS Truncate文件截断
- HQL加载数据的几种方法小结
- Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上)
- 将hdfs上多个文本数据生成mllib的训练集测试集
- HDFS HA支持多Standby节点机制
- logstash-out-hdfs
- HDFS学习笔记
- 从hdfs读取文件存到hbase
- hadoop的HA实现,超详细(一)
- hadoop的HA实现,超详细
- hadoop hdfs dfsadmin 介绍
- hdfs 配额指南
- HDFS快照
- WebHdfs API使用和开放WebHdfs使用后权限控制
- HDFS简介
- flume sinke 至hdfs 收集的一些资料
- map/reduce之间的shuffle,partition,combiner过程的详解
- 实时计算实践(spark streaming+kafka+hdfs)