您的位置：首页 > 大数据 > Hadoop

pyspark 如何删除hdfs文件

2016-09-27 16:15 2101 查看

问题的背景：我想在每次跑集群的时候，先删除指定路径下之前hdfs跑的数据文件，但是spark又没有提供这样一个可以调用函数。

解决办法：你可以通过调用subprocess.call 执行任意的Linux Shell命令或者 sh library下面这个方法已经解决我的需求。

import subprocess

some_path = ...
subprocess.call(["hadoop", "fs", "-rm", "-f", some_path])

如果你用的是 Python 2.x ，你可以尝试

spotify/snakebite

: （下面一个方法我还没有测试成功）

from snakebite.client import Client

host = ...
port = ...
client = Client(host, port)
client.delete(some_path, recurse=True)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部