spark读取多个文件夹(嵌套)下的多个文件
2016-05-05 20:24
225 查看
在正常调用过程中,难免需要对多个文件夹下的多个文件进行读取,然而之前只是明确了spark具备读取多个文件的能力。
针对多个文件夹下的多个文件,以前的做法是先进行文件夹的遍历,然后再进行各个文件夹目录的读取。
今天在做测试的时候,居然发现spark原生就支持这样的能力。
原理也非常简单,就是textFile功能。编写这样的代码,读取上次输出的多个结果,由于RDD保存结果都是保存为一个文件夹。而多个相关联RDD的结果就是多个文件夹。
通过如下代码:
//## read all files(files in different directorys)
val alldata = sc.textFile("data/Flag/*/part-*")
println(alldata.count())
经过测试,可以实现对多个相关联RDD保存结果的一次性读取。
针对多个文件夹下的多个文件,以前的做法是先进行文件夹的遍历,然后再进行各个文件夹目录的读取。
今天在做测试的时候,居然发现spark原生就支持这样的能力。
原理也非常简单,就是textFile功能。编写这样的代码,读取上次输出的多个结果,由于RDD保存结果都是保存为一个文件夹。而多个相关联RDD的结果就是多个文件夹。
通过如下代码:
//## read all files(files in different directorys)
val alldata = sc.textFile("data/Flag/*/part-*")
println(alldata.count())
经过测试,可以实现对多个相关联RDD保存结果的一次性读取。
相关文章推荐
- 解决RecycleView Adapter使用notifyItemRemoved造成Position混乱的问题。
- JAVA 内存泄露详解(原因、例子及解决)
- 软件工程(一)
- iOS多线程的初步研究(八)-- dispatch队列
- Java并发编程的艺术(上)
- hdu 1003 最大子序列的和
- 从小工到专家阅读笔记01
- ZOJ2588 Burning Bridges
- Objective-C method及相关方法分析
- Linux-21-配置win客户端和linux服务端上传下载文件(L004-03)
- 学习进度表
- iOS多线程的初步研究(七)-- dispatch对象
- PowerDesigner 把Comment写到name中 和把name写到Comment中 pd7以后版本可用
- NYOJ 541 最强DE 战斗力
- @RequestMapping
- Libgdx 之List 列表类
- JAVA修饰符
- 最近公共祖先 LCA
- iOS多线程的初步研究(六)-- NSOperation
- 周记