您的位置：首页 > 运维架构

Hadoop 和 spark 读取多个文件通配符规则（正则表达式）joe

2017-07-09 14:22 281 查看

最近在公司需要计算手机信令数据但是每次spark读取文件的时候都是把当天24小时从头到尾读取一遍非常耗时，在一步操作中处理批量文件，这个要求很常见。举例来说，处理日志的MapReduce作业可能会分析一个月的文件，这些文件被包含在大量目录中。Hadoop有一个通配的操作，可以方便地使用通配符在一个表达式中核对多个文件，不需要列举每个文件和目录来指定输入如下图所示：

点击打开链接

例如我想读取 hdfs://master:9000/population/unicom_phone/pekin/20150701/02

和hdfs://master:9000/population/unicom_phone/pekin/20150701/03的文件

也就是我想读20150701 下的02 和03文件通过通配符可以写成如下：

hdfs://master:9000/population/unicom_phone/pekin/20150701/0[2-3]

再次执行计算速度快了四倍。

Fei joe

点击打开链接

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航