您的位置：首页 > 编程语言 > Python开发

Hadoop运行python作业时的依赖于其他库的问题

2011-07-18 17:31 351 查看

用hadoop streaming可以运行python写的map-reduce作业。但是如果map/reduce依赖于其他库呢？比如，map中依赖于我们自己写的一个库：hadoop_lib.py中的某些方法。这时在运行streaming作业的时候，如果还是像原来一样的命令行，就会出现”Broken Pipe”之类的异常。解决方法就是加上-file参数，并加上依赖的库文件。如果有多个依赖的文件，可以用多次-file参数，或者用-files。这样实际上hadoop是把文件放入它的分布式缓存中，然后在执行task的目录创建一个到实际文件的链接。
而在map.py/reduce.py中，我们直接导入即可：
importhadoop_lib

这个依赖库默认是和map/reduce程序在同一路径下。这对于开发可不太好，总不能把lib里的东西都放到特定作业的目录里来吧。我们可以这么做：
先创建lib的目录，比如/hadoop/lib，并把hadoop_lib.py库文件放到这个目录中。
然后在map.py/reduce.py中加上：
importsys;
sys.path.append(‘/hadoop/lib’);
importhadoop_lib

这时，如果程序是在本地测试，因为/hadoop/lib已经加入到path中，程序能够正确地找到库文件。而如果是在运行task的远程节点上，由于库文件和map/reduce是在同一目录，它仍能正确地找到，只不过sys.path.append这一行没有用罢了。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航