DPark安装及相关资料整理
2013-06-18 14:34
204 查看
最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。
不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。
这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。
1. DPark一句话简介:
DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆。
2. python2.6下DPark安装:
DPark使用easy_install进行安装,我这边没有setuptools,因此安装下:
问题继续出现,如下:
error: Couldn't find a setup script in /tmp/easy_install-riZxUs/protobuf-2.5.0.zip
坑爹,查了很久才在protobuf的google code中的issue 66中发现了如下说明:
#52 gregory....@gmail.com
配置了easy_install的下载域名:
之前的错误消失了,个人推测是之前默认下载google code的protobuf有问题?麻烦知情者告诉我一声,非常感谢!
新的错误总是会出现,又来:
error: Setup script exited with error: command 'gcc' failed with exit status 1
这个问题一般是由于缺少python-dev包导致的,继续装吧!
总算OK了,对python不熟确实不行,最近只是学习了python的语法,各种常用包的使用还不太清楚,需要继续努力。
3. 最后附上DPark的一些资料
官方中文wiki: https://github.com/jackfengji/test_pro/wiki
google group:https://groups.google.com/forum/#!forum/dpark-users
支持迭代计算的MapReduce框架PDF:http://velocity.oreilly.com.cn/2011/ppts/dpark.pdf
没了。。好惨。有知道其他资料的麻烦继续告诉我,多谢!
不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。
这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。
1. DPark一句话简介:
DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆。
2. python2.6下DPark安装:
git clone git://github.com/douban/dpark.git cd dpark python setup.py install
DPark使用easy_install进行安装,我这边没有setuptools,因此安装下:
yum -y install python-setuptools
问题继续出现,如下:
error: Couldn't find a setup script in /tmp/easy_install-riZxUs/protobuf-2.5.0.zip
坑爹,查了很久才在protobuf的google code中的issue 66中发现了如下说明:
#52 gregory....@gmail.com
Workaround: use easy_install's --allow-hosts options to force downloading from PyPI: easy_install --allow-hosts pypi.python.org protobuf Worked for me
配置了easy_install的下载域名:
easy_install --allow-hosts pypi.python.org protobuf
之前的错误消失了,个人推测是之前默认下载google code的protobuf有问题?麻烦知情者告诉我一声,非常感谢!
新的错误总是会出现,又来:
error: Setup script exited with error: command 'gcc' failed with exit status 1
这个问题一般是由于缺少python-dev包导致的,继续装吧!
yum -y install python-devel
总算OK了,对python不熟确实不行,最近只是学习了python的语法,各种常用包的使用还不太清楚,需要继续努力。
3. 最后附上DPark的一些资料
官方中文wiki: https://github.com/jackfengji/test_pro/wiki
google group:https://groups.google.com/forum/#!forum/dpark-users
支持迭代计算的MapReduce框架PDF:http://velocity.oreilly.com.cn/2011/ppts/dpark.pdf
没了。。好惨。有知道其他资料的麻烦继续告诉我,多谢!
相关文章推荐
- DPark安装及相关资料整理
- ace的安装和配置相关资料整理
- 安装一个新的系统前,请整理相关资料,再处理,否则花的时间会更长,磨刀不误砍柴工
- 人工智能相关书籍资料整理
- C#和VB.NET中类型相关资料整理
- git 使用代理的相关资料整理
- 近200篇云计算、虚拟化、Hadoop、MapReduce、HDFS等云计算相关资料整理下载
- 人工智能相关资料整理
- 【资料整理】scribe安装配置
- http连接优化与浏览器允许的并发请求资源数相关资料(整理转载)
- 你正在从一个声称代表如下的证书颁发机构安装证书 alipay truest network,希望能知道程序是怎么实现的或相关资料
- 一些Winodws mobile相关资料的整理
- 浅谈go语言 以及收集相关社区资料网站作为整理
- ACM数据结构相关资料整理【未完成,待补充】
- 【D3相关资料整理】持续更新中......
- solr的安装、配置、启动,及相关学习资料
- 深度学习相关资料整理
- 玩github的一些相关资料的整理
- iOS Https 相关资料整理
- ArcGIS GP地理处理相关资料收集整理