在Ubuntu 12.04中配置分布式爬虫框架——Cola
2013-07-01 14:20
162 查看
Cola是一个用Python编写的分布式爬虫框架,其目的是为了方便分布式的部署,目前虽仍有很多不完善的地方,但仍然值得对其进行一番探索。本文将对Cola的运行环境配置进行一番较为详细的介绍。在配置之前,请保证系统已经有正常的编译工具(gcc, make, autoconf, etc.)。另外,可能需要先安装python-dev:
MongoDB是由10gen公司来负责维护开发的。首先给apt包管理添加10gen资源库:
经过以上几步之后,就可以安装最新稳定版本的MongoDB:
安装完毕后,会自动启动MongoDB服务。
sudo apt-get install python-dev
1 安装MongoDB
Cola所采用的数据库为文档型数据库MongoDB,因此首先需要配置MongoDB,这里给出一种较为方便的部署方法。MongoDB是由10gen公司来负责维护开发的。首先给apt包管理添加10gen资源库:
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10
echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/10gen.list
sudo apt-get update
经过以上几步之后,就可以安装最新稳定版本的MongoDB:
sudo apt-get install mongodb-10gen
安装完毕后,会自动启动MongoDB服务。
2 安装PIP
PIP是一个Python的包管理工具。因为Cola依赖很多的Python库,为了方便后期的安装,我们需要先配置好PIP。PIP本身依赖于setuptools,因此在安装PIP前,需要先安装setuptools,具体的方法如下:wget https://bitbucket.org/pypa/setuptools/raw/0.7.5/ez_setup.py -O - | sudo python
sudo apt-get install curl curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py sudo python get-pip.py
3 配置Cola所依赖的库
sudo apt-get install libyaml-dev sudo pip install pyyaml sudo pip install mechanize sudo pip install python-dateutil sudo pip install BeautifulSoup4 sudo pip install mongoengine sudo easy_install rsa git clone https://github.com/chineking/cola.git[/code]
在最后一个命令中,我们获取Cola的源代码,之后就可以单机模式或分布式模式来运行了,具体可以参见:https://github.com/chineking/cola/wiki
相关文章推荐
- Ubuntu 12.04下NFS安装配置图解
- Ubuntu 12.04安装vim和配置
- ubuntu 12.04 server + OPENACS(TR069)安装配置日记
- 环境: ubuntu 12.04 上C / C++, OpenGL, Android, NDK,Ogre环境配置(此贴作废,配置看我新贴)
- 在 Ubuntu 12.04 上安装和配置邮件服务
- linux 下 VNC Server安装配置及 eclipse CDT C/C++ 开发环境搭建(我用的是阿里云服务器 ubuntu 12.04 64-bit,无图形化界面)
- ubuntu 12.04 安装配置 JDK
- Ubuntu 12.04 samba 配置
- 在Ubuntu 12.04系统中安装jdk和配置tomcat服务器
- 在ubuntu 12.04中安装与配置sshd服务
- Ubuntu 12.04的配置
- 【转】在Ubuntu 12.04上配置iSCSI Target服务
- ubuntu 12.04 配置双屏幕教程
- ubuntu 12.04中超强两笔输入法的安装与配置
- ubuntu 12.04 unity桌面使用vnc配置
- Android 编译环境配置搭建(Ubuntu 12.04)及环境导致编译错误QA
- Ubuntu 12.04环境下配置Postgresql和phppgadmin
- 手动配置 Ubuntu 12.04 无线网络
- Ubuntu 12.04 配置apue2环境(《unix环境高级编程》源码编译环境安装)