您的位置:首页 > 编程语言 > Python开发

pandas-sklearn-spark环境搭建

2017-08-13 08:41 176 查看
因为linux下搭建环境没有windows下那么麻烦,这里采用的是Linux下搭建开发环境。

pandas和sklearn

这里推荐使用集成包搭建

Anaconda

Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。

安装步骤

下载安装包

官网下载链接 https://www.continuum.io/downloads ,点进去可以看到有python3和python2的,因为python2和python3差别较大,推荐两个都下载安装一下

安装anaconda

以python2的版本为例,下载后有一个名为 Anaconda2-4.4.0-Linux-x86_64.sh 的文件

安装步骤如下:

切换到目录下,添加运行权限

sudo chmod +x Anaconda2-4.4.0-Linux-x86_64.sh


执行安装

./Anaconda2-4.4.0-Linux-x86_64.sh




这里可以选择安装路径,默认不换的话就直接回车

一路全部选择yes,它会自动把anaconda添加到path中



安装成功

同理可以安装anaconda3

安装成功之后,在命令行中输入python python2结果如下



因为anaconda中自带pandas和sklearn,因此pandas和sklearn环境搭建已经完成。

开发工具

pycharm

pycharm python开发利器,下载地址:http://www.jetbrains.com/pycharm/download/

直接下载高级版 ,解压之后,切换到bin目录下,输入

sh pycharm.sh


即可运行

激活方式使用最后一种服务器激活,输入:http://idea.liyang.io即可

激活成功后,选择pure python项目创建新项目



上图中可以看到interpreter选项默认用的anaconda2的

我们也可以在创建项目后更改

点击file->setttings搜索interpreter



在这里可以看到当时使用的python环境



其中 pandas和sklearn已经安装,点击右侧的+按钮或以安装其他库

python-notebook

python-notebook是一种在浏览器中进行交互的环境,用户友好度非常高,特别是在小程序 中,一条条执行时,可以方便地看到结果,完全可以替代默认的命令行。

在annaconda的bin目录下输入ls命令



可以看到,anaconda已经安装了python-notebook。

接下来,我们切换到一个python项目中,运行jupyter-notebook即可打开python-notebook





在本地浏览器中就可以进行notebook交互界面了,下面是python-notebook运行sklearn中svm识别数字图片的效果,可以看出python-notebook非常方便。



python-notebook的使用可参考 http://www.360doc.com/content/16/1221/02/1489589_616432355.shtml

spark环境搭建

下载spark

spark下载地址 https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

下载后解压,然后把它添加到path中

在用户根目录下,打开.bashrc,添加

export SPARK_HOME=/home/h/Downloads/spark-2.2.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH




然后运行

source .bashrc


安装pyspark

直接在命令行中运行

pip install pyspark


这里的pip默认是anaconda3中的,如果要安装到anaconda2中,请把pip路径补全。

不用pip的话,也可以在pypi中下载源码安装,源码地址

https://pypi.python.org/packages/f6/fe/4a1420f1c8c4df40cc8ac1dab6c833a3fe1986abf859135712d762100fde/pyspark-2.2.0.post0.tar.gz#md5=53fb35a22c3aa9099a93bb1d43c0a587

下载后解压,在命令行中输入

python setup.py build
python setup.py install


进行安装

安装完成后,在命令行中输入pyspark,即可进入交互界面



接下来来跑一个mapreduce中的wordCount例子

新建一个words.txt,内容可以如下:

The dynamic lifestyle
people lead nowadays
causes many reactions
in our bodies and
the one that is the
most frequent of all
is the headache


在notebook中输入

# -*- coding: utf-8 -*-
import sys
from pyspark import SparkContext
from operator import add
import re

sc = SparkContext(appName= "wordsCount")
lines = sc.textFile('words.txt')
counts = lines.flatMap(lambda  x: x.split(' '))\
.map(lambda  x : (x, 1))\
.reduceByKey(add)
output = counts.collect()
output
sc.stop()


运行结果如下:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python spark pandas sklearn