您的位置：首页 > 编程语言 > Python开发

pandas-sklearn-spark环境搭建

2017-08-13 08:41 176 查看

因为linux下搭建环境没有windows下那么麻烦，这里采用的是Linux下搭建开发环境。

pandas和sklearn

这里推荐使用集成包搭建

Anaconda

Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。

安装步骤

下载安装包

官网下载链接 https://www.continuum.io/downloads ，点进去可以看到有python3和python2的，因为python2和python3差别较大，推荐两个都下载安装一下

安装anaconda

以python2的版本为例，下载后有一个名为 Anaconda2-4.4.0-Linux-x86_64.sh 的文件

安装步骤如下：

切换到目录下，添加运行权限

sudo chmod +x Anaconda2-4.4.0-Linux-x86_64.sh

执行安装

./Anaconda2-4.4.0-Linux-x86_64.sh

这里可以选择安装路径，默认不换的话就直接回车

一路全部选择yes,它会自动把anaconda添加到path中

安装成功

同理可以安装anaconda3

安装成功之后，在命令行中输入python python2结果如下

因为anaconda中自带pandas和sklearn，因此pandas和sklearn环境搭建已经完成。

开发工具

pycharm

pycharm python开发利器，下载地址：http://www.jetbrains.com/pycharm/download/

直接下载高级版，解压之后，切换到bin目录下，输入

sh pycharm.sh

即可运行

激活方式使用最后一种服务器激活，输入：http://idea.liyang.io即可

激活成功后，选择pure python项目创建新项目

上图中可以看到interpreter选项默认用的anaconda2的

我们也可以在创建项目后更改

点击file->setttings搜索interpreter

在这里可以看到当时使用的python环境

其中 pandas和sklearn已经安装，点击右侧的+按钮或以安装其他库

python-notebook

python-notebook是一种在浏览器中进行交互的环境，用户友好度非常高，特别是在小程序中，一条条执行时，可以方便地看到结果，完全可以替代默认的命令行。

在annaconda的bin目录下输入ls命令

可以看到，anaconda已经安装了python-notebook。

接下来，我们切换到一个python项目中，运行jupyter-notebook即可打开python-notebook

在本地浏览器中就可以进行notebook交互界面了,下面是python-notebook运行sklearn中svm识别数字图片的效果，可以看出python-notebook非常方便。

python-notebook的使用可参考 http://www.360doc.com/content/16/1221/02/1489589_616432355.shtml

spark环境搭建

下载spark

spark下载地址 https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz

下载后解压，然后把它添加到path中

在用户根目录下，打开.bashrc，添加

export SPARK_HOME=/home/h/Downloads/spark-2.2.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

然后运行

source .bashrc

安装pyspark

直接在命令行中运行

pip install pyspark

这里的pip默认是anaconda3中的，如果要安装到anaconda2中，请把pip路径补全。

不用pip的话，也可以在pypi中下载源码安装，源码地址

https://pypi.python.org/packages/f6/fe/4a1420f1c8c4df40cc8ac1dab6c833a3fe1986abf859135712d762100fde/pyspark-2.2.0.post0.tar.gz#md5=53fb35a22c3aa9099a93bb1d43c0a587

下载后解压，在命令行中输入

python setup.py build
python setup.py install

进行安装

安装完成后，在命令行中输入pyspark，即可进入交互界面

接下来来跑一个mapreduce中的wordCount例子

新建一个words.txt,内容可以如下：

The dynamic lifestyle
people lead nowadays
causes many reactions
in our bodies and
the one that is the
most frequent of all
is the headache

在notebook中输入

# -*- coding: utf-8 -*-
import sys
from pyspark import SparkContext
from operator import add
import re

sc = SparkContext(appName= "wordsCount")
lines = sc.textFile('words.txt')
counts = lines.flatMap(lambda  x: x.split(' '))\
.map(lambda  x : (x, 1))\
.reduceByKey(add)
output = counts.collect()
output
sc.stop()

运行结果如下：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python spark pandas sklearn

相关文章推荐

新的分享

章节导航