pandas-sklearn-spark环境搭建
2017-08-13 08:41
176 查看
因为linux下搭建环境没有windows下那么麻烦,这里采用的是Linux下搭建开发环境。
安装步骤
下载安装包
官网下载链接 https://www.continuum.io/downloads ,点进去可以看到有python3和python2的,因为python2和python3差别较大,推荐两个都下载安装一下
安装anaconda
以python2的版本为例,下载后有一个名为 Anaconda2-4.4.0-Linux-x86_64.sh 的文件
安装步骤如下:
切换到目录下,添加运行权限
执行安装
![](http://img.blog.csdn.net/20170813080305093?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
这里可以选择安装路径,默认不换的话就直接回车
一路全部选择yes,它会自动把anaconda添加到path中
![](http://img.blog.csdn.net/20170813080353701?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
安装成功
同理可以安装anaconda3
安装成功之后,在命令行中输入python python2结果如下
![](http://img.blog.csdn.net/20170813080741822?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
因为anaconda中自带pandas和sklearn,因此pandas和sklearn环境搭建已经完成。
直接下载高级版 ,解压之后,切换到bin目录下,输入
即可运行
激活方式使用最后一种服务器激活,输入:http://idea.liyang.io即可
激活成功后,选择pure python项目创建新项目
![](http://img.blog.csdn.net/20170813081202093?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
上图中可以看到interpreter选项默认用的anaconda2的
我们也可以在创建项目后更改
点击file->setttings搜索interpreter
![](http://img.blog.csdn.net/20170813081359725?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
在这里可以看到当时使用的python环境
![](http://img.blog.csdn.net/20170813081438765?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
其中 pandas和sklearn已经安装,点击右侧的+按钮或以安装其他库
在annaconda的bin目录下输入ls命令
![](http://img.blog.csdn.net/20170813081831915?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
可以看到,anaconda已经安装了python-notebook。
接下来,我们切换到一个python项目中,运行jupyter-notebook即可打开python-notebook
![](http://img.blog.csdn.net/20170813082212745?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
![](http://img.blog.csdn.net/20170813082221254?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
在本地浏览器中就可以进行notebook交互界面了,下面是python-notebook运行sklearn中svm识别数字图片的效果,可以看出python-notebook非常方便。
![](http://img.blog.csdn.net/20170813082725949?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
python-notebook的使用可参考 http://www.360doc.com/content/16/1221/02/1489589_616432355.shtml
下载后解压,然后把它添加到path中
在用户根目录下,打开.bashrc,添加
![](http://img.blog.csdn.net/20170813083438696?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
然后运行
这里的pip默认是anaconda3中的,如果要安装到anaconda2中,请把pip路径补全。
不用pip的话,也可以在pypi中下载源码安装,源码地址
https://pypi.python.org/packages/f6/fe/4a1420f1c8c4df40cc8ac1dab6c833a3fe1986abf859135712d762100fde/pyspark-2.2.0.post0.tar.gz#md5=53fb35a22c3aa9099a93bb1d43c0a587
下载后解压,在命令行中输入
进行安装
安装完成后,在命令行中输入pyspark,即可进入交互界面
![](http://img.blog.csdn.net/20170813084013350?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSGFsZl9vcGVu/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
接下来来跑一个mapreduce中的wordCount例子
新建一个words.txt,内容可以如下:
在notebook中输入
运行结果如下:
pandas和sklearn
这里推荐使用集成包搭建Anaconda
Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。安装步骤
下载安装包
官网下载链接 https://www.continuum.io/downloads ,点进去可以看到有python3和python2的,因为python2和python3差别较大,推荐两个都下载安装一下
安装anaconda
以python2的版本为例,下载后有一个名为 Anaconda2-4.4.0-Linux-x86_64.sh 的文件
安装步骤如下:
切换到目录下,添加运行权限
sudo chmod +x Anaconda2-4.4.0-Linux-x86_64.sh
执行安装
./Anaconda2-4.4.0-Linux-x86_64.sh
这里可以选择安装路径,默认不换的话就直接回车
一路全部选择yes,它会自动把anaconda添加到path中
安装成功
同理可以安装anaconda3
安装成功之后,在命令行中输入python python2结果如下
因为anaconda中自带pandas和sklearn,因此pandas和sklearn环境搭建已经完成。
开发工具
pycharm
pycharm python开发利器,下载地址:http://www.jetbrains.com/pycharm/download/直接下载高级版 ,解压之后,切换到bin目录下,输入
sh pycharm.sh
即可运行
激活方式使用最后一种服务器激活,输入:http://idea.liyang.io即可
激活成功后,选择pure python项目创建新项目
上图中可以看到interpreter选项默认用的anaconda2的
我们也可以在创建项目后更改
点击file->setttings搜索interpreter
在这里可以看到当时使用的python环境
其中 pandas和sklearn已经安装,点击右侧的+按钮或以安装其他库
python-notebook
python-notebook是一种在浏览器中进行交互的环境,用户友好度非常高,特别是在小程序 中,一条条执行时,可以方便地看到结果,完全可以替代默认的命令行。在annaconda的bin目录下输入ls命令
可以看到,anaconda已经安装了python-notebook。
接下来,我们切换到一个python项目中,运行jupyter-notebook即可打开python-notebook
在本地浏览器中就可以进行notebook交互界面了,下面是python-notebook运行sklearn中svm识别数字图片的效果,可以看出python-notebook非常方便。
python-notebook的使用可参考 http://www.360doc.com/content/16/1221/02/1489589_616432355.shtml
spark环境搭建
下载spark
spark下载地址 https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz下载后解压,然后把它添加到path中
在用户根目录下,打开.bashrc,添加
export SPARK_HOME=/home/h/Downloads/spark-2.2.0-bin-hadoop2.7 export PATH=$SPARK_HOME/bin:$PATH
然后运行
source .bashrc
安装pyspark
直接在命令行中运行pip install pyspark
这里的pip默认是anaconda3中的,如果要安装到anaconda2中,请把pip路径补全。
不用pip的话,也可以在pypi中下载源码安装,源码地址
https://pypi.python.org/packages/f6/fe/4a1420f1c8c4df40cc8ac1dab6c833a3fe1986abf859135712d762100fde/pyspark-2.2.0.post0.tar.gz#md5=53fb35a22c3aa9099a93bb1d43c0a587
下载后解压,在命令行中输入
python setup.py build python setup.py install
进行安装
安装完成后,在命令行中输入pyspark,即可进入交互界面
接下来来跑一个mapreduce中的wordCount例子
新建一个words.txt,内容可以如下:
The dynamic lifestyle people lead nowadays causes many reactions in our bodies and the one that is the most frequent of all is the headache
在notebook中输入
# -*- coding: utf-8 -*- import sys from pyspark import SparkContext from operator import add import re sc = SparkContext(appName= "wordsCount") lines = sc.textFile('words.txt') counts = lines.flatMap(lambda x: x.split(' '))\ .map(lambda x : (x, 1))\ .reduceByKey(add) output = counts.collect() output sc.stop()
运行结果如下:
相关文章推荐
- spark 之 Scala 环境搭建,开发工具使用
- Spark在Windows下的环境搭建
- scikit-learn 和pandas 基于windows单机机器学习环境的搭建
- spark搭建环境涉及的linux命令(简单易用型(勿喷))
- spark的eclispe的集成开发环境的搭建
- Ubuntu 16.04 Spark单机环境搭建
- 基于hadoop的Spark环境搭建
- 腾讯云Ubuntu14.04搭建机器学习环境(jupyter和numpy,scipy,matplotlib,pandas,scikit-learn)
- 在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境
- linux离线搭建Python环境及安装numpy、pandas
- Spark修炼之道(进阶篇)——Spark入门到精通:第三节 Spark Intellij IDEA开发环境搭建
- Spark 2.0分布式集群环境搭建
- ①Spark入门-环境搭建
- spark1.5.1环境搭建
- IDEA使用Maven搭建spark开发环境(scala)
- 关于建立tensorflowOnspark时候,需要做的环境搭建,看如下链接的文章
- Spark 大数据中文分词统计 (一) 开发环境搭建
- 大数据学习环境搭建(CentOS6.9+Hadoop2.7.3+Hive1.2.1+Hbase1.3.1+Spark2.1.1)
- spark python 环境搭建 windows10
- 【Windows中Spark环境搭建 | 基于Maven依赖库】在windows中对spark程序进行local调试学习