spark-机器学习-1
2016-06-30 15:07
232 查看
1、sparkcontext
可以通过sc对象来创建和操作分布式数据集和共享变量。
2、RDD
可以使用textfile方法返回RDD对象。该对象的每一条记录都是一个表示文本文件中某一行文字的字符串对象。
3、所有操作都被分为转换和执行两种
转换:对数据集里的所有记录执行某种函数,从而改变记录
执行:运行某些计算或聚合结果。
sc = SparkContext("local[2]","Simple App")
可以通过sc对象来创建和操作分布式数据集和共享变量。
2、RDD
rddFromTextFile = sc.textFile("License");
可以使用textfile方法返回RDD对象。该对象的每一条记录都是一个表示文本文件中某一行文字的字符串对象。
3、所有操作都被分为转换和执行两种
转换:对数据集里的所有记录执行某种函数,从而改变记录
执行:运行某些计算或聚合结果。
相关文章推荐
- 分布式版本管理git入门指南使用资料汇总及文章推荐
- C#分布式事务的超时处理实例分析
- Erlang分布式节点中的注册进程使用实例
- Memcached 分布式缓存实现原理简介
- C++实现的分布式游戏服务端引擎KBEngine详解
- ASP.NET通过分布式Session提升性能
- Spring+Mybatis+Mysql搭建分布式数据库访问框架的方法
- 用Python从零实现贝叶斯分类器的机器学习的教程
- Python使用multiprocessing实现一个最简单的分布式作业调度系统
- 分享一个简单易用的RPC开源项目—Tatala
- 手把手教你配置Hbase完全分布式环境
- My Machine Learning
- 机器学习---学习首页 3ff0
- 搭建分布式架构2--CentOs下安装Tomcat7(环境准备)
- 搭建分布式架构4--ZooKeeper注册中心安装
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- 分布式任务调度平台XXL-JOB
- Glusterfs:趋于成熟的集群文件系统
- 关于glusterfs的directory-layout-spread参数
- tomcat集群扩展session集中管理,Memcached-session-manager...