您的位置:首页 > 其它

spark-机器学习-1

2016-06-30 15:07 232 查看
1、sparkcontext

sc = SparkContext("local[2]","Simple App")


可以通过sc对象来创建和操作分布式数据集和共享变量。

2、RDD

rddFromTextFile = sc.textFile("License");


可以使用textfile方法返回RDD对象。该对象的每一条记录都是一个表示文本文件中某一行文字的字符串对象。

3、所有操作都被分为转换和执行两种

转换:对数据集里的所有记录执行某种函数,从而改变记录

执行:运行某些计算或聚合结果。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习 分布式