Spark中mlib的决策树模型参数详解
2018-01-04 00:00
183 查看
机器学习之决策树
Spark中的决策树模型参数:
trainData2:训练集(标签向量数据)
7:分类个数
Map(10 -> 4, 11 -> 40):特征值的类型数量(比如第10个特征有4个类型值,第11个特征有40个类型值)
如果特征值为纯粹的单个数值类型可以不用映射,直接写成 Map[Int,Int]()
impurity:指定不纯度,分类中主要是gini系数和entropy标准熵。
depth:指定树的深度。
bins:指定最大节点数。
Spark中的决策树模型参数:
model = DecisionTree.trainClassifier( trainData2, 7, Map(10 -> 4, 11 -> 40), impurity, depth, bins)
trainData2:训练集(标签向量数据)
7:分类个数
Map(10 -> 4, 11 -> 40):特征值的类型数量(比如第10个特征有4个类型值,第11个特征有40个类型值)
如果特征值为纯粹的单个数值类型可以不用映射,直接写成 Map[Int,Int]()
impurity:指定不纯度,分类中主要是gini系数和entropy标准熵。
depth:指定树的深度。
bins:指定最大节点数。
相关文章推荐
- Spark 性能相关参数配置详解-Storage篇
- Spark性能相关参数配置详解-Storage篇
- Scala深入浅出进阶经典 第60讲:Scala中隐式参数实战详解以及隐式参数在Spark中的应用源码解析
- 第62讲:Scala中上下文界定内幕中的隐式参数与隐式参数的实战详解及其在Spark中的应用源码解析学习笔记
- Scala 深入浅出实战经典 第60讲:Scala中隐式参数实战详解以及在Spark中的应用源码解析
- Spark性能相关参数配置详解-压缩与序列化篇
- Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析之Scala学习笔记-51
- Spark - 配置参数详解
- Scala深入浅出进阶经典 第61讲:Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析
- Spark性能相关参数配置详解-任务调度篇
- Spark 性能相关参数配置详解-shuffle篇
- Scala深入浅出进阶经典 第62讲:Scala中上下文界定内幕中的隐式参数与隐式参数的实战详解及其在Spark中的应用源码解析
- Scala中隐式参数实战详解以及隐式参数在Spark中的应用源码解析之Scala学习笔记-50
- Spark 性能相关参数配置详解-shuffle篇
- Spark 性能相关参数配置详解-Storage篇
- Spark 性能相关参数配置详解
- 60.Scala中隐式参数实战详解以及隐式参数在Spark中的应用源码解析
- Spark 性能相关参数配置详解-Storage篇
- 62.Scala中上下文界定内幕中的隐式参数与隐式参数的实战详解及其在Spark中的应用源码解析
- 61.Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析