[机器学习实战]k-近邻算法
2015-11-27 11:57
274 查看
- 用到的一些重要的python函数
operator.itemgetter函数operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号)
要注意,operator.itemgetter函数获取的不是值,而是定义了一个函数,通过该函数作用到对象上才能获取值。
sorted函数
Python内置的排序函数sorted可以对list或者iterator进行排序,该函数原型为:
sorted(iterable[, cmp[, key[, reverse]]])
参数解释:
(1)iterable指定要排序的list或者iterable,不用多说;
(2)cmp为函数,指定排序时进行比较的函数,可以指定一个函数或者lambda函数,如:
students为类对象的list,没个成员有三个域,用sorted进行比较时可以自己定cmp函数,例如这里要通过比较第三个数据成员来排序,代码可以这样写: students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)] sorted(students, key=lambda student : student[2])
(3)key为函数,指定取待排序元素的哪一项进行排序,函数用上面的例子来说明,代码如下:
sorted(students, key=lambda student : student[2])
key指定的lambda函数功能是去元素student的第三个域(即:student[2]),因此sorted排序时,会以students所有元素的第三个域来进行排序。
- 算法核心步骤
简单说明一下KNN的原理:存在一个样本数据集合,也称为训练数据集,对于训练数据集中的每个数据,都有与之对应的标签,即它所属的类别。输入没有标签的新数据后(也就是我们需要预测的数据),将新数据的每个特征与训练数据集中对应的特征进行比较,提取出与训练集中特征最相似的数据所在的标签,即为预测的类别。
只选择训练集中前k个最相似的数据,计算出前k个数据出现次数最多的分类,作为预测的分类。
算法步骤:
**1)计算已知类别数据集中的点与当前点之间的距离;
2)按照距离递增次序排序;
3)选取与当前点距离最小的前k个点;
4)确定这前k个点的所在类别,并计算出类别频率
5)以前k个点所在类别出现频率最高的点作为预测点的类别**
其中,特征点之间的距离是指特征点之间欧式距离,一般采用的公式为:
这个算法假定所有的实例对应于 n 维欧氏空间Â n 中的点。一个实例的最近邻是根据标准欧氏距离定义的。更精确地讲,把任意的实例 x 表示为下面的特征向量:
< a 1 ( x ) , a 2 ( x ),…, a n ( x )>
废话少说,放码过来:
# coding=utf-8 from numpy import * import operator from os import listdir def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels=['A','A','B','B'] return group,labels def classify0(inX,dataSet,labels,k): #计算已知类别数据集中的点与当前点之间的距离 dataSetSize=dataSet.shape[0] #使用tile()函数将inX数组在行方向上重复dataSetSize次,列方向上重复1次 diffMat=tile(inX,(dataSetSize,1))-dataSet sqDiffMat=diffMat**2 sqDistances=sqDiffMat.sum(axis=1) distances=sqDistances**0.5 #将距离递增次序排序 sortedDistIndicies=distances.argsort() classCount={} for i in range(k): #确定前k个距离最小的元素所在的主要分类 votelIlabel=labels[sortedDistIndicies[i]] #确定前k个点所在类别的出现频率 classCount[votalIlabel]=classCount.get(voteIlabel,0)+1 #将频率从高到低排序 sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True) return sortedClassCount[0][0]
预测数据所在分类,在python提示符中输入下面的命令:
>>>import kNN
加载训练集:
>>>group,labels=kNN.createDataSet()
>>>kNN.classify0([0,0],group,labels,3)
输出结果应该是B
相关文章推荐
- C#里WinForm开发中如何实现控件随窗体大小的改变而自动适应其改变
- MPI学习-MPI_Sendrecv and MPI_Sendrecv_replace
- java.lang.NoClassDefFoundError: javax/mail/Address解决方法
- ganglia监控hadoop各项指标含义
- ASP.NET MVC 学习之路由(URL Routing)
- saltstack命令结果return处理
- 接口---interface
- C#比较二个数组并找出相同或不同元素的方法
- 如何让360打开时默认使用极速模式?
- 关于block使用的5点注意事项
- NoSuchMethodError 集合
- drawInRect: withFont: lineBreakMode:弃用
- 让我等菜鸟炸锅的自定义ListView
- android-studio add jar
- Java编写掷骰子游戏
- getResource()函数的路径问题
- 关于蓝桥杯训练题任务目标
- android RadioGroup和RadioButton使用注意
- MAC下用unity进行开发书写中文-Visual Studio Code
- mybatis 使用resultMap实现关联数据的查询(association 和collection )