您的位置：首页 > 编程语言 > Python开发

k-近邻算法（KNN）--1简单原理介绍与实践---by香蕉麦乐迪

2015-12-01 18:36 676 查看

k近邻的原理：

1、计算没有标签的新数据与样本集中每一个样本的相似度

2、对相似度进行排序，取前面k个最相似的样本

3、前k个样本中，样本个数最多的类别，就是预测类别

简单实验：

样本集：4个样本，每个样本是一个点，有x y坐标

类别标签：样本集中的样本有两个类别，分别是a 和 b

k：我们取3

样本集如下：

样本数据：[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]

对应标签： 'a', 'a', 'b', 'b'

代码说明：

createDataSet.py：创建上面所述的样本集

classify.py：根据样本集和k值，对新数据预测类别

knn.py：主函数

代码分别如下：

createDataSet.py

import numpy as np

def createDataSet():
group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['a','a','b','b']
return group, labels

classify.py

import numpy as np
import operator

def classify(inX,dataSet,labels,k):

#calculate euclidean distance between k and dataSet
dataSetSize=dataSet.shape[0]
diffMat=np.tile(inX,(dataSetSize,1))-dataSet
sqDiffMat=diffMat**2
sqDistances=sqDiffMat.sum(axis=1)
distance=sqDistances**0.5

#sort distance, min to max, return index list
sortedDistIndicies=distance.argsort()

# from 0 to k-1, count times of every class
classCount={}
for i in range(k):
className=labels[sortedDistIndicies[i]]
#print classCount.get(className,0)
#here parameter 0 means:if className doesn't exist, return
classCount[className]=classCount.get(className,0)+1

#sort class count result, i don't understand this method now
#parameter reverse=true:from big to small,reverse=flase:from small to big
sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)

#print sortedClassCount
#print sortedClassCount[0][0]

# return result
return sortedClassCount[0][0]

knn.py

import createDataSet
import classify
import numpy as np

# get dataSet and labels by createDataSet
group,labels=createDataSet.createDataSet()

# classify
ans=classify.classify([1.1,1.2],group,labels,3)
print ans

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python k近邻

相关文章推荐

新的分享

章节导航