k-近邻算法(KNN)--1简单原理介绍与实践---by香蕉麦乐迪
2015-12-01 18:36
676 查看
k近邻的原理:
1、计算没有标签的新数据与样本集中每一个样本的相似度
2、对相似度进行排序,取前面k个最相似的样本
3、前k个样本中,样本个数最多的类别,就是预测类别
简单实验:
样本集:4个样本,每个样本是一个点,有x y坐标
类别标签:样本集中的样本有两个类别,分别是a 和 b
k:我们取3
样本集如下:
样本数据:[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]
对应标签: 'a', 'a', 'b', 'b'
代码说明:
createDataSet.py:创建上面所述的样本集
classify.py:根据样本集和k值,对新数据预测类别
knn.py:主函数
代码分别如下:
createDataSet.py
classify.py
knn.py
1、计算没有标签的新数据与样本集中每一个样本的相似度
2、对相似度进行排序,取前面k个最相似的样本
3、前k个样本中,样本个数最多的类别,就是预测类别
简单实验:
样本集:4个样本,每个样本是一个点,有x y坐标
类别标签:样本集中的样本有两个类别,分别是a 和 b
k:我们取3
样本集如下:
样本数据:[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]
对应标签: 'a', 'a', 'b', 'b'
代码说明:
createDataSet.py:创建上面所述的样本集
classify.py:根据样本集和k值,对新数据预测类别
knn.py:主函数
代码分别如下:
createDataSet.py
import numpy as np def createDataSet(): group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['a','a','b','b'] return group, labels
classify.py
import numpy as np import operator def classify(inX,dataSet,labels,k): #calculate euclidean distance between k and dataSet dataSetSize=dataSet.shape[0] diffMat=np.tile(inX,(dataSetSize,1))-dataSet sqDiffMat=diffMat**2 sqDistances=sqDiffMat.sum(axis=1) distance=sqDistances**0.5 #sort distance, min to max, return index list sortedDistIndicies=distance.argsort() # from 0 to k-1, count times of every class classCount={} for i in range(k): className=labels[sortedDistIndicies[i]] #print classCount.get(className,0) #here parameter 0 means:if className doesn't exist, return classCount[className]=classCount.get(className,0)+1 #sort class count result, i don't understand this method now #parameter reverse=true:from big to small,reverse=flase:from small to big sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True) #print sortedClassCount #print sortedClassCount[0][0] # return result return sortedClassCount[0][0]
knn.py
import createDataSet import classify import numpy as np # get dataSet and labels by createDataSet group,labels=createDataSet.createDataSet() # classify ans=classify.classify([1.1,1.2],group,labels,3) print ans
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- FREEBASIC 编译可被python调用的dll函数示例
- Python 七步捉虫法