您的位置：首页 > 编程语言 > Go语言

K-Nearest Neighbor algorithm K最邻近结点算法

2015-09-02 16:43 597 查看

介绍

定义

　　在模式识别领域中，最近邻居法（k-Nearest Neighbors algorithm，KNN算法，又译K-近邻算法）是一种用于分类和回归的非参数统计方法。

k-NN分类

输入：包含特征空间中的 k 个最接近的训练样本。

输出：一个分类族群。

k-NN回归

输入：包含特征空间中的 k 个最接近的训练样本。

输出：该对象的属性值。该值是其 k 个最近邻居的值的平均值。

起源

　　TODO

优点

简单，易于理解，易于实现，无需估计参数，无需训练；

适合对稀有事件进行分类；

特别适合于多分类问题（multi-modal，对象具有多个类别标签）。

缺点

主要的不足：当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。

计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。

可理解性差，无法给出像决策树那样的规则。

应用领域

　　文本分类，聚类分析，数据挖掘，机器学习，预测分析，减少维度，模式识别，图像处理

解法

思路

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

步骤

准备数据，对数据进行预处理

选用合适的数据结构存储训练数据和测试元组

设定参数，如k

4.维护一个大小为k的的按距离由大到小的优先级队列，用于存储最近邻训练元组。随机从训练元组中选取k个元组作为初始的最近邻元组，分别计算测试元组到这k个元组的距离，将训练元组标号和距离存入优先级队列

遍历训练元组集，计算当前训练元组与测试元组的距离，将所得距离L 与优先级队列中的最大距离Lmax

进行比较。若L>=Lmax，则舍弃该元组，遍历下一个元组。若L < Lmax，删除优先级队列中最大距离的元组，将当前训练元组存入优先级队列。

遍历完毕，计算优先级队列中k 个元组的多数类，并将其作为测试元组的类别。

测试元组集测试完毕后计算误差率，继续设定不同的k值重新进行训练，最后取误差率最小的k 值。

实现

Python

Scikit-Learn

http://scikit-learn.org/stable/modules/neighbors.html

KNN分类器使用

sklearn.neighbors.KNeighborsClassifier

，参数设置参考 http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

knn_classification_example.py

python

X = [[0, 100], [1, 99], [99, 1], [100, 0]]

y = [0, 0, 1, 1]

from sklearn.neighbors import KNeighborsClassifier

classifier = KNeighborsClassifier(n_neighbors=3)

classifier.fit(X, y)

print(classifier.predict([[10, 90], [90, 10]]))

print(classifier.predict_proba([[10, 90], [90, 10]]))

print(classifier.kneighbors([[10, 90], [90, 10]], return_distance=False))

output

text

>>> print(classifier.predict([[10, 90], [90, 10]]))

[0 1]

>>> print(classifier.predict_proba([[10, 90], [90, 10]]))

[[ 0.66666667  0.33333333]

[ 0.33333333  0.66666667]]

>>> print(classifier.kneighbors([[10, 90], [90, 10]], return_distance=False))

[[1 0 2]

[2 3 1]]

KNN回归器使用

sklearn.neighbors.KNeighborsRegressor

，参数设置参考 http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html

knn_regression_example.py

python

X = [[0], [1], [2], [3]]

y = [0, 0, 1, 1]

from sklearn.neighbors import KNeighborsRegressor

regressor = KNeighborsRegressor(n_neighbors=2)

regressor.fit(X, y)

print(regressor.predict([[1.5]]))

output

text

[ 0.5]

应用

　　TODO

参考

https://zh.wikipedia.org/wiki/最近鄰居法

http://baike.baidu.com/view/1485833.htm

http://blog.sina.com.cn/s/blog_7fc305440101d0vr.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航