K-最近邻算法

一、说明

KNN算法是一个分类算法，基本数学模型是距离模型。K-最近邻是一种超级简单的监督学习算法。它可以应用于分类和回归问题。虽然它是在 1950 年代引入的，但今天仍在使用。然而如何实现，本文将给出具体描述。

来源：维基百科

二、KNN原理解释

让我们使用一个简单的 2D 示例来更好地理解。我们有一个包含 3 组的标记数据集。我们的目标是找出给定的新观察属于哪个组。

首先，找到给定新点到其他点的距离。

计算距离有不同的方法。最常用的是欧几里得距离和曼哈顿距离。

2.1 欧氏距离

这个你小学就知道了。您在毕达哥拉斯定理中发现的斜边。

Source: Wikipedia

欧氏距离方程

假设 m 维中有 2 个点。将每个维度中两个点的值相互减去，然后将这些值的平方相加。取总值的平方根。

2.2 曼哈顿距离

曼哈顿距离（换句话说，出租车距离）是通过网格计算的。想象一下仅使用道路就能从地图上的一个点到达另一个点。最短路线是曼哈顿距离。鸟瞰距离是欧氏距离。

Source: Wikipedia

曼哈顿距离方程

计算距离后，我们将每个距离从小到大排序。考虑直到所选 k 值的距离数。无论大多数人属于哪一类，那将是我们新点的群体。

在回归问题中，取最接近的 k 个选定点值的平均值。

KNN 算法对异常值和不平衡数据集很敏感。

K值控制过拟合和欠拟合之间的平衡。

小K：低偏差，高方差->过度拟合
大 K：高偏差、低方差 -> 欠拟合

2.3 Python代码

sklearn实现我们用 Iris 数据集来演示一下。

from sklearn import datasets
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score
iris = datasets.load_iris()
X, y = iris.data, iris.targetX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234
)

以上代码（从头开始）

model = Knn()
model.fit(X_train, y_train)
y_pred = clf.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
print("Manual Accuracy:", accuracy(y_test, y_pred))#OUT
[[ 9  0  0][ 0 12  1][ 0  0  8]]
Manual Accuracy: 0.9666666666666667

sklean训练

model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
print("Manual Accuracy:", accuracy(y_test, y_pred))#OUT
[[ 9  0  0][ 0 12  1][ 0  0  8]]
Manual Accuracy: 0.9666666666666667

三、如何选择正确的 K 值

尝试不同的值来选择正确的k值，并根据误差选择最佳的k值。未选择始终给出最小误差的 k 值。这可能会导致过度拟合。遵循所谓的肘击战术。在改善减少的 k 值处，停在那里并选择相应的 k 值。

k_list = list(range(1,50,2))
cv_scores = []for k in k_list:knn = KNeighborsClassifier(n_neighbors=k)scores = cross_val_score(knn, X_train, y_train, cv=10, scoring='accuracy')cv_scores.append(scores.mean())MSE = [1 - x for x in cv_scores]plt.figure()
plt.figure(figsize=(15,10))
plt.title('K vs Error', fontsize=20, fontweight='bold')
plt.xlabel('K', fontsize=15)
plt.ylabel('Error', fontsize=15)
sns.set_style("whitegrid")
plt.plot(k_list, MSE)plt.show()