手把手教你使用OpenCV和KNN算法进行手写数字识别

在这篇博客中，我将向大家介绍如何使用OpenCV和KNN算法编写一个手写数字识别程序。我们将一步一步地解释每个步骤，确保大家能理解代码的每个细节。我们将通过一个具体的实例来演示，如何从图像预处理到模型训练，再到最终的数字识别。

什么是OpenCV？

OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉库，包含了数百个计算机视觉算法。它被广泛应用于各种图像和视频处理任务，如面部识别、运动跟踪、物体检测等。

什么是KNN算法？

KNN（K-Nearest Neighbors）是一种简单且常用的机器学习算法，用于分类和回归任务。它通过计算输入样本与训练集样本的距离来进行分类。对于分类任务，它选择距离最近的K个样本，取其中类别出现最多的类别作为预测结果。

准备工作

在开始编写代码之前，请确保你已经安装了必要的库。你可以使用以下命令来安装OpenCV和Scikit-Learn：

pip install opencv-python scikit-learn

步骤1：导入必要的库

首先，我们需要导入一些必要的Python库：

import cv2
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
from sklearn.metrics import accuracy_score

cv2：这是OpenCV库的主模块。
numpy：一个用于处理数组的库。
KNeighborsClassifier：Scikit-Learn库中的KNN分类器。
train_test_split：用于将数据集分割为训练集和测试集。
load_digits：一个包含手写数字数据集的函数。
accuracy_score：用于计算模型准确率的函数。

步骤2：加载并准备数据

我们使用Scikit-Learn提供的digits数据集，它包含了0到9的手写数字图像。

digits = load_digits()
X = digits.images
y = digits.target# 将每个图像从8x8像素展平成64维向量
n_samples = len(X)
X = X.reshape((n_samples, -1))# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, stratify=y, random_state=42)

这里，我们首先加载digits数据集，并将每个图像从8x8像素展平成一个64维的向量。接着，我们将数据集分割为训练集和测试集。

步骤3：训练KNN模型

接下来，我们训练一个KNN分类器：

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

在这里，我们创建了一个KNN分类器实例，并设置邻居数量为5。然后，我们使用训练集对模型进行训练。

步骤4：测试模型并计算准确率

接下来，我们使用测试集来评估模型的表现：

y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")

我们通过预测测试集中的样本来计算模型的准确率，并打印出来。这样我们就可以知道模型的性能。

步骤5：使用训练好的模型进行数字识别

为了识别新的手写数字图像，我们需要一个函数来处理图像并进行预测：

def recognize_digit(image, knn_model):# 将图像转换为灰度图gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)# 将图像缩放到8x8resized = cv2.resize(gray, (8, 8), interpolation=cv2.INTER_AREA)# 反转颜色inverted = cv2.bitwise_not(resized)# 将图像展平成64维向量flattened = inverted.flatten().reshape(1, -1)# 进行预测digit = knn_model.predict(flattened)return digit[0]

这个函数首先将输入图像转换为灰度图，然后将图像缩放到8x8像素，并反转颜色（因为digits数据集中的数字是白色背景黑色数字，而大多数手写数字图像是黑色背景白色数字）。接着，我们将图像展平成一个64维的向量，并使用训练好的KNN模型进行预测。

步骤6：应用程序

最后，我们创建一个简单的应用程序，通过摄像头捕获图像并实时识别数字：

cap = cv2.VideoCapture(0)while True:ret, frame = cap.read()if not ret:break# 假设图像中数字位于中心区域roi = frame[100:300, 100:300]digit = recognize_digit(roi, knn)# 在图像上显示识别结果cv2.putText(frame, f"Digit: {digit}", (50, 50), cv2.FONT_HERSHEY_SIMPLEX, 2, (0, 255, 0), 3)cv2.imshow('Digit Recognizer', frame)if cv2.waitKey(1) & 0xFF == ord('q'):breakcap.release()
cv2.destroyAllWindows()