文章目录
- 一、项目介绍
- 二、模板匹配的原理
- 三、模板匹配的步骤
- 模板图片处理
- 信用卡图片处理
- 进行模板匹配
一、项目介绍
模板识别(Template Matching)是一种基于图像匹配的技术,用于在较大图像中识别和定位小图像(模板)。相比使用人工智能(AI)算法训练识别信用卡数字,模板识别具有以下优势:
简单性:模板匹配算法相对简单,容易理解和实现。
计算效率:由于算法简单,模板匹配在计算上通常比深度学习等AI算法更高效。
低资源需求:模板匹配不需要大量的计算资源和训练数据,适合资源受限的环境。
快速部署:在一些应用场景中,模板匹配可以快速部署,而AI模型可能需要较长的时间来训练和优化。
可预测性:模板匹配的结果通常容易预测,因为它依赖于固定的模板和匹配算法。
特定场景下的高准确度:在图像质量高、背景简单、目标物体与模板高度相似的情况下,模板匹配可以提供较高的准确度。
抗干扰能力:如果目标图像与模板之间的变化较小(如旋转、缩放),模板匹配可以很好地工作。
无需大量标注数据:与需要大量标注数据训练的AI算法不同,模板匹配不需要大量的训练数据。
易于集成:模板匹配技术易于集成到现有的图像处理流程中,不需要复杂的模型训练和调优。
然而,模板匹配也有其局限性,例如对噪声敏感、难以处理图像中的遮挡和复杂变化等。而AI算法,尤其是基于深度学习的算法,通常在处理复杂场景和变化时表现更好,具有更好的泛化能力和适应性。
项目直接根据提供的数字模板识别信用卡的卡号。模板字体需要提前准备好,最好和信用卡字体保持一致。用到的图像处理框架为:opencv 版本4.9。
用到的模板:
识别效果:
二、模板匹配的原理
模板匹配和卷积原理很像,模板在原图像上从原点开始滑动,计算模板与(图像被模板覆盖的地方)的差别程度,这个差别程度的计算方法在 opencv 里有6种,每次计算的结果放入一个矩阵里,作为结果输出。假如原图形是AxB大小,而模板是axb大小,则输出结果的矩阵是(A-a+1)x(B-b+1):
- TM_SQDIFF:计算平方不同,计算出来的值越小,越相关
- TM_CCORR:计算相关性,计算出来的值越大,越相关
- TM_CCOEFF:计算相关系数,计算出来的值越大,越相关
- TM_SQDIFF_NORMED:计算归一化平方不同,计算出来的值越接近0,越相关
- TM_CCORR_NORMED:计算归一化相关性,计算出来的值越接近1,越相关
- TM_CCOEFF_NORMED:计算归一化相关系数,计算出来的值越接近1,越相关
建议使用归一化的计算方法会相对公平一些,方法:
- matchTemplate(image, templ, method[, result[, mask]]) 进行模板匹配- image是要匹配的图片- templ是模板图片- method是计算方式- result是进行匹配计算后得到的矩阵. - mask是掩膜
- minMaxLoc(src[, mask]) 获取最大值和最小值的位置- 返回四个值, 分别是最小值, 最大值, 最小值坐标, 最大值坐标
三、模板匹配的步骤
模板图片处理
1.首先对模板二值化
# 封装显示图片的函数
def cv_show(name, img):cv2.imshow(name, img)cv2.waitKey(0)cv2.destroyAllWindows()# 先处理数字模板图片
import cv2
import numpy as np# 读取模板图片
img = cv2.imread('./ocr_a_reference.png')
# print(img.shape)
# cv_show('img', img)
# 灰度化处理
ref = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# cv_show('ref', ref)
print('ref', ref)
# 二值化处理
_, ref = cv2.threshold(ref, 10, 255, cv2.THRESH_BINARY_INV)
# cv_show('ref', ref)
print('ref2', ref)
2.找出每个数字的轮廓和外接矩形,将数字从图片中取出来
# 计算轮廓
ref_contours, _ = cv2.findContours(ref.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
# 画出外轮廓
cv2.drawContours(img, ref_contours, -1, (0, 0, 255), 3)
# cv_show('img', img)
# 表示数字的轮廓
print(np.array(ref_contours, dtype='object').shape)
3.对轮廓进行排序, 按照数字大小进行排序, 方便后面使用
排序思路: 根据每个数字的最大外接矩形的x轴坐标进行排序
# 获取每个轮廓的外接矩形
bounding_boxes = [cv2.boundingRect(c) for c in ref_contours]
# print(bounding_boxes)
# print(sorted(bounding_boxes, key=lambda b: b[0]))
# 要把排序之后的外接矩形和轮廓建立对应关系.
(ref_contours, bounding_boxes) = zip(*sorted(zip(ref_contours, bounding_boxes), key=lambda b: b[1][0]))
digits = {}
for (i, c) in enumerate(ref_contours):# 重新计算外接矩形(x, y, w, h) = cv2.boundingRect(c)# region of interest 感兴趣的区域# 取出每个数字roi = ref[y:y + h, x: x + w]# resize成合适的大小# print('roi0', roi)roi = cv2.resize(roi, (57, 88))# cv_show('roi1', roi)# print('roi', roi)digits[i] = roi
# print(digits)
信用卡图片处理
- 首先信用卡图片二值化
# 对信用卡图片进行处理
image = cv2.imread('./credit_card_03.png')
# cv_show('image', image)
# 对信用卡图片进行resize
# 为了保证原图不拉伸, 需要计算出原图的长宽比.
h, w = image.shape[:2]
width = 300
r = width / w
image = cv2.resize(image, (300, int(h * r)))
# cv_show('image', image)
# 灰度化处理
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
cv_show('gray', gray)
2.接下来是形态学的各种操作,顶帽操作,突出更明亮的区域
顶帽操作是原图像与图像开运算结果之间的差,它把开运算“去掉”的细节显现出来。
# 初始化卷积核
rect_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9, 3))
tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rect_kernel)
cv_show('tophat', tophat)
3.直接应用闭操作可能就足够了,结合Sobel算子和其他图像处理技术可能会产生更好的效果
# sobel算子
grad_x = cv2.Sobel(tophat, ddepth=cv2.CV_32F, dx=1, dy=0, ksize=-1)
# print(grad_x)
# 对grad_x进行处理
# 只用x轴方向的梯度
grad_x = np.absolute(grad_x)
# 再把grad_x变成0到255之间的整数
min_val, max_val = np.min(grad_x), np.max(grad_x)
grad_x = ((grad_x - min_val) / (max_val - min_val)) * 255
# 修改一下数据类型
grad_x = grad_x.astype('uint8')
cv_show('grad_x', grad_x)
4.闭操作, 先膨胀, 再腐蚀, 可以把数字连在一起
grad_x = cv2.morphologyEx(grad_x, cv2.MORPH_CLOSE, rect_kernel)
cv_show('gradx', grad_x)
# 通过大津(OTSU)算法找到合适的阈值, 进行全局二值化操作.
_, thresh = cv2.threshold(grad_x, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
cv_show('thresh', thresh)# 中间还有空洞, 再来一个闭操作
sq_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5, 5))
thresh = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, sq_kernel)
cv_show('thresh', thresh)
5.原图上找到对应轮廓
thresh_contours, _ = cv2.findContours(thresh.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
# 在原图上画轮廓
image_copy = image.copy()
cv2.drawContours(image_copy, thresh_contours, -1, (0, 0, 255), 3)
cv_show('img', image_copy)
6.遍历轮廓, 计算外接矩形, 然后根据实际信用卡数字区域的长宽比, 找到真正的数字区域
locs = []
output = []
for c in thresh_contours:# 计算外接矩形(x, y, w, h) = cv2.boundingRect(c)# 计算外接矩形的长宽比例ar = w / float(h)# 选择合适的区域# print(ar)if ar > 2.5 and ar < 4.0:# 在根据实际的长宽做进一步的筛选if (w > 40 and w < 55) and (h > 10 and h < 20):# 符合条件的外接矩形留下来locs.append((x, y, w, h))# 对符合要求的轮廓进行从左到右的排序.
sorted(locs, key=lambda x: x[0])# 遍历每一个外接矩形, 通过外接矩形可以把原图中的数字抠出来.
for (i, (gx, gy, gw, gh)) in enumerate(locs):# 抠出数字区域, 并且加点余量group = gray[gy - 5: gy + gh + 5, gx - 5: gx + gw + 5]cv_show('group', group)# 对取出灰色group做全局二值化处理group = cv2.threshold(group, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]cv_show('group', group)
7.接下来和模板中取出数字区域的逻辑类似
# 计算轮廓digit_contours, _ = cv2.findContours(group.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)# 对轮廓进行排序bounding_boxes = [cv2.boundingRect(c) for c in digit_contours](digit_contours, _) = zip(*sorted(zip(digit_contours, bounding_boxes), key=lambda b: b[1][0]))# 定义每一组匹配到的数字的存放列表group_output = []print('digit_contours', digit_contours)image_copy = image.copy()cv2.drawContours(image_copy, digit_contours, -1, (0, 0, 255), 3)# 遍历排好序的轮廓for c in digit_contours:# 找到当前数字的轮廓, resize成合适的大小, 然后再进行模板匹配(x, y, w, h) = cv2.boundingRect(c)# 取出数字roi = group[y: y + h, x: x + w]roi = cv2.resize(roi, (57, 88))cv_show('roi', roi)
进行模板匹配
# 定义保存匹配得分的列表scores = []for (digit, digit_roi) in digits.items():result = cv2.matchTemplate(roi, digit_roi, cv2.TM_CCOEFF)# 只要最大值, 即分数(_, score, _, _) = cv2.minMaxLoc(result)scores.append(score)# 找到分数最高的数字, 即我们匹配到的数字lgroup_output.append(str(np.argmax(scores)))# 画出轮廓和显示数字cv2.rectangle(image, (gx - 5, gy - 5), (gx + gw + 5, gy + gh + 5), (0, 0, 255), 1)cv2.putText(image, ''.join(group_output), (gx, gy - 15), cv2.FONT_HERSHEY_SIMPLEX, 0.6, (0, 0, 255), 2)output.extend(group_output)
cv2.imwrite('image.jpg', image)
cv_show('image', image)
最后将识别出的数字显示在原图上对应数字区域上方