引言
大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者。本系列文章是我跟随DataWhale 2024年10月学习赛的AI金融攻防赛学习总结文档。本文主要讲解如何在金融场景凭证篡改检测中应用YOLO算法。我们将从模型概述、数据准备、训练流程以及模型评估等多个方面,详细介绍如何搭建一个高效的目标检测模型。希望我的经验能对大家有所帮助!💕💕😊
一、物体检测与YOLO算法介绍
1. 什么是物体检测?
物体检测是计算机视觉中的一个重要任务,它不仅需要识别图像中的对象类别,还要确定对象在图像中的位置,并以边界框的形式标注出来(类别+位置)。物体检测的应用场景包括自动驾驶、视频监控、工业检测、金融凭证核验等领域。
物体检测的一般步骤:
- 输入:一张图像或视频帧,对其进行缩放。
- 特征提取:通过卷积神经网络(CNN)提取视觉特征,为检测提供基础。
- 候选区域生成:部分算法会生成可能含有目标的区域(如R-CNN)。
- 分类与边界框回归:判断区域内物体的类别并回归出精确的边界框坐标。
- 非极大值抑制(NMS):去除重复的边界框,保留最高置信度的框。
2. YOLO算法概述
YOLO(You Only Look Once)是一种高效的实时目标检测算法,将检测任务视为一个单一的回归问题。与传统的滑动窗口方法不同,YOLO在一次网络评估中即可同时预测多个边界框和类别概率。其设计能够兼顾检测速度和精度,非常适合金融凭证篡改检测这种需要实时处理的任务。
YOLO算法并行预测原理
YOLO(You Only Look Once)算法之所以能够同时预测多个边界框和类别概率,主要是因为它将目标检测任务视为一个单一的回归问题。具体来说,YOLO通过以下几个关键步骤实现这一目标:
-
单一网络评估:YOLO将整个图像输入到一个卷积神经网络(CNN)中,网络在一次前向传播过程中直接输出所有边界框和类别概率。这与传统的滑动窗口方法不同,滑动窗口方法需要多次评估图像的不同区域,而YOLO只需要一次评估。
-
网格划分:YOLO将输入图像划分为一个S×S的网格(例如,7×7)。每个网格单元负责预测在其中心附近的目标。每个网格单元可以预测多个边界框(通常是B个,例如B=2),并且每个边界框都与一个类别概率相关联。
-
边界框预测:每个网格单元预测B个边界框,每个边界框由5个参数组成:边界框的中心坐标(x, y)、边界框的宽度和高度(w, h),以及一个置信度(confidence)。置信度表示该边界框包含目标的概率。
-
类别概率预测:每个网格单元还预测C个类别概率,表示该网格单元中目标属于每个类别的概率。这些类别概率与边界框无关,而是基于网格单元的内容。
相关公式理论:
1. 置信度(Confidence):
- 置信度的计算公式为:
Confidence = Pr(Object) × IOU(pred, truth) \text{Confidence} = \text{Pr(Object)} \times \text{IOU(pred, truth)} Confidence=Pr(Object)×IOU(pred, truth)
- Pr(Object):表示网格单元中存在目标的概率。如果网格单元中没有目标,Pr(Object)为0;如果有目标,Pr(Object)为1。
- IOU(pred, truth):表示预测边界框与真实边界框的交并比(Intersection over Union)。IOU的值范围在0到1之间,值越大表示预测框与真实框的重叠程度越高。
2. 类别概率(Class Probability)
- 类别概率的计算公式为:
Class Probability = Pr(Class i ∣ Object) \text{Class Probability} = \text{Pr(Class}_i | \text{Object)} Class Probability=Pr(Classi∣Object)
- Pr(Class_i | Object):表示在网格单元中存在目标的情况下,目标属于第i类的概率。
- 最终预测:
最终的预测结果是每个边界框的置信度与类别概率的乘积:
Final Prediction = Confidence × Class Probability \text{Final Prediction} = \text{Confidence} \times \text{Class Probability} Final Prediction=Confidence×Class Probability- 举例:
假设我们有一个7×7的网格,每个网格单元预测2个边界框,并且我们有3个类别(例如,人、车、自行车)。- 网格划分:图像被划分为7×7的网格,总共有49个网格单元。
- 边界框预测:每个网格单元预测2个边界框,每个边界框有5个参数(x, y, w, h, confidence)。假设某个网格单元预测的两个边界框为:
- 边界框1:(x1, y1, w1, h1, confidence1)
- 边界框2:(x2, y2, w2, h2, confidence2)
- 类别概率预测:
每个网格单元还预测3个类别概率(人、车、自行车)。假设某个网格单元的类别概率为:
- 人:0.8
- 车:0.1
- 自行车:0.1
- 最终预测:对于每个边界框,最终的预测结果是置信度与类别概率的乘积。例如:
- 边界框1的最终预测:(confidence1 * 0.8, confidence1 * 0.1, confidence1 * 0.1)
- 边界框2的最终预测:(confidence2 * 0.8, confidence2 * 0.1, confidence2 * 0.1)
由此,YOLO能够在一次前向传播中同时预测多个边界框和类别概率,从而实现快速且高效的目标检测。
二、YOLO版本演进与特性
YOLO算法自2015年推出以来经历了多次迭代,每一代都在速度、准确性和易用性方面进行了改进:
版本 | 年份 | 主要贡献与特点 |
---|---|---|
YOLOv1 | 2015 | 将检测视为回归问题,单次网络预测物体类别与位置。 |
YOLOv2 | 2016 | 引入批量归一化和高分辨率分类器,支持多达9000个类别的检测。 |
YOLOv3 | 2018 | 使用Darknet-53骨干网络,提高了多尺度检测能力。 |
YOLOv4 | 2020 | 融合CSPNet和PANet等技术,提升特征提取效率。 |
YOLOv5 | 2020 | 用PyTorch实现,更易用,适应不同场景。 |
YOLOv8 | 2023 | 引入Anchor-Free检测头和新损失函数,提升性能与灵活性。 |
YOLOv10 | 2024 | 取消NMS操作,优化组件,实现最高性能。 |
三、YOLO数据集格式与标注
YOLO算法的标注格式主要使用.txt
文件记录图像中的物体信息。每一行代表一个物体的类别及其边界框坐标,格式如下:
class_index x_center y_center width height
- class_index:类别索引,对应于类别列表中的整数。
- x_center, y_center:物体中心的x和y坐标,归一化到[0, 1]范围。
- width, height:物体边界框的宽度和高度,同样归一化处理。
示例配置文件 (YOLO.yaml):
path: ../dataset/ # 数据集根目录
train: images/train/ # 训练集路径
val: images/val/ # 验证集路径# 类别数量和名称
nc: 2 # 类别数量
names: ["0", "1"] # 类别名称
本此比赛的baseline中则是这个data.yaml的文件:
ok,看完Yolo的基本介绍后,我们根据本次比赛的baseLine代码来提出Yolo的训练过程吧!
四、金融检测YOLO模型的训练与评估流程
为了提升模型在金融场景中的应用效果,我们可以采取以下优化措施:
- 增加训练数据:整合更多高质量数据集,提升模型的泛化能力。
- 使用不同的预训练权重:在已有模型上微调,提升精度。
- 模型部署:将训练好的模型部署到云端或本地服务器,实时检测凭证篡改行为。
作者将在下面整理本次比赛代码流程:
1.安装必要的库
pip install ultralytics opencv-python-headless albumentations pandas numpy
2.导入依赖库
import os
import cv2
import shutil
import numpy as np
import pandas as pd
import albumentations as A
from ultralytics import YOLOprint('依赖库导入成功!')
3.定义图像增强和处理函数
# 绘制多边形到二值 mask 上
def polygon_to_mask(polygon, img_height, img_width):mask = np.zeros((img_height, img_width), dtype=np.uint8)polygon = np.array([polygon], dtype=np.int32)cv2.fillPoly(mask, polygon, 1)return mask# 增强图像并生成 mask
def augment_image(img, polygons):mask = np.zeros(img.shape[:2], dtype=np.uint8)for polygon in polygons:polygon_mask = polygon_to_mask(polygon, img.shape[0], img.shape[1])mask = np.maximum(mask, polygon_mask)transform = A.Compose([A.HorizontalFlip(p=0.5),A.VerticalFlip(p=0.5),A.RandomRotate90(p=0.5),A.RandomBrightnessContrast(p=0.2),], is_check_shapes=False)augmented = transform(image=img, mask=mask)return augmented['image'], augmented['mask']# 归一化多边形坐标
def normalize_polygon(polygon, img_width, img_height):return [(x / img_width, y / img_height) for x, y in polygon]print('图像增强和归一化函数定义成功!')
4. 处理训练集和验证集
# 加载数据集(假设已有一个包含路径和多边形数据的DataFrame:training_anno)
training_anno = pd.read_csv('annotations.csv') # 替换为你的注释文件路径# 处理训练数据集
for _, row in training_anno.iloc[:14000].iterrows():shutil.copy(row['Path'], 'yolo_seg_dataset/train/')img = cv2.imread(row['Path'])img_height, img_width = img.shape[:2]# 数据增强img, mask = augment_image(img, row['Polygons'])# 保存标签文件txt_filename = os.path.join('yolo_seg_dataset/train/', row['Path'].split('/')[-1][:-4] + '.txt')with open(txt_filename, 'w') as f:for polygon in row['Polygons']:normalized_polygon = normalize_polygon(polygon, img_width, img_height)normalized_coords = ' '.join([f'{coord[0]:.3f} {coord[1]:.3f}' for coord in normalized_polygon])f.write(f'0 {normalized_coords}\n')print('训练集处理完成!')# 处理验证集
for _, row in training_anno.iloc[14000:17000].iterrows():shutil.copy(row['Path'], 'yolo_seg_dataset/valid/')img = cv2.imread(row['Path'])img_height, img_width = img.shape[:2]mask = np.zeros(img.shape[:2], dtype=np.uint8)for polygon in row['Polygons']:polygon_mask = polygon_to_mask(polygon, img.shape[0], img.shape[1])mask = np.maximum(mask, polygon_mask)txt_filename = os.path.join('yolo_seg_dataset/valid/', row['Path'].split('/')[-1][:-4] + '.txt')with open(txt_filename, 'w') as f:for polygon in row['Polygons']:normalized_polygon = normalize_polygon(polygon, img_width, img_height)normalized_coords = ' '.join([f'{coord[0]:.3f} {coord[1]:.3f}' for coord in normalized_polygon])f.write(f'0 {normalized_coords}\n')print('验证集处理完成!')
5.创建配置文件
# 创建数据集的配置文件 data.yaml
with open('yolo_seg_dataset/data.yaml', 'w') as f:data_root = os.path.abspath('yolo_seg_dataset/')f.write(f'''
path: {data_root}
train: train
val: validnames:0: alter
''')print('配置文件创建成功!')
6.训练模型
print('开始模型训练!')# 加载 YOLOv8 分割模型并进行训练
model = YOLO("yolov8l-seg.pt") # 使用较大的 YOLOv8-L 分割模型
results = model.train(data="./yolo_seg_dataset/data.yaml", epochs=50, imgsz=640) # 设置训练轮数为50print('模型训练完成!')
7.保存和验证结果
# 保存训练结果
results.save("yolo_seg_results/")
# 打印训练结果摘要
print(results)
- 安装依赖:安装必要的 Python 包,如
ultralytics
、opencv
、albumentations
等。 - 定义增强函数:通过 Albumentations 进行图像增强,并生成 mask。
- 处理数据集:将训练集和验证集中的图像及其标签进行增强和格式化。
- 创建配置文件:定义数据集路径和类别名称。
- 训练模型:加载 YOLOv8 分割模型,使用增强后的数据集进行训练,并保存结果。
相信看完以上代码后,读者对这个流程有了自己的理解;我们再来了解一下实例分割的概念与原理吧!
五、YOLO实例分割原理
1.实例分割的概念
实例分割(Instance Segmentation)是一种计算机视觉任务,它**不仅需要识别图像中的每个物体,还需要精确地分割出每个物体的像素级边界。**与物体检测(Object Detection)不同,物体检测只需要识别出图像中物体的边界框(Bounding Box),而实例分割则需要进一步将每个物体的像素精确地分割出来。
上图中面积区域是实例分割的结果,框选区域是目标识别的结果;
2.实例分割与物体识别的区别
-
物体检测(Object Detection):
- 任务:识别图像中物体的类别和位置。
- 输出:每个物体的边界框(Bounding Box)和类别标签。
- 示例:YOLO、Faster R-CNN。
-
实例分割(Instance Segmentation):
- 任务:识别图像中每个物体的类别,并精确地分割出每个物体的像素级边界。
- 输出:每个物体的像素级掩码(Mask)和类别标签。
- 示例:Mask R-CNN、YOLOv8。
3.YOLO实例分割
YOLOv8通过扩展其基本的目标检测框架,实现了实例分割功能。以下是YOLOv8实现实例分割的关键步骤和原理:
-
多任务损失函数:
- 边界框损失:评估预测框与真实框之间的差异。
- 分类损失:预测类别与真实类别的误差。
- 分割损失:预测掩码与真实掩码的差异。
- DFL损失:用于优化预测框的边缘精度。
-
特征提取:
- YOLOv8使用卷积神经网络(CNN)提取图像特征。这些特征图(
feats
)包含了图像的高级语义信息。
- YOLOv8使用卷积神经网络(CNN)提取图像特征。这些特征图(
-
原型掩码生成:
- 在特征提取之后,YOLOv8生成一组原型掩码(
proto
)。这些原型掩码是基于特征图生成的,用于表示不同物体的潜在掩码形状。
- 在特征提取之后,YOLOv8生成一组原型掩码(
-
预测掩码生成:
- 基于原型掩码和特征图,YOLOv8生成预测掩码(
pred_masks
)。这些预测掩码是每个物体的像素级掩码。
- 基于原型掩码和特征图,YOLOv8生成预测掩码(
-
掩码组合:
- 最终的实例掩码是通过组合预测掩码和原型掩码生成的。这个过程考虑了不同目标之间的掩码重叠情况,并对重叠区域进行处理。
-
损失计算与优化:
- 在训练过程中,YOLOv8使用多任务损失函数来优化模型的参数。通过最小化边界框损失、分类损失、分割损失和DFL损失,模型能够同时学习物体检测和实例分割任务。
示例
假设我们有一张包含多个物体的图像,例如一张包含汽车、行人和自行车的街道图像。
-
物体检测:
- YOLOv8首先识别出图像中的每个物体,并生成它们的边界框。例如,它会识别出汽车、行人和自行车的边界框。
-
实例分割:
- 在物体检测的基础上,YOLOv8进一步生成每个物体的像素级掩码。例如,它会生成汽车、行人和自行车的像素级掩码,精确地分割出每个物体的像素。
代码如下:
import cv2from ultralytics import YOLO
from ultralytics.utils.plotting import Annotator, colorsmodel = YOLO("yolo11n-seg.pt") # segmentation model
names = model.model.names
cap = cv2.VideoCapture("path/to/video/file.mp4")
w, h, fps = (int(cap.get(x)) for x in (cv2.CAP_PROP_FRAME_WIDTH, cv2.CAP_PROP_FRAME_HEIGHT, cv2.CAP_PROP_FPS))out = cv2.VideoWriter("instance-segmentation.avi", cv2.VideoWriter_fourcc(*"MJPG"), fps, (w, h))while True:ret, im0 = cap.read()if not ret:print("Video frame is empty or video processing has been successfully completed.")breakresults = model.predict(im0)annotator = Annotator(im0, line_width=2)if results[0].masks is not None:clss = results[0].boxes.cls.cpu().tolist()masks = results[0].masks.xyfor mask, cls in zip(masks, clss):color = colors(int(cls), True)txt_color = annotator.get_txt_color(color)annotator.seg_bbox(mask=mask, mask_color=color, label=names[int(cls)], txt_color=txt_color)out.write(im0)cv2.imshow("instance-segmentation", im0)if cv2.waitKey(1) & 0xFF == ord("q"):breakout.release()
cap.release()
cv2.destroyAllWindows()
通过这种方式,YOLOv8不仅能够识别图像中的物体,还能够精确地分割出每个物体的像素级边界,从而实现实例分割任务。
OK! 今天就学习到这里了!😉
七、总结
通过本次AI金融攻防赛的学习和实践,我们深入了解了凭证篡改检测这一关键问题,并成功构建了一个基于YOLOv8l的检测模型。通过数据标注、模型训练和评估,我们验证了YOLO在金融凭证检测任务中的高效性和可靠性。OK,初步解析到此结束!更多内容看后续;希望这篇博客能为您的项目提供帮助!🚀
相关链接
- 项目地址:Git地址
- 活动地址:AI核身之金融场景凭证篡改检测
- 相关文档:专栏地址
- 作者主页:GISer Liu-CSDN博客
如果觉得我的文章对您有帮助,记得三连+关注哦!🌟