本文主要以狗的姿势估计为例,展示如何对当下流行的YOLOv8姿势模型进行Fine-tuning,并附录完整代码。
动物姿势估计是计算机视觉领域的一个研究方向,它是人工智能的一个子领域,专注于自动检测和分析图像或视频中动物的姿势和位置。其目标是确定一个或多个动物身体部位的空间排列,例如头部、四肢和尾巴等。该技术在动物行为、生物力学、野生动物保护及监测等领域应用广泛。
对动物关键点进行Fine-tuning可能具有挑战性,并且需要对多个超参数进行调整。而值得庆幸的是,Yolov8在模型的Fine-tuning过程中提供了对许多超参数的自定义。具体而言,我们将对以下Yolov8姿势模型进行Fine-tuning:
- YOLOv8m (medium)
- YOLOv8l (large)
1. 用于动物姿势估计的斯坦福犬类数据集
对于我们的动物姿势估计实验,我们将使用斯坦福犬类数据集,该数据集包含20580张图片中的120个狗品种。此外,该数据集还包含这些图片的边界框注释。
关键点注释需要从StandfordExtra数据集中下载。关键点注释提供了12538张图片上的狗姿势的20个关键点(每条腿3个关键点,每只耳朵2个关键点,尾巴、鼻子和下颌各2个关键点)。
下载的注释将包含以下结构:
StanfordExtra_V12
├── StanfordExtra_v12.json
├── test_stanford_Stan