基于YOLOv8算法的照片角度分类项目实践

目录

  • 一、任务概述
  • 二、YOLOv8算法简介
    • 2.1 算法改进
    • 2.2 算法特点
    • 2.3 网络结构
    • 2.4 性能比较
  • 三、工程实践
    • 3.1 安装算法框架库ultralytics
    • 3.2 库存照片预处理
      • 3.2.1 提取所有图片
      • 3.2.2 去除冗余的相同照片
      • 3.2.3 去除无车辆照片
      • 3.2.4 随机提取指定数量的图片
    • 3.3 照片朝向分类
      • 3.3.1 数据准备
      • 3.3.2 训练和评估
      • 3.3.3 预测

一、任务概述

最近一个项目,需要针对库存的车辆照片运用人工智能算法进行照片朝向分类和矫正,算法在设计时需要满足轻量化需求,适合在CPU环境中进行快速推理。在具体实现时,可以将照片分为4个类别:ni_0、ni_90、ni_180、ni_270,分别表示照片经过0度、90度、180度、270度逆向旋转。综和考虑算法精度和速度要求,本文拟采用YOLOv8算法来实现该任务。

YOLOv8 是当前业界领先的感知模型,它建立在以前 YOLO 版本的基础上,引入了新的功能并做了相关改进,提升了性能和灵活性。具体创新包括一个新的骨干网络、一个新的 Ancher-Free 检测头和一个新的损失函数,可以在从 CPU 到 GPU 的各种硬件平台上运行。

二、YOLOv8算法简介

  • YOLOv8作者:glenn-jocher
  • 项目链接:https://github.com/ultralytics/ultralytics

YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来,领域内的研究者们已经对 YOLO 进行了多次更新迭代,模型性能越来越强大。当前最新版本为YOLOv8。

具体的,YOLOv8 是由小型初创公司 Ultralytics 创建并维护的,值得注意的是 YOLOv5 也是由该公司创建的。

2.1 算法改进

YOLOv8 算法的核心特性和改动可以归纳如下:

  • 基本特性:提供了一个全新的 SOTA 模型,包括P5 640P6 1280 分辨率的目标检测网络和基于 YOLACT 的实例分割模型。和 YOLOv5 一样,基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型,用于满足不同场景需求。
  • 骨干网络和 Neck 网络:参考了 YOLOv7 ELAN 设计思想,将 YOLOv5 的 C3 结构换成了梯度流更丰富的 C2f 结构,并对不同尺度模型调整了不同的通道数,这种精心微调方式大幅提升了模型性能。不过这个C2f 模块中存在 Split 等操作,对特定硬件部署没有之前那么友好了。
  • Head网络:相比 YOLOv5 改动较大,换成了目前主流的解耦头结构,将分类和检测头分离,同时也从 Anchor-Based 换成了 Anchor-Free。
  • Loss损失函数:采用了 TaskAlignedAssigner 正样本分配策略,并引入了 Distribution Focal Loss。

从上面可以看出,YOLOv8 主要参考了最近提出的诸如 YOLOX、YOLOv6、YOLOv7 和 PPYOLOE 等算法的相关设计,本身的创新点不多,偏向工程实践。

2.2 算法特点

  • 对用户友好的 API(命令行 + Python);
  • 模型更快更准确;
  • 模型能完成常见的图像感知任务,包括图像分类、目标检测、实例分割、关键点检测和视频跟踪;
  • 与先前所有版本的 YOLO 兼容可扩展;

2.3 网络结构

在这里插入图片描述
上图所示即为YOLOv8的完整模型结构图。

查看 N/S/M/L/X 等不同大小模型,可以发现 N/S 和 L/X 两组模型只是改了缩放系数,但是 S/M/L 等骨干网络的通道数设置不一样,没有遵循同一套缩放系数。如此设计的原因应该是同一套缩放系数下的通道设置不是最优设计,YOLOv7 网络设计时也没有遵循一套缩放系数作用于所有模型。

Head 部分变化最大,从原先的耦合头变成了解耦头,其结构如下所示:
在这里插入图片描述
可以看出,不再有之前的 objectness 分支,只有解耦的分类和回归分支,并且其回归分支使用了 Distribution Focal Loss 中提出的积分形式表示法。

2.4 性能比较

在这里插入图片描述
YOLOv8是由小型初创公司 Ultralytics 创建并维护的,不过 Ultralytics 并没有直接将开源库命名为 YOLOv8,而是直接使用 Ultralytics 这个词,原因是 Ultralytics 将这个库定位为算法框架,而非某一个特定算法。

Ultralytics 开源库的两个主要优点是:

  • 融合众多当前 SOTA 技术于一体;
  • 未来将支持其他 YOLO 系列以及 YOLO 之外的更多算法;

三、工程实践

下面开始针对实际工程任务进行操作。

3.1 安装算法框架库ultralytics

YOLOv8算法位于开源框架库ultralytics中,因此先要安装ultralytics。
安装方式如下:

 pip install ultralytics

为了方便后续配置和使用,可以将github上的ultralytics源码拉取到本地:

git clone https://github.com/ultralytics/ultralytics.git@main

3.2 库存照片预处理

3.2.1 提取所有图片

假设库存照片位于名为“第一批原始照片”的文件夹中,由于库存照片目录结构混乱,图像格式不统一,因此需要将所有图片提取到一个统一的文件夹中,并且所有图片以jpg格式保存,这样方便后续使用。

在同目录下创建文件夹car_data/1,然后使用下面的脚本完成图片提取和转换。

import os
import cv2
import numpy as npdef getFileList(dir, Filelist, ext=None):"""获取文件夹及其子文件夹中文件列表输入 dir:文件夹根目录输入 ext:扩展名返回: 文件路径列表"""newDir = dirif os.path.isfile(dir):if ext is None:Filelist.append(dir)else:if ext in dir[-3:]:Filelist.append(dir)elif os.path.isdir(dir):for s in os.listdir(dir):newDir = os.path.join(dir, s)getFileList(newDir, Filelist, ext)return Filelistorg_img_folder = "./第一批原始照片"# 检索文件
imglist = getFileList(org_img_folder, [], "jpg")
print("本次执行检索到 " + str(len(imglist)) + " 张图像\n")imgIndex = 1
for imgpath in imglist:print(imgpath)try:img = cv2.imdecode(np.fromfile(imgpath, dtype=np.uint8), -1)if img is None:print('读取失败')continueif len(img.shape) == 2:img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR)elif img.shape[2] == 1:img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR)elif img.shape[2] == 4:img = cv2.cvtColor(img, cv2.COLOR_BGRA2BGR)savepath = os.path.join("car_data/1", 'jianyan_' + str(imgIndex) + ".jpg")cv2.imwrite(savepath, img)imgIndex += 1except:print("异常")else:passprint("完成")

上述脚本用来提取库存中的jpg照片,如果库存中还存在png或bmp图片,那么就修改代码:

imglist = getFileList(org_img_folder, [], "jpg")

将其中的jpg修改为png或bmp,同时修改对应的imgIndex起始标签值。

所有图片提取完以后都存放在car_data/1文件夹中,以jpg格式存储。库存总图片数达到89786张。

3.2.2 去除冗余的相同照片

库存照片中可能存在相同照片多次存放的问题,因此需要将完全相同的图像剔除掉,减少冗余。本文使用哈希比对算法来实现,具体脚本代码如下:

import os
import cv2
import shutil
from PIL import Image
import imagehashsrcFolder = 'car_data/1'
dstFolder = 'delimgs'
imgnames = os.listdir(srcFolder) # 计算所有图像哈希值
hashlst = []
for imgname in imgnames:print('计算哈希值中  '+imgname)hash_size = 16imgpath = os.path.join(srcFolder,imgname)hash = imagehash.dhash(Image.open(imgpath),hash_size=hash_size)hashlst.append(hash)# 检索相似图片
for curIndex in range(len(imgnames)-1):hash1 = hashlst[curIndex]print('比对中  '+imgnames[curIndex])for compIndex in range(curIndex+1,len(imgnames)):hash2 =  hashlst[compIndex]if hash1==hash2:imgname = imgnames[curIndex]dstpath = os.path.join(dstFolder, imgname)shutil.move(os.path.join(srcFolder,imgnames[curIndex]), dstpath)imgname = imgname.split('.')[0]dstpath = os.path.join(dstFolder, imgname+'_compare.jpg')shutil.copyfile(os.path.join(srcFolder,imgnames[compIndex]), dstpath)print('找到相同文件')break
print('完成')

去除冗余后的库存总图片数达到74125张。

3.2.3 去除无车辆照片

库存照片中存在大量无车辆的错误照片,因此需要写一个脚本将无车辆照片剔除掉。这里使用预先在coco数据集上训练好的yolov8算法来实现。具体脚本代码如下:

import cv2, os, shutil
from ultralytics import YOLO# 检索文件夹
folderpath = "./car_data/1"
dstFolder = './delimgs'
imgnames = os.listdir(folderpath)# 加载模型
model = YOLO("models/yolov8m-seg.pt")# 循环处理
for imgname in imgnames:# 读取图像imgpath = os.path.join(folderpath, imgname)print(imgpath)img = cv2.imread(imgpath)if img is None:os.remove(imgpath)continue# 车辆检索result = model(img, imgsz=640, conf=0.5)[0]boxes = result.boxesisfind = Falsefor box in boxes:classlabel = box.cls.cpu().numpy()[0]if classlabel == 1 or classlabel == 2 or classlabel == 3 or classlabel == 5 or classlabel == 7:isfind = Truebreak# 没找到车辆,删除图像if not isfind:dstpath = os.path.join(dstFolder, imgname)shutil.move(imgpath, dstpath)print('完成')

在delimgs文件夹中存放着剔除掉的图像,由于算法存在一定的漏检率,因此有些存在车辆的照片被错误的移动到这个delimgs文件夹中,需要人工复核,将这些照片“捞回去”。

去除无车辆照片后,库存总图片数达到51180张。

3.2.4 随机提取指定数量的图片

库存照片数据量庞大,本文只需要提取2万多张图片用来训练算法即可。

import os
import shutil,randomsrcFolder =  'car_data/1'
dstFolder = 'car_data/2'if not os.path.exists(dstFolder):os.makedirs(dstFolder)picIndex = 1
imgnames = os.listdir(srcFolder)
random.shuffle(imgnames)
for imgname in imgnames:if picIndex > 25000:continueimgpath = os.path.join(srcFolder, imgname)dstpath = os.path.join(dstFolder, imgname)shutil.move(imgpath, dstpath)picIndex += 1print('完成')  

提取好的图片位于car_data/2文件夹中,总数25000张。

3.3 照片朝向分类

3.3.1 数据准备

首先从预处理后的库存照片中精心挑选照片朝向正确的图像共计2万张整,然后分别对这2万张图像进行旋转,得到对应的逆90、逆180、逆270度角的三个类别图像,这样就组成了可以用来分类的图像库photo_direction,共计8万张图像,分4个类别。

完整生成脚本如下:

import os
from PIL import Imageni0_folder = "./dataset/car_data/ni0"
ni90_folder = "./dataset/car_data/ni90"
ni180_folder = "./dataset/car_data/ni180"
ni270_folder = "./dataset/car_data/ni270"# 创建文件夹
if not os.path.exists(ni90_folder):os.makedirs(ni90_folder)
if not os.path.exists(ni180_folder):os.makedirs(ni180_folder)
if not os.path.exists(ni270_folder):os.makedirs(ni270_folder)# 检索图像
img_names = os.listdir(ni0_folder)
for img_name in img_names:img_path = os.path.join(ni0_folder, img_name)print(img_path)# 读取图像img = Image.open(img_path)# 逆时针旋转90img90 = img.transpose(Image.ROTATE_90)save_path = os.path.join(ni90_folder, img_name)img90.save(save_path)# 逆时针旋转180img180 = img.transpose(Image.ROTATE_180)save_path = os.path.join(ni180_folder, img_name)img180.save(save_path)# 逆时针旋转270img270 = img.transpose(Image.ROTATE_270)save_path = os.path.join(ni270_folder, img_name)img270.save(save_path)print("完成")

其中ni0、ni90、ni180、ni270分别存储了逆时针0°、90°、180°、270°对应的图像。最后从每个文件夹中随机抽取2000张图片作为测试集用来评估算法。

最终数据集目录结构整理如下:

dataset/car_data/
|
|-- train/
|   |-- ni0/
|   |   |-- 10008.jpg
|   |   |-- 10009.jpg
|   |   |-- ...
|   |
|   |-- ni90/
|   |   |-- 1000.jpg
|   |   |-- 1001.jpg
|   |   |-- ...
|   |
|   |-- ni180/
|   |   |-- 10014.jpg
|   |   |-- 10015.jpg
|   |   |-- ...
|   |
|   |-- ni270/
|   |   |-- 10014.jpg
|   |   |-- 10015.jpg
|   |   |-- ...
|   |
|
|-- test/
|   |-- ni0/
|   |   |-- 10.jpg
|   |   |-- 11.jpg
|   |   |-- ...
|   |
|   |-- ni90/
|   |   |-- 12.jpg
|   |   |-- 13.jpg
|   |   |-- ...
|   |
|   |-- ni180/
|   |   |-- 14.jpg
|   |   |-- 15.jpg
|   |   |-- ...
|   |
|   |-- ni270/
|   |   |-- 16.jpg
|   |   |-- 17.jpg
|   |   |-- ...

上述结构就是ultralytics的图像分类所需要的目录结构,整个数据集分为train和test两个文件夹,其中每个种类的图片都放在一起,每个种类的文件夹名称即为对应的类别名称。

3.3.2 训练和评估

找到ultralytics/cfg/models/v8中找到yolov8-cls.yaml文件,拷贝一份到ultralytics/configs目录下面,并重命名为yolov8-cls-photodirection.yaml,修改该文件中的nc参数为4,表示共有4个类别。

训练代码如下:

from ultralytics import YOLO# 加载预训练模型和配置文件
model = YOLO('./configs/yolov8m-cls-photodirection.yaml').load('yolov8m-cls.pt')# 训练模型
results = model.train(data='./dataset/car_data', epochs=100, imgsz=64, batch=32, device='0,1')

启动训练后如果本地没有预训练模型yolov8-cls.pt,则ultralytics框架会自动从github上进行下载。需要注意的是创建的yaml名称为yolov8-cls-photodirection.yaml,而在代码中调用的是yolov8s-cls-photodirection.yaml,这是ultralytics框架提供的一个功能,我们只需要配置一份yaml文件,即可适配不同规模任务的分类模型,包括:

  • YOLOv8n-cls
  • YOLOv8s-cls
  • YOLOv8m-cls
  • YOLOv8l-cls
  • YOLOv8x-cls

本文共使用7万多张照片在2个GPU上进行训练,测试集为2000张图片,总耗时约17个小时。在测试集上的最佳top1准确率为0.985。

3.3.3 预测

训练好模型以后,使用下面的代码可以对单张图片进行预测和矫正:

from ultralytics import YOLO
import cv2
from PIL import Image
import numpy as np# 加载模型
model = YOLO('./runs/classify/train/weights/best.pt')# 预测模型
img = cv2.imread('./imgs/7.jpg')
results = model(img)
label = int(results[0].probs.top1) # 标签类别
labelconf = results[0].probs.top1conf.cpu().numpy() # 置信度
print(label)
print(labelconf)# 矫正
Thr = 0.8
if labelconf > Thr:if label == 1: # 逆时针180度img = Image.fromarray(cv2.cvtColor(img,cv2.COLOR_BGR2RGB))img = img.transpose(Image.ROTATE_180)img = cv2.cvtColor(np.asarray(img),cv2.COLOR_RGB2BGR)save_path = './imgs/result.jpg'cv2.imwrite(save_path,img)elif label == 2: # 逆时针270度img = Image.fromarray(cv2.cvtColor(img,cv2.COLOR_BGR2RGB))img = img.transpose(Image.ROTATE_90)img = cv2.cvtColor(np.asarray(img),cv2.COLOR_RGB2BGR)save_path = './imgs/result.jpg'cv2.imwrite(save_path,img)elif label == 3: # 逆时针90度img = Image.fromarray(cv2.cvtColor(img,cv2.COLOR_BGR2RGB))img = img.transpose(Image.ROTATE_270)img = cv2.cvtColor(np.asarray(img),cv2.COLOR_RGB2BGR)save_path = './imgs/result.jpg'cv2.imwrite(save_path,img)

最终输出的是分类标签、置信度以及矫正过后的车辆照片。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/665057.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32--USART串口(2)串口外设

一、USART简介 可配置数据位:不需要校验就是8位,需要校验就选9位; 停止位:决定了帧的间隔; STM32F103C8T6USART:USART1挂载在APB2总线上,USART2和USART3挂载在APB1总线上; 二、USART框图 TXE…

excel给数据库初始化/旧数据处理(自动sql拼装)

思路: 首先导出数据到excel编写单条数据操作的sql利用excel CONCATENATE 函数自动生成,每一行数据的操作sql 小技巧:对于需要套娃的字段值,可以加一个临时列同样使用CONCATENATE函数进行sql拼装 案例: 1.临时列:CONCATENATE(C2, …

分库分表 21 条法则,hold 住!

大家好~今天给大家分享分库分表的 21 条法则 我们结合具体业务场景,以t_order表为例进行架构优化。由于数据量已经达到亿级别,查询性能严重下降,因此我们采用了分库分表技术来处理这个问题。具体而言,我们将原本的单库…

【Python小游戏】五子棋小游戏(完整代码)

文章目录 写在前面Tkinter简介五子棋小游戏游戏介绍程序设计运行结果注意事项写在后面写在前面 本期内容:基于tkinter开发一个五子棋小游戏 实验环境 python3.11及以上pycharmtkinterTkinter简介 Tkinter是Python中最常用的图形用户界面(GUI)库之一,用于创建窗口、对话框…

如何搭建私有云盘SeaFile并实现远程访问本地文件资料

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-hsDnDEybLME85dTx {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

Web项目利用OSS进行图像存储服务

一、OSS介绍 在Web项目中,一些常见的功能,比如展示图片,修改头像等,都需要进行图片的上传操作,但是如果是存储在Web服务器中,在读取图片的时候会占用比较多的资源,影响服务器的性能。 常…

【数据结构】双向带头循环链表实现及总结

简单不先于复杂&#xff0c;而是在复杂之后。 文章目录 1. 双向带头循环链表的实现2. 顺序表和链表的区别 1. 双向带头循环链表的实现 List.h #pragma once #include <stdio.h> #include <assert.h> #include <stdlib.h> #include <stdbool.h>typede…

fastDFS客户端实现文件上传

一、准备工作 请确保fastDFS的tracker服务和storage服务都是处于启动状态&#xff0c;防火墙是关闭的&#xff1b; 二、具体步骤 1、pom.xml 2、让当前的微服务成为fdfs的客户端 package com.qf.config;import com.github.tobato.fastdfs.FdfsClientConfig; import org.sprin…

JMeter HTTP请求的详细指南,还不知道的快来看

HTTP请求简介 在JMeter中&#xff0c;服务器名称和它的路径对于检查请求是否到达了正确的目的地非常重要。默认情况下&#xff0c;HTTP协议与请求一起被遵循&#xff0c;如果需要&#xff0c;可以转换为HTTPS。如果需要&#xff0c;用户参数可以包含在特定页面的请求中。如果&a…

MySQL查询缓存

MySQL查询缓存 MySQL在查询的时候首先会查询缓存&#xff0c;如果缓存命中的话就直接返回结果&#xff0c;不需要解析sql语句&#xff0c;也不会生成执行计划&#xff0c;更不会执行&#xff1b;如果没有命中缓存&#xff0c;则再进行SQL解析以及进行查询&#xff0c;并将结果返…

机器学习系列-2 线性回归训练损失

机器学习系列-2 线性回归&训练损失 学习内容来自&#xff1a;谷歌ai学习 https://developers.google.cn/machine-learning/crash-course/framing/check-your-understanding?hlzh-cn 本文作为学习记录1 线性回归&#xff1a; 举例&#xff1a;蝉&#xff08;昆虫物种&…

安装配置sqoop

一、了解Sqoop 1、Sqoop产生的原因 A. 多数使用hadoop技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。 B. 由于没有工具支持,对hadoop和关系型数据库之间数据传输是一个很困难的事。 以上是sqoop产生的主要原因,也因此Sqoop主要用于hadoop与关系型数据库之…

深度学习:数据驱动的人工智能革命

文章目录 每日一句正能量前言什么是深度学习推动AI发展不同阶段的“三大驱动 ”1、技术驱动&#xff1a;算法和计算力是主要驱动力2、计算力的三驾马车&#xff1a;芯片、超级计算机、云计算3、数据驱动&#xff1a;描绘个性化画像&#xff1b; 后记 每日一句正能量 一般青年的…

telnet笔记

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、场景二、介绍1.测试端口2.访问百度3. 简单的爬虫 前言 最近telnet命令用的比较多&#xff0c;所以记录一下。 一、场景 ping应该是大家最常用的命令&…

深入理解Istio服务网格数据平面Envoy

一、服务网格概述(service mesh) 在传统的微服务架构中&#xff0c;服务间的调用&#xff0c;业务代码需要考虑认证、熔断、服务发现等非业务能力&#xff0c;在某种程度上&#xff0c;表现出了一定的耦合性 服务网格追求高级别的服务流量治理能力&#xff0c;认证、熔断、服…

macOS的设置与常用软件(含IntelliJ IDEA 2023.3.2 Ultimate安装,SIP的关闭与开启)

目录 1 系统设置1.1 触控板1.2 键盘 2 软件篇2.1 [科学上网](https://justmysocks5.net/members/)2.1 [安装Chrome浏览器](https://www.google.cn/chrome/index.html)2.2 [安装utools](https://www.u.tools)2.3 [安装搜狗输入法](https://shurufa.sogou.com/)2.4 [安装snipaste…

一、Redis之NoSQL

1.1 什么是NoSQL NoSQL&#xff08;Not Only SQL&#xff09;即不仅仅是SQL&#xff0c;泛指非关系型的数据库&#xff0c;它可以作为关系型数据库的良好补充。随着互联网web2.0网站的兴起&#xff0c;非关系型的数据库现在成了一个极其热门的新领域&#xff0c;非关系数据库产…

【Git】03 图形化工具

文章目录 一、右击菜单二、打开仓库三、可视化所有分支历史四、总结 一、右击菜单 二、打开仓库 三、可视化所有分支历史 四、总结 图形化工具了解一下&#xff0c;要懂得在哪里能找到。

Vue工程引入Element-ui

npm 安装ELement-ui npm i element-ui -S 于package.json中发现有“element-ui”版本号即可 引入 Element 在 main.js 中写入以下内容&#xff1a; import element-ui/lib/theme-chalk/index.css; import ElementUI from element-ui;Vue.use(ElementUI);之后根据自己的需求设计…

位运算之妙用:识别独特数字(寻找单身狗)

目录 找单身狗1 图解&#xff1a; 代码如下&#xff1a; 找单身狗2 图解&#xff1a; 代码如下&#xff1a; 寻找单身狗1 从数组中 的1 2 3 4 5 1 2 3 4 中找出没有另一个相同的数与其匹配的数 这个问题的原理是利用异或运算的性质。异或运算&#xff08;XOR&#xff09…