实现YOLO V3数据加载器:从文件系统读取图像与标签

引言

在深度学习项目中,数据准备是非常重要的一环。特别是在物体检测任务中,数据的组织和预处理直接影响到模型的训练效果。YOLO V3(You Only Look Once Version 3)作为一种高效的实时物体检测框架,其数据加载器的设计对于确保模型训练的顺利进行至关重要。本文将详细介绍如何使用Python和PyTorch实现一个YOLO V3的数据加载器,以支持从文件系统中读取图像及其对应的标签文件,并进行必要的预处理。

数据集组织

首先,我们需要了解数据集是如何组织的。通常情况下,图像数据集会被分成两个主要的部分:

  1. 图像文件:这些文件通常保存在磁盘上,并且每张图像都有一个对应的文件名。
  2. 标签文件:与图像文件一一对应,每个标签文件记录了图像中物体的位置和类别信息。

标签文件通常是以文本格式存储的,每一行代表一个物体的边界框信息,格式为 类别 中心点X 中心点Y 宽度 高度。这些值通常是归一化的,即相对于图像的宽度和高度而言。

数据加载器实现

为了实现YOLO V3的数据加载器,我们需要创建一个继承自torch.utils.data.Dataset的类,并重写其__init____len____getitem__方法。此外,我们还需要定义一些辅助函数来处理图像的预处理工作,如填充、调整大小等。

导入必要的库

import glob
import random
import os
import numpy as np
from PIL import Image
import torch
import torch.nn.functional as F
from torch.utils.data import Dataset
import torchvision.transforms as transforms

这段代码导入了构建数据加载器所需的库,包括文件处理、图像处理、张量操作等。

辅助函数定义

pad_to_square 函数
# 定义将图像填充为正方形的函数
def pad_to_square(img, pad_value):# 获取图像的通道数、高度和宽度c, h, w = img.shape# 计算高度和宽度的差值dim_diff = np.abs(h - w)# 计算需要在较短边填充的数量pad1, pad2 = dim_diff // 2, dim_diff - dim_diff // 2# 根据高度和宽度确定填充的方向(左侧/右侧 或 上侧/下侧)pad = (0, 0, pad1, pad2) if h <= w else (pad1, pad2, 0, 0)# 对图像进行填充img = F.pad(img, pad, "constant", value=pad_value)return img, pad

此函数将图像填充为正方形,以便后续处理。它计算图像的高度和宽度之差,并据此决定在哪个方向上添加填充。

resize 函数

# 定义调整图像大小的函数
def resize(image, size):# 使用最近邻插值调整图像大小image = F.interpolate(image.unsqueeze(0), size=size, mode="nearest").squeeze(0)return image

此函数将图像调整为指定的大小。它首先将图像的维度扩展到 (1, C, H, W),然后使用最近邻插值进行缩放,最后再压缩回原来的维度。

数据集类定义

ListDataset 类
# 定义数据集类
class ListDataset(Dataset):# 初始化方法def __init__(self, list_path, img_size=416, augment=True, multiscale=True, normalized_labels=True):# 读取包含图像路径的列表文件with open(list_path, "r") as file:self.img_files = file.readlines()# 根据图像路径找到对应的标签文件路径self.label_files = [path.replace("images", "labels").replace(".png", ".txt").replace(".jpg", ".txt")for path in self.img_files]# 设置图像大小self.img_size = img_size# 最大对象数量self.max_objects = 100# 是否启用数据增强self.augment = augment# 是否启用多尺度训练self.multiscale = multiscale# 标签是否已经归一化self.normalized_labels = normalized_labels# 设置图像大小的最小值和最大值self.min_size = self.img_size - 3 * 32self.max_size = self.img_size + 3 * 32# 用于追踪批次计数self.batch_count = 0

这是数据集类的初始化方法,它读取包含图像路径的列表文件,并根据图像路径找到对应的标签文件路径。

__getitem__ 方法
     # 获取数据集中指定索引的项目def __getitem__(self, index):# 获取图像路径img_path = self.img_files[index % len(self.img_files)].rstrip()# 读取图像并转换为张量img = transforms.ToTensor()(Image.open(img_path).convert('RGB'))# 如果图像不是三通道,则扩展为三通道if len(img.shape) != 3:img = img.unsqueeze(0)img = img.expand((3, img.shape[1:]))# 获取图像的高度和宽度_, h, w = img.shape# 计算填充因子h_factor, w_factor = (h, w) if self.normalized_labels else (1, 1)# 将图像填充为正方形img, pad = pad_to_square(img, 0)# 获取填充后的图像的高度和宽度_, padded_h, padded_w = img.shape# 获取标签文件路径label_path = self.label_files[index % len(self.img_files)].rstrip()targets = Noneif os.path.exists(label_path):# 读取标签文件boxes = torch.from_numpy(np.loadtxt(label_path).reshape(-1, 5))# 计算边界框的真实坐标x1 = w_factor * (boxes[:, 1] - boxes[:, 3] / 2)y1 = h_factor * (boxes[:, 2] - boxes[:, 4] / 2)x2 = w_factor * (boxes[:, 1] + boxes[:, 3] / 2)y2 = h_factor * (boxes[:, 2] + boxes[:, 4] / 2)# 考虑到填充的影响,调整边界框坐标x1 += pad[0]y1 += pad[2]x2 += pad[1]y2 += pad[3]# 重新归一化边界框坐标boxes[:, 1] = ((x1 + x2) / 2) / padded_wboxes[:, 2] = ((y1 + y2) / 2) / padded_hboxes[:, 3] *= w_factor / padded_wboxes[:, 4] *= h_factor / padded_h# 创建目标张量targets = torch.zeros((len(boxes), 6))targets[:, 1:] = boxes# 应用数据增强if self.augment and np.random.random() < 0.5:img, targets = horisontal_flip(img, targets)return img_path, img, targets

此方法用于获取数据集中单个样本。它读取图像,进行必要的预处理(如转换为张量、填充至正方形、调整大小),并读取对应的标签文件,调整边界框坐标以适应图像处理后的变化。

collate_fn 方法
  # 用于处理一批数据的方法def collate_fn(self, batch):# 解压批次数据paths, imgs, targets = zip(*batch)# 移除空的占位标签targets = [boxes for boxes in targets if boxes is not None]# 给每个目标添加样本索引for i, boxes in enumerate(targets):boxes[:, 0] = i# 合并所有目标targets = torch.cat(targets, 0)# 每十个批次选择一个新的图像大小if self.multiscale and self.batch_count % 10 == 0:self.img_size = random.choice(range(self.min_size, self.max_size + 1, 32))# 调整图像大小imgs = torch.stack([resize(img, self.img_size) for img in imgs])# 更新批次计数self.batch_count += 1return paths, imgs, targets

此方法用于处理从数据集中获取的一批数据。它合并不同样本的标签,并根据需要调整图像大小。

__len__ 方法
    # 返回数据集中样本的数量def __len__(self):return len(self.img_files)

返回数据集中样本的数量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网络面试篇】三次握⼿、四次挥手综述

目录 一、三次握手 1. 过程描述 2. 为什么不是四次握手&#xff1f;为什么不能两次握手&#xff1f; 二、四次挥手 1. 过程描述 2. 为什么是四次挥手&#xff1f; 一、三次握手 1. 过程描述 ① 客户端 向 服务器 发送 SYN 报文、初始化序列号 ISN&#xff08;seqx&…

JavaSet集合

无序&#xff08;指的是添加顺序和获取出的数据顺序不一致&#xff0c;不重复&#xff0c;无索引 既然Set没有索引&#xff0c;因此功能同上一篇Connection的功能&#xff0c;几乎没有额外的功能 HashSet的原理 为什么是无序&#xff08;要构建红黑树&#xff09;&#xff0…

【测试平台】Odin-ws 工程环境部署

背景&#xff1a; 这个是我4年半以前接受测试平台过程中遇到问题记录&#xff0c;因为交接成都这边&#xff0c;拿出来直接用了。这里做个记录。 一、美东测试服务器相关 1.主服务器部署机器 该机器是美东服务器。 机器配置&#xff1a;t5.xlarge cpu 4核&#xff0c; 内存…

Android Junit 单元测试 | 依赖配置和编译报错解决

问题 为什么在依赖中添加了testImplement在build APK的时候还是会报错&#xff1f;是因为没有识别到test文件夹是test源代码路径吗&#xff1f; 最常见的配置有: implementation - 所有源代码集(包括test源代码集)中都有该依赖库.testImplementation - 依赖关系仅在test源代码…

如何将png格式的图片做成序列帧

类似以上的图片&#xff0c;根据图片的总长度和图片总数进行计算 <div class"frogeggitem"></div>.frogeggitem {width: 900rpx;height: 1000rpx;background: url(https://frog-skin.haoxgame.com/status2/frog/frogegg.png)no-repeat;background-size:…

学习笔记——动态路由——OSPF(距离矢量协议)OSPF路由类型

OSPF路由类型 在OSPF中&#xff0c;路由类型指的是不同种类的路由&#xff0c;用于描述网络中不同的路由信息及其传输方式。 1、Intra Area路由(区域内路由) Intra Area路由(区域内路由/本地路由/内部路由)是OSPF协议中的一种路由类型&#xff0c;用于描述在同一个OSPF区域内…

Android Studio Dolphin 下载、安装与配置教程

文章目录 Android Studio Dolphin简介一、核心特性二、新增功能三、用户体验优化 一&#xff0c;下载百度网盘迅雷云盘 二&#xff0c;安装三&#xff0c;下载组件四&#xff0c;添加SDK五&#xff0c;创建项目六&#xff0c;安装 Device模拟器运行项目 Android Studio Dolphin…

磁盘分区工具 DiskGenius Pro v5.5.0.1488 中文汉化版

DiskGenius 是一款专家级数据恢复软件&#xff0c;集数据恢复、硬盘分区、系统备份还原等多种功能于一身的超级工具软件&#xff0c;功能全面&#xff0c;安全可靠。可以提供磁盘的数据找回、备份、分区、修复、删除、格式化等操作&#xff0c;也能帮助用户修复磁盘坏道、彻底删…

《一人公司:失业潮中的高新技术工作者》读书笔记

基本信息 书名&#xff1a;一人公司&#xff1a;失业潮中的高新技术工作者作者&#xff1a;[美]卡丽莱恩&#xff08;Carrie M. Lane&#xff09;出版社&#xff1a;广东人民出版社出版时间&#xff1a;2023年11月 内容简介 本书通过18个月的田野调查和9年的跟踪寻访&#…

部署DNS主从服务器

一。DNS主从服务器作用&#xff1a; DNS作为重要的互联网基础设施服务&#xff0c;保证DNS域名解析服务的正常运转至关重要&#xff0c;只有这样才能提供稳定、快速日不间断的域名查询服务 DNS 域名解析服务中&#xff0c;从服务器可以从主服务器上获取指定的区域数据文件&…

es(1)(仅供自己参考)

elasticsearch&#xff08;ES&#xff09;是一款非常强大的开源搜索引擎&#xff0c;可以帮助我们从海量的数据中快速找到需要的内容。 elastic stack&#xff08;ELK&#xff09;&#xff1a;elasticsearch结合kibana、Logstash、Beats。被广泛的应用在日志数据分析、实时监控…

信创认证(信创人才考评证书)的含金量?到底有多少?

“信创认证”是什么&#xff1f; 信创认证是由工业和信息化部教育与考试中心推出的国家级权威认证&#xff0c;旨在推动信息技术应用创新产业的发展&#xff0c;并构建完善的信创产业人才培养体系。该认证在个人信息技术领域具有极高的认可度。 信创认证分为初级、中级和高级三…

新手铲屎官提问,有哪几款噪音低的宠物空气净化器推荐

相信很多铲屎官都明白的的痛就是猫咪掉毛太严重&#xff0c;所以每次看到满天飞的浮毛时只想赶紧逃离&#xff0c;一点都不想清理。但是家是自己的&#xff0c;猫是自己的&#xff0c;健康也是自己的&#xff0c;不清理也得清理。 为了更有效的清理浮毛&#xff0c;我朋友特意…

参会记录|2024 中国计算机大会(CNCC 2024)

前言&#xff1a;2024年10月24-26日&#xff0c;有幸在横店参加了2024年度的中国计算机大会&#xff08;CNCC&#xff09;&#xff0c;本篇博客总结本人在会议期间收听的主要报告内容及收获。 2024.10.24 上午 夏苑海岳开襟 如何实现人工智能在现实场景中的落地&#xff1f; …

OgCloud参加HPE Discover More AI 2024,共建数智化未来!

10月16日&#xff0c;企业科技盛会HPE Discover More AI 2024在香港瑰丽酒店举行。本次大会Hewlett Packard Enterprise (HPE) 联同全球14个科技合作伙伴&#xff0c;聚焦于AI未来走势、混合云创新与边缘安全等领域&#xff0c;以主题演讲、技术展示、研讨会等形式进行&#xf…

从双斜率,野人除法看性能优化

人呐&#xff0c;天生对线性的推崇&#xff0c;却在内心又对线性的不爱。一开始人们总是从最简单的线性过程入手&#xff0c;但最终都难免因为不满足而进入指数过程。 看一个 Linux kernel 老式 O(1) 调度器的时间片计算函数的演化&#xff1a; 早期的 O(1) 是一个连续线性函…

vue 解决:npm ERR! code ERESOLVE 及 npm ERR! ERESOLVE could not resolve 的方案

1、问题描述&#xff1a; 其一、需求为&#xff1a; 想要安装项目所需依赖&#xff0c;成功运行 vue 项目&#xff0c;想要在浏览器中能成功访问项目地址 其二、问题描述为&#xff1a; 在 package.json 文件打开终端平台&#xff0c;通过执行 npm install 命令&#xff0c…

【MySQL】视图特性 用户管理

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;了解什么是视图&#xff0c;我们又该如何管理用户。 > 毒鸡汤&#xff1a;有些事情&#xff0c;总是不明白&#xff0c;所以我不会坚持。早安! >…

kafka 如何减少数据丢失?

大家好&#xff0c;我是锋哥。今天分享关于【kafka 如何减少数据丢失?】面试题&#xff1f;希望对大家有帮助&#xff1b; kafka 如何减少数据丢失? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Apache Kafka 是一个高吞吐量的分布式消息队列&#xff0c;广泛用…

前端对一个增删改查的思考

1、来源&#xff1a;dify dify/web/app/components/workflow/nodes/question-classifier/components/class-list.tsx at main langgenius/dify GitHub 2、代码流程&#xff1a; 3、思索问题&#xff1a; 1、为啥要用return形式&#xff0c;而不是value直接当函数&#xff1…