基于yolov8的半自动标注

一、前言介绍

在深度学习领域中,标注是一项非常重要的工作,因为许多深度学习模型都依赖于有标注的数据进行训练。然而,标注数据是一个费时费力的工作,因此人们希望有一种方式来对标注过程进行自动化。这就是“半自动标注”的来源。半自动标注是一种折中的方式,它结合了人类的判断能力和计算机的自动化能力。

在一个半自动标注的系统中,步骤如下:
1、初始的标注工作通常由人类来做;
2、这些被标注的数据被用来训练一个深度学习模型,使模型能做出预测并自动标注新的数据。
3、但模型预测出的标注可能会有误,所以仍然需要人类进行审核和校正。

二、功能实现

1.数据集拆分

考虑到初始标注的数据集能有效兼顾,需要对全部数据集随机拆分,这样有助于有助于确保初始的标注数据集能代表整体数据集的特性。
例如:如果有1万个数据样本,可以使用的一种策略是使用10-20%的数据作为初始标注数据,也就是1000-2000个样本。这样可以得到一个相当大的初始标注数据集,可以提供足够的信息来训练模型。

import os
import shutil
import random# 指定源文件夹路径
source_folder = "your_source_folder"  # 替换为你的源文件夹路径# 指定目标文件夹路径
dest_folders = ["your_dest_folder1", "your_dest_folder2", "your_dest_folder3", "your_dest_folder4", "your_dest_folder5"]  # 替换为你的目标文件夹路径列表# 如果目标文件夹不存在,创建它们
for folder in dest_folders:if not os.path.exists(folder):os.makedirs(folder)# 获取源文件夹中的所有jpg文件
jpg_files = [f for f in os.listdir(source_folder) if f.endswith(".jpg")]# 随机打乱jpg文件列表
random.shuffle(jpg_files)# 均分文件到五个文件夹
split_files = [jpg_files[i::5] for i in range(5)]# 将文件复制到对应的目标文件夹
for i in range(5):for file in split_files[i]:shutil.copy2(os.path.join(source_folder, file), dest_folders[i])

2.标注初始数据集

从第一部分拆分的五个子数据集中,选择第一个进行数据集标注。
标注软件labelImg

labelImg 图像文件路径 标注的类别txt文件路径

label的文件夹要放classes.txt(存放标注的类别)

3.yolov8训练,预测并自动标注新的数据

强调点:

  • 要去掉无标签值的image[初始数据集中要删除无label的image,免得影响模型的效果(也会将无标签的图片作为训练图片)]

3.1 标注文件的整理

对第二部分标注的初始数据集,txt文件和image文件是放在一起,删除内容为空的txt文件。再删除无txt文件的image文件

import os# 指定目录
directory = '/path/to/directory'txt_files = [f for f in os.listdir(directory) if f.endswith('.txt')]
jpg_files = [f for f in os.listdir(directory) if f.endswith('.jpg')]# 检查文本文件,如果文件为空就删除
for filename in txt_files:filepath = os.path.join(directory, filename)# 判断文件是否为空if os.path.getsize(filepath) == 0:os.remove(filepath)print(f'{filename} is empty and has been removed.')txt_files.remove(filename)  # 从文本文件列表中移除已删除的文件# 基于存在的文本文件,如果对应的jpg文件存在,但txt文件不存在,则删除jpg文件
for filename in jpg_files:txt_filename = filename.replace('.jpg', '.txt')if txt_filename not in txt_files:    # 在此判断txt文件是否存在jpg_filepath = os.path.join(directory, filename)os.remove(jpg_filepath)print(f'{filename} has been removed because its corresponding txt file does not exist.')

3.2 将原图和标签按照yolo的数据集路径格式进行存放

dataset├─ images│    ├─ test # 存放测试集数据(可无)│    ├─ train # 存放训练集数据│    └─ val # 存放验证集数据└─ labels├─ test # 存放测试集标签(可无)├─ train # 存放训练集标签├─ val # 存放验证集标签

3.3 训练与预测的代码

from ultralytics import YOLO
# 目标检测
# # 加载模型
model = YOLO("yolov8n.pt")  # 加载预训练权重
# model = YOLO("ultralytics/cfg/models/v8/yolov8n.yaml")  # 配置文件# 模型训练
model.train(data="yolov8n/data_detect.yaml", epochs=100,imgsz = 640,batch=64)  # 训练模型# 预测标签 source:是待标注的数据集文件夹
Model.predict(source="/home/sta/datasets/images1",save_txt=True)

3.校正预测的label

用labelImg标注软件,微调第二个数据集的label

4.依次处理第二、第三、第四和第五数据集

完成第二个子数据集,将第一个和第二个合在一起,再重新训练一个新的模型;预测第三个子数据集;依次处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/712688.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux入门攻坚——16、Linux系统启动流程

CentOS5、6的启动流程 Linux:kernel rootfs,Linux系统就是内核加上根文件系统。 内核之上是库: 库:函数集合,function,函数具有调用接口,库函数不能单独执行,必须被其他程序调用…

【前端素材】推荐优质在线电影院商城电商网页Hyper平台模板(附源码)

一、需求分析 1、系统定义 在线电影商城是指一个通过互联网提供电影服务的平台,用户可以在该平台上浏览电影资源、租借或购买电影,以及观看在线影片。 2、功能需求 在线电影商城是指一个通过互联网提供电影服务的平台,用户可以在该平台上…

四川尚熠电子商务有限公司电商服务领域的佼佼者

在数字化浪潮席卷全球的今天,电子商务已成为推动企业转型升级、拓展市场渠道的重要力量。四川尚熠电子商务有限公司,作为一家专注于抖音电商服务的公司,凭借其独特的服务模式和创新的营销策略,在激烈的市场竞争中脱颖而出&#xf…

Linux 系统安装/卸载 Nginx教程

优质博文:IT-BLOG-CN 一、安装Nginx 【1】首先通过Nginx官网确定需要安装的版本,如果Linux联网则直接在Linux服务上使用wget命令将Nginx安装包下载到/usr/local/目录下: [rootxxx local]# wget -c http://nginx.org/download/nginx-1.22.1.…

【C++精简版回顾】14.(重载2)流重载

1.流重载 istream ostream 1.class class MM {friend ostream& operator<<(ostream& out, MM& mm);friend istream& operator>>(istream& in, MM& mm); public:MM() {}MM(int age,string name):age(age),name(name) {} private:int age;st…

Three.js-05坐标轴AxesHelper

1.构建对象 说明&#xff1a;参数一表示坐标轴的长度。红色代表 X 轴. 绿色代表 Y 轴. 蓝色代表 Z 轴. const axesHelper new THREE.AxesHelper( 1 ); 2.设置位置 axesHelper.position.y1 axesHelper.position.x1 axesHelper.position.z1 3. 网格 说明&#xff1a;立方体…

没有项目经历,该如何写简历?

没有项目经历&#xff0c;我该如何写简历 一、前言二、挖掘自己三、看现成的项目经验&#xff0c;转化成自己的语言1、硬件方面2、软件方面 四、最后 一、前言 相信有很多刚出来找工作的人会遇到这种情况&#xff0c;因为自身没有项目经历&#xff0c;投了很多的简历都石沉大海…

在python中,设置json支持中文字符串

# 省略以上环节 ... # 假设json格式如下 system_info_dict {uptime: uptime.split(".")[0],cpu_usage: cpu_usage,memory_usage: memory_usage,disk_usage: disk_usage,battery_percentage: battery_percentage,battery_status: batteryStatus }# 设置json支持中文字…

Day05:反弹SHELL不回显带外正反向连接防火墙出入站文件下载

目录 常规基本渗透命令 文件上传下载-解决无图形化&解决数据传输 反弹Shell命令-解决数据回显&解决数据通讯 防火墙绕过-正向连接&反向连接&内网服务器 防火墙组合数据不回显-ICMP带外查询Dnslog 思维导图 章节知识点&#xff1a; 应用架构&#xff1a;W…

Vue全家桶:vue2+vue3全部搞懂:第五篇,Vue的watch监视器

前提&#xff0c;建议先学会前端几大基础&#xff1a;HTML、CSS、JS、Ajax&#xff0c;不然不好懂 这一专栏知识将一次性将vue、vue2、vue3全部讲明白 一、何为watch监视器 其实我个人理解&#xff0c;就跟原本的表单的input事件一样&#xff0c;实时监视事件发生并同步更新数…

kswapd0挖矿病毒攻击记录

文章目录 一、起因与病毒分析1、起因2、阿里云告警2.1 恶意脚本代码执行12.2 恶意脚本代码执行22.3恶意脚本代码执行32.4 恶意脚本代码执行4 3、病毒简单分析3.1 病毒的初始化3.2 病毒本体执行 4、总结 二、ubuntu自救指南1、病毒清理2、如何防御 一、起因与病毒分析 1、起因 …

3D城市模型可视化:开启智慧都市探索之旅

随着科技的飞速发展&#xff0c;我们对城市的认知已经不再局限于平面的地图和照片。今天&#xff0c;让我们领略一种全新的城市体验——3D城市模型可视化。这项技术将带领我们走进一个立体、生动的城市世界&#xff0c;感受前所未有的智慧都市魅力。 3D城市模型通过先进的计算机…

SLAM基础知识-高斯分布

​​​​​​​正态分布&#xff08;高斯分布&#xff09;学习笔记 - 知乎 偏差(bias)、方差(variance)和噪音(noise)_noise variance-CSDN博客 --------------------------------------待更新---------------------------------------------------------------------------

Android的硬件接口HAL

我一直觉得&#xff0c;现代计算机不是一门科学&#xff0c;起码快算不上一门理科科学。上上下下全是人造&#xff0c;左左右右全是生意&#xff0c;用管理学&#xff0c;经济学去学计算机&#xff0c;也许更看得懂很多问题。HAL就是一个典型例子。 传统Linux绕开了微软的霸权…

图片的处理库Thumbnailator

摘要&#xff1a;最近遇到图片处理的问题&#xff0c;借助了Thumbnailator库&#xff0c;记录下使用步骤如下…… 图片处理&#xff0c;JDK中也提供了对应的工具类&#xff0c;不过处理较麻烦&#xff0c;Thumbnailator 是Google一个 开源Java 图像处理库&#xff0c;用于简化 …

re正则表达式匹配单个字符串

import retext001 "hello" a re.match(h,text001) print(a.group())text002 "hello" a re.match(.,text002) #匹配任意字符串 print(a.group())text003 "11111" a re.match(r\d, text003) #匹配任意数字 print(a.group())text004…

网络-TCP关闭连接(close、shutdown)

在TCP协议中&#xff0c;关闭连接的过程可以通过shutdown函数和close函数来实现。 close close函数用于关闭一个socket描述符。实际上是对socket的引用计数-1&#xff0c;当引用计数为0时&#xff0c;就会被关闭。且是关闭两个方向的数据流。如果是多个进程共享一个socket描述…

代码随想录三刷day10 | 栈与队列之 232.用栈实现队列 225. 用队列实现栈

232.用栈实现队列 题目链接 解题思路&#xff1a;在pop的时候&#xff0c;操作就复杂一些&#xff0c;输出栈如果为空&#xff0c;就把进栈数据全部导入进来&#xff1b;peek的时候可以用this指针。 代码如下&#xff1a; class MyQueue { public:stack<int> stIn;sta…

Oracle临时表应用

1.参考 oracle两种临时表的创建及使用方法_oracle 临时表-CSDN博客 【SQL】全局临时表 GLOBAL TEMPORARY TABLE-CSDN博客 2.语句 CREATE GLOBAL TEMPORARY TABLE tablename (columns) [ ON COMMIT PRESERVE | DELETE ROWS ] 3.应用 CREATE GLOBAL TEMPORARY TABLE "SE…

嵌入式驱动学习第一周——内核的中断机制

前言 本文介绍中断机制&#xff0c;中断作为需要频繁使用的功能&#xff0c;本文将详细介绍linux内核中的中断机制。 嵌入式驱动学习专栏将详细记录博主学习驱动的详细过程&#xff0c;未来预计四个月将高强度更新本专栏&#xff0c;喜欢的可以关注本博主并订阅本专栏&#xff…