【深度学习:数据增强 】提高标记数据质量的 5 种方法

在这里插入图片描述

【深度学习:数据增强 】提高标记数据质量的 5 种方法

    • 计算机视觉中常见的数据错误和质量问题?
    • 为什么需要提高数据集的质量?
    • 提高标记数据质量的五种方法
      • 使用复杂的本体结构作为标签
      • 人工智能辅助标签
      • 识别标签错误的数据
      • 改进注释者管理

计算机视觉模型的复杂性、准确性、速度和计算能力每天都在进步。机器学习团队正在训练计算机视觉模型以更有效地解决问题,这使得标记数据的质量比以往任何时候都更加重要。

质量差的标记数据,或者基于图像或视频的数据集中的错误和错误可能会给机器学习团队带来巨大的问题。无论需要解决哪个部门或问题,如果计算机视觉算法无法获得所需数据的质量和数量,它们就无法产生组织所需的结果。

在本文中,我们将仔细研究标记数据中的常见错误和质量问题、组织需要提高数据集质量的原因以及实现这一目标的五种方法。

计算机视觉中常见的数据错误和质量问题?

数据科学家花费大量时间(很多人会说太多时间)调试数据并调整数据集中的标签以提高模型性能。或者,如果已应用的标签不符合要求的标准,则部分数据集需要返回注释器重新标记。

尽管有注释自动化和人工智能辅助标记工具和软件,但减少数据集中的错误和提高质量仍然是一项耗时的工作。通常,这是手动完成的,或者尽可能接近手动完成。然而,当数据集中有数千张图像和视频时,筛选每一张图像和视频来检查质量和准确性就变得不可能了。

正如我们在本文中所述,计算机视觉数据集中出现错误和质量问题的三大原因是:

  • 标签不准确;
  • 图像标签错误;
  • 缺少标签(未标记的数据);
  • 数据和相应标签不平衡(例如同一事物的图像太多),导致数据偏差或数据不足来解释边缘情况。

根据视频或图像注释工作的质量、所使用的人工智能支持的注释工具以及质量控制流程,您最终可能会在整个数据集中遇到所有三个问题。

不准确的标签会导致算法难以正确识别图像和视频中的对象。常见的示例包括松散的边界框或多边形、不覆盖对象的标签或与同一图像或帧中的其他对象重叠的标签。

将错误的标签应用于对象也会导致问题。例如,一旦将数据集输入计算机视觉模型,将“猫”标记为“狗”就会产生不准确的预测。麻省理工学院的研究表明,在最佳实践数据集中,3.4% 的标签是错误的。这意味着,大多数组织使用的数据集中存在更多不准确标签的可能性更大。

真实数据集中缺失的标签也会导致计算机视觉模型产生错误的预测和结果。

当然,标注工作的目标应该是为图像和视频数据集提供最好、最准确的标签和标注。根据相关用例和您要解决的问题。

为什么需要提高数据集的质量?

提高输入机器学习或计算机视觉模型的数据集的质量是一项持续的任务。质量始终可以提高。对数据集中标签的注释和质量所做的每一项更改都应该对计算机视觉项目的结果产生相应的改进。

例如,当您第一次为算法模型提供训练数据集时,您可能会获得 70% 的准确度分数。要使生产模型达到 90% 以上甚至 99%,需要评估和提高标签和注释的质量。

以下是您需要从数据集中获得的内容,该数据集应能产生您正在寻找的结果:

  1. 准确标记和注释图像和视频中的对象;
  2. 不缺少任何标签的数据;
  3. 包括涵盖数据异常值和每种边缘情况的标签和注释;
  4. 均衡的数据,涵盖部署环境中图像和视频的分布,例如不同的光照条件、一天中的时间、季节等);
  5. 持续的数据反馈循环,使数据漂移问题减少,质量不断提高,偏差减少,准确性提高,确保模型能够投入生产。

现在让我们考虑提高标记数据质量的五种方法。

提高标记数据质量的五种方法

使用复杂的本体结构作为标签

由于项目的标签过程,机器学习模型需要高质量的数据注释和标签。实现您想要的结果通常涉及为您的标签使用复杂的本体结构,前提是这是所需要的 - 而不仅仅是为了它。

简化的本体结构对于计算机视觉模型没有多大帮助。然而,当您使用更复杂的本体结构进行数据注释标记过程时,更容易准确地分类、标记和概述图像和视频中的对象之间的关系。

通过通过本体结构应用图像和视频中的对象的清晰定义,实施数据注释标记过程的人员可以生成更准确的标签。反过来,这可以为生产就绪的计算机视觉模型带来更好、更准确的结果。

在这里插入图片描述

Encord 中复杂本体的示例

人工智能辅助标签

完全手动的数据标记过程是一项耗时且费力的任务。它可能会导致注释者犯错误、精疲力竭(尤其是当他们一遍又一遍地应用相同的标签时)以及质量下降。

加快标记和注释数据集所需时间的最佳方法之一是使用人工智能(AI 辅助)标记工具。人工智能辅助标记,例如在数据注释过程中使用自动化工作流程工具,是创建训练数据集不可或缺的一部分。

人工智能辅助标签工具有各种形状和大小。从开箱即用的开源软件,到专有的、高级的、基于人工智能的工具,以及介于两者之间的一切。人工智能解决方案可以节省时间和金钱。使用人工智能辅助工具可以提高效率和质量,更一致地生成高质量数据集,减少错误并提高准确性。

其中一个工具是 Encord 的微模型,它是“针对特定任务或特定数据进行过度训练的注释特定模型”。 Encord 还附带了广泛的人工智能辅助标签工具和解决方案,我们将在本文末尾更详细地介绍这些工具和解决方案。

识别标签错误的数据

标签错误、标签错误或标签缺失的数据总会给计算机视觉模型带来问题。

避免这些问题的最佳方法是确保在数据注释过程中准确应用标签。然而,我们知道这并不总是可能的。错误会发生。特别是当外包注释者团队正在标记数以万计的图像或视频时。

并非每个注释者每天都能完美完成工作。有些会比其他更好。即使注释者可以使用人工智能辅助标记工具,质量也会有所不同。

因此,为了确保您的项目获得尽可能最高质量的注释和标签数据集,您需要实施专家评审工作流程和质量保证系统。

确保标签和数据质量的另一种方法是使用 Encord Active,这是一个开源主动学习框架,可以识别错误和标签不良的数据。一旦识别出错误和标签错误的图像和视频,可以将相关图像或视频(或整个数据集)发回重新注释,或者您的机器学习团队可以在将数据集引入计算机视觉之前进行必要的更改模型。

在这里插入图片描述

在 Encord Active 中识别标签错误的图像

改进注释者管理

减少数据管道质量保证端的错误数量涉及改进整个项目的注释器管理。

即使您与另一个国家/地区的外包团队合作,距离、语言障碍和时区也不会对您的项目产生负面影响。管理流程不善将产生数据集质量较差的结果。

项目负责人需要持续了解输入、输出以及注释团队中个人的表现。您需要评估注释工作中的数据注释和标签的质量,以便您可以了解谁实现了关键绩效指标 (KPI),谁没有实现。

借助正确的人工智能辅助数据标记工具,您应该拥有触手可及的项目仪表板。这不仅应该提供访问控制,而且应该让您清楚地了解注释工作的进展情况,以便可以在项目期间进行更改。这样,应该更容易判断来自注释团队的标签和注释的质量,以确保尽可能高的质量和准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/638712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spark 入门教程

一、安装scala环境 官网下载地址 Download | The Scala Programming Language,本次使用版本为sacla2.11.12,将压缩包解压至指定目录,配置好环境变量,控制台验证是否安环境是否可用: 二、添加pom依赖 创建一个maven项目 1、添加scala的sdk依…

github 推送报错 ssh: connect to host github.com port 22: Connection timed out 解决

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页: Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

[pytorch] 2. tensorboard

tensorboard简介 TensorBoard 是一组用于数据可视化的工具。它包含在流行的开源机器学习库 Tensorflow 中.但是也可以独立安装&#xff0c;服务Pytorch等其他的框架 可以常常用来观察训练过程中每一阶段如何输出的 安装pip install tensorboard启动tensorboard --logdir<d…

会声会影2024专业旗舰版新功能介绍

随着科技的不断发展&#xff0c;视频制作已经不再是专业人士的专属领域&#xff0c;越来越多的人开始使用各种视频制作软件来记录生活、创作内容。其中&#xff0c;会声会影是被广泛使用的一款视频制作软件&#xff0c;其旗舰版更是备受关注。 据悉&#xff0c;会声会影2024旗舰…

E/E架构升级是汽车智能化发展关键

E/E架构升级是汽车智能化发展的关键。传统汽车采用的分布式E/E架构因计算能力不足、通讯带宽不足、不便于软件升级等瓶颈&#xff0c;无法满足现阶段汽车发展的需求&#xff0c;E/E架构升级将助力智能汽车实现跨越式革新。汽车E/E架构升级主要体现在硬件架构升级、软件架构升级…

基于SpringBoot的校园求职招聘系统

文章目录 项目介绍主要功能截图&#xff1a;部分代码展示设计总结项目获取方式 &#x1f345; 作者主页&#xff1a;超级无敌暴龙战士塔塔开 &#x1f345; 简介&#xff1a;Java领域优质创作者&#x1f3c6;、 简历模板、学习资料、面试题库【关注我&#xff0c;都给你】 &…

[小程序]基于token的权鉴测试

一、服务器配置 服务器基于flask&#xff0c;需要额外安装flask_jwt_extended包 from flask import Flask #导入Flask包 from flask import request from flask import jsonify #用来返回json消息 from flask_jwt_extended import create_access_token, jwt_requi…

git clone超时

本文介绍作者在Centos上链接github超时&#xff0c;无法克隆的解决方案 在出现上图所示问题时&#xff0c;有可能是连接不到github.com&#xff0c;读者可以尝试输入ping github.com&#xff0c;当输入该指令后若长时间没有反应说明可能由于本地DNS无法解析导致的。 解决方案…

java eazyexcel 实现excel的动态多级联动下拉列表(1)使用名称管理器+INDIRECT函数

原理 将数据源放到一个新建的隐藏的sheet中将选项的子选项的对应字典设置到名称管理器中&#xff08;名称是当前选项的内容&#xff0c;值是他对应的子菜单的单元格范围&#xff0c;在1里面的sheet中&#xff09;子菜单的数据根据INDIRECT函数去左边那个单元格获取内容&#x…

PyQt5 快速入门(一)

第一节按钮控件,文本控件,输入框,app图标 文章目录 一.GUI按钮控件 二.文本控件 三.输入框 四.让窗口显示在屏幕中央 五.让窗口显示在屏幕中央 总结 一.GUI按钮控件 import sys from PyQt5.QtWidgets import QApplication, QWidget, QPushButtonif __name__ __main__:app …

77.网游逆向分析与插件开发-背包的获取-物品类的C++还原

内容参考于&#xff1a;易道云信息技术研究院VIP课 上一个内容&#xff1a;76.网游逆向分析与插件开发-背包的获取-背包地址的逆向分析-CSDN博客 码云地址&#xff08;ui显示角色数据 分支&#xff09;&#xff1a;https://gitee.com/dye_your_fingers/sro_-ex.git 码云版本…

关于安装Dubbo+zookeeper过程中遇到的许多问题

在学习dubbozookeeper时安装启动dubbo-admin出现的一些问题&#xff1a; 首先我是跟着狂神安装zookeeper&#xff0c;基本下来没什么问题。然后就是安装dubbo-admin&#xff0c;狂神安装的是dubbo-admin-master&#xff0c;但是现在github上已经没有这个版本了&#xff0c;只能…

1.21寒假集训

A: 解题思路&#xff1a; 判断改变第一个&#xff0c;后面字符根据前一个字符判断是否改变 判断改变第二个&#xff0c;同上&#xff0c;找到最小改变值。 下面是c代码&#xff1a; #include<iostream> using namespace std; int main() {string s,s1,s2;int sum1 0…

Python sleep函数用法:线程睡眠

如果需要让当前正在执行的线程暂停一段时间&#xff0c;并进入阻塞状态&#xff0c;则可以通过调用 time 模块的 sleep(secs) 函数来实现。该函数可指定一个 secs 参数&#xff0c;用于指定线程阻塞多少秒。 当前线程调用 sleep() 函数进入阻塞状态后&#xff0c;在其睡眠时间…

【Web】CTFSHOW 文件上传刷题记录(全)

期末考完终于可以好好学ctf了&#xff0c;先把这些该回顾的回顾完&#xff0c;直接rushjava&#xff01; 目录 web151 web152 web153 web154-155 web156-159 web160 web161 web162-163 web164 web165 web166 web167 web168 web169-170 web151 如果直接上传php文…

workflow源码解析:http客户端(一)

1、 示例程序 程序从stdin读取http/https URL&#xff0c;抓取网页并把内容打印到stdout&#xff0c;并将请求和响应的http header打印在stderr。 为了简单起见&#xff0c;程序用Ctrl-C退出&#xff0c;但会保证所有资源先被完全释放。 #include <signal.h> #include …

LeetCode 105. 从前序与中序遍历序列构造二叉树

105. 从前序与中序遍历序列构造二叉树 给定两个整数数组 preorder 和 inorder &#xff0c;其中 preorder 是二叉树的先序遍历&#xff0c; inorder 是同一棵树的中序遍历&#xff0c;请构造二叉树并返回其根节点。 示例 1: 输入: preorder [3,9,20,15,7], inorder [9,3,15,…

【二叉树练习2】

文章目录 判断是否是完全二叉树找出p和q的最近的公共祖先非递归实现前序遍历非递归实现中序遍历非递归实现后序遍历 判断是否是完全二叉树 boolean isCompleteTree(TreeNode root){if (root null){return true;}//创建队列Queue<TreeNode> queue new LinkedList<>…

从一到无穷大 #21 从基于多数据模型分析负载的Benchmark讨论多模数据库的发展方向

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作)&#xff0c;由 李兆龙 确认&#xff0c;转载请注明版权。 文章目录 引言M2Bench测试结果从Lindorm看待多模的发展方向总结 引言 《M2Bench: A Database …

【手撕C语言 第六集】函数(上)

文章目录 一、函数是什么&#xff1f;二、C语言中函数的分类&#xff1a;1.库函数1.1 如何学会使用库函数&#xff1f; 2. 自定义函数 三、函数的参数1.实际参数&#xff08;实参&#xff09;&#xff1a;2.形式参数&#xff08;形参&#xff09;&#xff1a; 四、函数的调用&a…