【深度学习:视频注释】如何为机器学习自动执行视频注释

在这里插入图片描述

【深度学习:视频注释】如何为机器学习自动执行视频注释

    • #1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性
    • #2:使用插值来填补空白
    • #3: 使用微模型加速人工智能辅助视频注释
    • #4: 自动目标分割提高目标分割质量

自动视频标记通过加快手动视频标记的速度和质量,并最终接管大部分视频注释工作,为公司节省了大量时间和金钱。

一旦你开始使用机器学习和基于人工智能的算法进行视频注释–使用大量的标记视频–并确保这些视频被准确标记,这对项目的成功至关重要。在视频注释过程中手动生成标签非常费力、耗时、花费大量资金,并且需要整个团队。

企业和组织经常将这项工作外包以节省成本。然而,这很少能使任务更快,并且经常会导致质量问题。自动视频注释可以解决其中的大部分问题,减少手动输入,节省时间和金钱,并确保您可以在保持质量一致的同时对更大的数据集进行注释和标记。

在这篇文章中,我们将探讨四种自动化视频注释的方法,同时确保标签的质量和一致性

#1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性

自动跟踪对象是一项强大的自动视频注释功能。标记对象后,您需要确保从一帧到下一帧正确且一致地跟踪它,尤其是当它移动并改变方向或速度时。或者,如果背景和光线水平发生变化,例如从白天到黑夜的转变。

不仅如此,如果您标记了多个对象,您还需要一个基于 AI 的视频注释工具,能够跟踪其中的每一个对象。最强大的自动视频标记工具可跟踪注释中的像素从一帧到下一帧。即使您使用自动注释跟踪多个对象,这应该也不是问题。

在通过机器学习自动化工具处理视频时,多对象跟踪特别有用,在分析无人机镜头、监控视频以及医疗保健和制造业领域时,多目标跟踪是一种资产。医疗保健公司通常需要对手术或胃肠病学视频进行注释和分析,而制造商则需要更清晰、带注释的装配线视频。

在这里插入图片描述

在 Encord 中自动跟踪视频注释

#2:使用插值来填补空白

在自动视频注释或标记中,插值是在两个关键帧之间传播标签的行为。假设一个注释团队已经在视频的开头和结尾使用边界框或多边形手动标记了数百个关键帧中的对象。插值可加快注释过程,在未注释的帧中填充细节。

但是,您必须谨慎使用插值,至少在开始视频注释项目时是这样。速度和质量之间总是需要权衡取舍。当然,这取决于所应用标签的质量和模型训练阶段使用的标记剂的复杂性。

例如,应用于从一个帧移动到下一个帧的复杂多面对象的多边形可能不如一个周围有一个移动缓慢的边界框的简单对象那么容易插值。正如注释者所知,这完全取决于视频中从一帧到下一帧的变化程度。

当在视频中的对象上绘制多边形时,由专有算法支持,该算法在没有表示模型的情况下运行,它可以收紧多边形的周长,插值并跟踪移动对象(例如,人)中的各个部分(在本例中为衣服)。

在这里插入图片描述

插值以支持 Encord 中的视频注释

#3: 使用微模型加速人工智能辅助视频注释

在大多数情况下,机器学习 (ML) 模型和基于 AI 的算法需要大量数据才能产生有意义的结果。不仅如此,输入的数据也应该干净且一致。否则,整个项目可能会花费比预期更长的时间,或者不得不重新开始。

自动视频标记和注释很复杂。这种方法也称为模型辅助标记 (MAL) 或 AI 辅助标记 (AAL)。这种类型的标记比注释静态图像或将 ML 应用于庞大的 Excel 电子表格和其他数据源要复杂得多。

相反,微模型是功能强大、范围严格的方法,可以过度拟合数据模型来引导您的视频注释任务。使用微模型训练机器学习算法是一个迭代过程,需要在开始时进行手动注释和标记。但是,您不需要像使用其他视频注释平台那样多的手动工作或花费大量时间来训练模型。

在某些情况下,您可以在最少的五个标记帧上训练微模型。正如我们在另一篇文章中概述的那样,“微模型是特定于注释的模型,它们针对特定任务或特定数据进行了过度训练。

微模型最好应用于狭窄的领域,例如,在整个长视频中自动注释特定对象,并且所需的训练数据很少。训练一个微模型可能需要几分钟,而整个开发周期只需几分钟或几小时。微模型为医疗保健、制造或研究领域的组织节省了大量时间和金钱,尤其是在注释复杂的移动对象时。

#4: 自动目标分割提高目标分割质量

自动分割是在对象周围绘制轮廓,然后使用算法自动“捕捉”到对象的轮廓,使轮廓更紧密,更准确地与从一帧到下一帧跟踪的对象和标签对齐。

注释者可以使用多边形来执行此操作。例如,您可能需要在监控视频中对一个人所穿的衣服进行分割,以便您可以看到嫌疑人何时脱下一件衣服穿上其他衣服。

使用正确的视频注释工具,自动对象分割几乎适用于数十个扇区的任何用例。它适用于任意形状,插值可以跟踪数千帧中的对象段。在大多数情况下,结果是在整个视频注释项目中节省了大量的时间和成本,从而实现更快、更高质量的分割。

在这里插入图片描述

Encord 中的自动对象分割

自动视频注释的强大功能

根据我们的经验,在极少数情况下,自动视频注释在视频注释项目中不能发挥有用的作用。自动化使注释者能够更快、更有效地工作,并提供更高质量的项目输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/708816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux/Spectra

Enumeration nmap 第一次扫描发现系统对外开放了22,80和3306端口,端口详细信息如下 22端口运行着ssh,80端口还是http,不过不同的是打开了mysql的3306端口 TCP/80 进入首页,点击链接时,提示域名不能解析&…

分享一点PDF中获取表格的探索过程

版面分析:如何得到标题、如何的得到段落(正确的段落)、如何得到表格、如何得到图片,图和得到图片上的文字? 还有细节问题:双栏和多栏的问题、公式问题 扫描件:扫描件本质上是图片,如…

【三维重建】【slam】【分块重建】LocalRF:逐步优化的局部辐射场的鲁棒视图合成

项目地址:https://localrf.github.io/ 题目:Progressively Optimized Local Radiance Fields for Robust View Synthesis 来源:KAIST、National Taiwan University、Meta 、University of Maryland, College Park 提示:文章用了s…

【GB28181】wvp-GB28181-pro修改分屏监控为16画面(前端)

引言 作为一个非前端开发人员,自己摸索起来比较费劲,也浪费了很多时间 由于实际开发中,可能预览的画面多于8个,而wvp目前只支持8画面 本文快速帮助开发者修改分屏监控为多画面。例如16画面,20画面等 文章目录 一、 预期效果展示16分割画面20分割画面二、 源码修改-前端修改…

小白水平理解面试经典题目leetcode 606. Construct String from Binary Tree【递归算法】

Leetcode 606. 从二叉树构造字符串 题目描述 例子 小白做题 坐在自习室正在准备刷题的小白看到这道题,想想自己那可是没少和白月光做题呢,也不知道小美刷题刷到哪里了,这题怎么还没来问我,难道是王谦谦去做题了? 这…

用友 NC 23处接口XML实体注入漏洞复现

0x01 产品简介 用友 NC 是用友网络科技股份有限公司开发的一款大型企业数字化平台。 0x02 漏洞概述 用友 NC 多处接口存在XML实体注入漏洞,未经身份验证攻击者可通过该漏洞读取系统重要文件(如数据库配置文件、系统配置文件)、数据库配置文件等等,导致网站处于极度不安全…

使用PARP抑制剂Olaparib对骨肉瘤细胞进行放射增敏【AbMole】

骨肉瘤细胞来源于对辐射不敏感的骨形成间充质细胞。因此,科学家们希望找到新的方法能够使其对放射增敏。研究人员进行了使用PARP抑制剂Olaparib来增强骨肉瘤细胞的放射敏感性的研究。 研究方法主要包含以下几项实验:通过CCK-8和克隆形成实验评估Olapari…

使用 OpenCV 通过 SIFT 算法进行对象跟踪

本文介绍如何使用 SIFT 算法跟踪对象 在当今世界,当涉及到对象检测和跟踪时,深度学习模型是最常用的,但有时传统的计算机视觉技术也可能有效。在本文中,我将尝试使用 SIFT 算法创建一个对象跟踪器。 为什么人们会选择使用传统的计…

【Go语言】Go语言中的字典

Go语言中的字典 字典就是存储键值对映射关系的集合,在Go语言中,需要在声明时指定键和值的类型,此外Go语言中的字典是个无序集合,底层不会按照元素添加顺序维护元素的存储顺序。 如下所示,Go语言中字典的简单示例&…

java spring cloud 企业工程管理系统源码+二次开发+定制化服务

鸿鹄工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离构建工程项目管理系统 1. 项目背景 一、随着公司的快速发展,企业人员和经营规模不断壮大。为了提高工程管理效率、减轻劳动强度、提高信息处理速度和准确性,公司对内部工程管…

java开发环境配置一指禅

IDEA下载与安装 IDEA 全称 IntelliJ IDEA,是java编程语言的集成开发环境。 idea下载地址 。 JDK安装配置 JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环…

以ARM Cortex-A55/A53为例分析 L1/L2/L3 cache所支持的写策略(write-back/wirte-through,写通和写回)

在文章 ARM 中缓存维护策略:Allocate policy(读分配/写分配),Write policy(写通/写回)以及replacement policy基础知识中,笔者介绍了ARM cache的Write policy(写通/写回)…

理解C转汇编后代码分析

题目 . - 力扣&#xff08;LeetCode&#xff09; 解题代码 #include <stdio.h> #include "stdbool.h"typedef struct {int score;int index;int count; } Record; Record records[26] {0};int totalScore(char *w) {int total 0;for (int i 0; i < st…

热点参数流控(Sentinel)

热点参数流控 热点流控 资源必须使用注解 SentinelResource 编写接口 以及 热点参数流控处理器 /*** 热点流控 必须使用注解 SentinelResource* param id* return*/ RequestMapping("/getById/{id}") SentinelResource(value "getById", blockHandler …

Java设计模式 | 七大原则之合成复用原则

基本介绍 合成复用原则&#xff08;Composite Reuse Principle&#xff09;尽量使用合成/聚合的方式&#xff0c;而不是使用继承 设计原则核心思想总结 找出应用中可能需要变化之处&#xff0c;把他们独立出来&#xff0c;不要和那些不需要变化的代码混在一起针对接口编程&…

八、ActiveMQ持久化

ActiveMQ持久化 一、MQ的高可用二、持久化介绍三、持久化存储方式1.AMQ Mesage Store(了解&#xff09;2.KahaDB消息存储(默认)2.1 存储原理 3.JDBC消息存储4.LevelDB消息存储(了解)5.JDBC Message Store with ActiveMQ Journal查询持久化存储方式 四、持久化存储使用1.JDBC消息…

C++:模版初阶 | STL简介

创作不易&#xff0c;感谢支持&#xff01;&#xff01; 一、泛型编程思想 如何实现一个通用的交换函数呢&#xff1f; 注&#xff1a;其实swap函数在C的标准库提供了&#xff0c;不需要自己写&#xff0c;这边只是举个例子 void Swap(int& left, int& right) { in…

【小夏送书 | 第二期】世界顶级名校计算机专业,都在用哪些书当教材?

&#x1f304;参与规则 参与方式&#xff1a;关注博主点赞收藏评论&#xff0c;&#xff08;每人最多评论三次&#xff09; 本次送书1~3本【取决于阅读量&#xff0c;阅读量越多&#xff0c;送的越多】 活动时间至&#xff1a;2024-3-6 20:00:00 | 随机抽取由博主动态公布抽…

《国色芳华》争议不断,杨紫簪花妆惊艳全场,李现造型更是抢眼。

♥ 为方便您进行讨论和分享&#xff0c;同时也为能带给您不一样的参与感。请您在阅读本文之前&#xff0c;点击一下“关注”&#xff0c;非常感谢您的支持&#xff01; 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 猴哥来啦&#xff01;新剧《国色芳华》火热开拍&#xff0c;杨…

Mysql数据库管理系统学习笔记1——sql语句,DBMS,数据库的分类

mysql是一种数据库管理系统&#xff08;DBMS&#xff09;&#xff0c;data base manage system sql语句即为“structured query language”&#xff0c;结构化查询语言 数据库的分类&#xff1a;关系型数据库&#xff08;RDBMS&#xff09;与非关系型数据库 对于一些具有相同…