【深度学习:视频注释】如何为机器学习自动执行视频注释
- #1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性
- #2:使用插值来填补空白
- #3: 使用微模型加速人工智能辅助视频注释
- #4: 自动目标分割提高目标分割质量
自动视频标记通过加快手动视频标记的速度和质量,并最终接管大部分视频注释工作,为公司节省了大量时间和金钱。
一旦你开始使用机器学习和基于人工智能的算法进行视频注释–使用大量的标记视频–并确保这些视频被准确标记,这对项目的成功至关重要。在视频注释过程中手动生成标签非常费力、耗时、花费大量资金,并且需要整个团队。
企业和组织经常将这项工作外包以节省成本。然而,这很少能使任务更快,并且经常会导致质量问题。自动视频注释可以解决其中的大部分问题,减少手动输入,节省时间和金钱,并确保您可以在保持质量一致的同时对更大的数据集进行注释和标记。
在这篇文章中,我们将探讨四种自动化视频注释的方法,同时确保标签的质量和一致性
#1:多目标跟踪 (MOT) 以确保帧与帧之间的连续性
自动跟踪对象是一项强大的自动视频注释功能。标记对象后,您需要确保从一帧到下一帧正确且一致地跟踪它,尤其是当它移动并改变方向或速度时。或者,如果背景和光线水平发生变化,例如从白天到黑夜的转变。
不仅如此,如果您标记了多个对象,您还需要一个基于 AI 的视频注释工具,能够跟踪其中的每一个对象。最强大的自动视频标记工具可跟踪注释中的像素从一帧到下一帧。即使您使用自动注释跟踪多个对象,这应该也不是问题。
在通过机器学习自动化工具处理视频时,多对象跟踪特别有用,在分析无人机镜头、监控视频以及医疗保健和制造业领域时,多目标跟踪是一种资产。医疗保健公司通常需要对手术或胃肠病学视频进行注释和分析,而制造商则需要更清晰、带注释的装配线视频。
#2:使用插值来填补空白
在自动视频注释或标记中,插值是在两个关键帧之间传播标签的行为。假设一个注释团队已经在视频的开头和结尾使用边界框或多边形手动标记了数百个关键帧中的对象。插值可加快注释过程,在未注释的帧中填充细节。
但是,您必须谨慎使用插值,至少在开始视频注释项目时是这样。速度和质量之间总是需要权衡取舍。当然,这取决于所应用标签的质量和模型训练阶段使用的标记剂的复杂性。
例如,应用于从一个帧移动到下一个帧的复杂多面对象的多边形可能不如一个周围有一个移动缓慢的边界框的简单对象那么容易插值。正如注释者所知,这完全取决于视频中从一帧到下一帧的变化程度。
当在视频中的对象上绘制多边形时,由专有算法支持,该算法在没有表示模型的情况下运行,它可以收紧多边形的周长,插值并跟踪移动对象(例如,人)中的各个部分(在本例中为衣服)。
#3: 使用微模型加速人工智能辅助视频注释
在大多数情况下,机器学习 (ML) 模型和基于 AI 的算法需要大量数据才能产生有意义的结果。不仅如此,输入的数据也应该干净且一致。否则,整个项目可能会花费比预期更长的时间,或者不得不重新开始。
自动视频标记和注释很复杂。这种方法也称为模型辅助标记 (MAL) 或 AI 辅助标记 (AAL)。这种类型的标记比注释静态图像或将 ML 应用于庞大的 Excel 电子表格和其他数据源要复杂得多。
相反,微模型是功能强大、范围严格的方法,可以过度拟合数据模型来引导您的视频注释任务。使用微模型训练机器学习算法是一个迭代过程,需要在开始时进行手动注释和标记。但是,您不需要像使用其他视频注释平台那样多的手动工作或花费大量时间来训练模型。
在某些情况下,您可以在最少的五个标记帧上训练微模型。正如我们在另一篇文章中概述的那样,“微模型是特定于注释的模型,它们针对特定任务或特定数据进行了过度训练。
微模型最好应用于狭窄的领域,例如,在整个长视频中自动注释特定对象,并且所需的训练数据很少。训练一个微模型可能需要几分钟,而整个开发周期只需几分钟或几小时。微模型为医疗保健、制造或研究领域的组织节省了大量时间和金钱,尤其是在注释复杂的移动对象时。
#4: 自动目标分割提高目标分割质量
自动分割是在对象周围绘制轮廓,然后使用算法自动“捕捉”到对象的轮廓,使轮廓更紧密,更准确地与从一帧到下一帧跟踪的对象和标签对齐。
注释者可以使用多边形来执行此操作。例如,您可能需要在监控视频中对一个人所穿的衣服进行分割,以便您可以看到嫌疑人何时脱下一件衣服穿上其他衣服。
使用正确的视频注释工具,自动对象分割几乎适用于数十个扇区的任何用例。它适用于任意形状,插值可以跟踪数千帧中的对象段。在大多数情况下,结果是在整个视频注释项目中节省了大量的时间和成本,从而实现更快、更高质量的分割。
自动视频注释的强大功能
根据我们的经验,在极少数情况下,自动视频注释在视频注释项目中不能发挥有用的作用。自动化使注释者能够更快、更有效地工作,并提供更高质量的项目输出。