用合成数据训练托盘检测模型【机器学习】

想象一下,你是一名机器人或机器学习 (ML) 工程师,负责开发一个模型来检测托盘,以便叉车可以操纵它们。 ‌你熟悉传统的深度学习流程,已经整理了手动标注的数据集,并且已经训练了成功的模型。

在这里插入图片描述

推荐:用 NSDT设计器 快速搭建可编程3D场景。

你已准备好迎接下一个挑战,即大堆密集堆放的托盘。 你可能想知道,应该从哪里开始? ‌2D 边界框检测或实例分割对于此任务最有用吗? ‌应该进行 3D 边界框检测吗?如果是的话,我将如何对其进行标注? ‌是否最好使用单目相机、立体相机或激光雷达进行检测? 考虑到自然仓库场景中出现的托盘数量巨大,手动标注并不是一件容易的事。 如果我弄错了,代价可能会很高。

这是我在遇到类似情况时所想的。 幸运的是,我有一种简单的方法可以以相对较低的投入开始:合成数据。

1、合成数据概述

合成数据生成 (SDG:Synthetic Data Generation) 是一种使用渲染图像而不是真实图像生成数据来训练神经网络的技术。 ‌使用综合渲染数据的优点是,你隐式地知道场景中对象的完整形状和位置,并且可以生成标注,例如 2D 边界框、关键点、3D 边界框、分割蒙版等。 ‌‌

合成数据是引导深度学习项目的好方法,因为它使你能够在进行大量手动数据标注工作之前或在数据有限、受限或根本不存在的情况下快速迭代想法。 对于这种情况,你可能会发现具有域随机化的合成数据非常适合你的应用程序开箱即用的第一次尝试,而且还可以节省时间。

或者,你可能会发现需要重新定义任务或使用不同的传感器模式。 使用合成数据,可以尝试这些决策,而无需进行昂贵的标注工作。

在许多情况下,你仍然可以从使用一些真实世界的数据中受益。 ‌好的部分是,通过尝试合成数据,你将更加熟悉问题,并且可以将标注工作投入到最重要的地方。 每个机器学习任务都有自己的挑战,因此很难准确确定合成数据如何适应,是否需要使用真实数据,或者合成数据和真实数据的混合。

2、使用合成数据训练托盘分割模型

在考虑如何使用合成数据来训练托盘检测模型时,我们的团队从小规模开始。 在我们考虑 3D 框检测或任何复杂的东西之前,我们首先想看看是否可以使用用合成数据训练的模型来检测任何东西。 为此,我们渲染了一个简单的场景数据集,其中仅包含一个或两个托盘,顶部有一个盒子。 ‌我们使用这些数据来训练语义分割模型。

我们选择训练语义分割模型,因为任务定义明确并且模型架构相对简单。 还可以直观地识别模型失败的位置(错误分割的像素)。

为了训练分割模型,团队首先渲染粗略的合成场景(图 1)。
在这里插入图片描述

图 1. 两个托盘的粗略合成渲染,顶部有一个盒子

团队怀疑仅这些渲染图像缺乏训练有意义的托盘检测模型的多样性。 ‌我们还决定尝试使用生成式AI增强合成渲染,以生成更真实的图像。‌‌在训练之前,我们将生成式人工智能应用于这些图像以添加变化,我们相信这将提高模型推广到现实世界的能力。

这是使用深度条件生成模型完成的,该模型大致保留了渲染场景中对象的姿势。 请注意,使用 SDG 时不需要使用生成式 AI。 你也可以尝试使用传统的域随机化,例如改变托盘的合成纹理、颜色、位置和方向。 ‌你可能会发现通过改变渲染纹理进行的传统域随机化对于应用程序来说已经足够了。

在这里插入图片描述

图 2. 使用生成式 AI 增强的合成渲染

在渲染大约 2,000 张合成图像后,我们使用 PyTorch 训练了基于 resnet18 的 Unet 分割模型。 很快,结果就在现实世界的图像上显示出了巨大的希望(图 3)。

在这里插入图片描述

图 3. 使用分割模型测试的真实托盘图像

该模型可以准确地分割托盘。 基于这一结果,我们对工作流程更有信心,但挑战还远未结束。 到目前为止,该团队的方法没有区分托盘的实例,也没有检测到未放置在地板上的托盘。 ‌对于如图 4 所示的图像,结果几乎无法使用。 这可能意味着我们需要调整我们的训练分布。

在这里插入图片描述

图 4. 语义分割模型无法检测堆叠的托盘

3、迭代增加数据多样性以提高准确性

为了提高分割模型的准确性,团队添加了更多以不同随机配置堆叠的各种托盘的图像。 我们向数据集添加了大约 2,000 张图像,使图像总数达到大约 4,000 张。 ‌我们使用 USD Scene Construction Utilities 开源项目创建了堆叠托盘场景。

USD Scene Construction Utilities 用于在反映现实世界中可能看到的分布的配置中相对于彼此定位托盘。 ‌我们使用了通用场景描述(OpenUSD)SimReady Assets,它提供了多种托盘模型可供选择。
在这里插入图片描述

图 5. 使用 USD Python API 和 USD 场景构建实用程序创建结构化场景,并使用 Omniverse Replicator 进一步随机化和渲染

通过使用堆叠托盘和更广泛的视角进行训练,我们能够提高模型在这些情况下的准确性。

如果添加这些数据对模型有帮助,那么为什么在不增加标注成本的情况下只生成 2,000 张图像呢? 我们没有从很多图像开始,因为我们是从相同的合成分布中采样的。 ‌添加更多图像并不一定会给我们的数据集增加太多多样性。 相反,我们可能只是添加许多相似的图像,而没有提高模型在现实世界中的准确性。

从小规模开始,团队能够快速训练模型,查看失败的地方,并调整 SDG 管道并添加更多数据。 例如,在注意到模型对托盘的特定颜色和形状有偏见后,我们添加了更多的合成数据来解决这些失败案例。

在这里插入图片描述

图 6. 各种颜色塑料托盘的渲染图

这些数据变化提高了模型处理遇到的故障场景(塑料和彩色托盘)的能力。

如果数据变化很好,为什么不全力以赴并立即添加大量变化呢? 在我们的团队开始测试真实数据之前,很难判断可能需要什么差异。 ‌我们可能错过了使模型良好运行所需的重要因素。 或者,我们可能高估了其他因素的重要性,不必要地耗尽了我们的努力。 通过迭代,我们更好地了解了任务需要哪些数据。

4、托盘侧面中心检测

一旦我们在分割方面取得了一些有希望的结果,下一步就是将任务从语义分割调整为更实用的任务。 ‌我们决定,下一个最简单的评估任务是检测托盘侧面的中心。

在这里插入图片描述

图 7. 托盘侧面中心检测任务的示例数据

托盘侧面中心点是叉车在操纵托盘时将自身居中的位置。 ‌虽然在实践中可能需要更多信息来操纵托盘(例如此时的距离和角度),但我们认为这一点是此过程中的一个简单的下一步,使团队能够评估我们的数据对于任何下游应用程序有多大用处 。

检测这些点可以通过热力图回归来完成,与分割一样,热力图回归是在图像域中完成的,易于实现,并且易于直观解释。 通过为此任务训练模型,我们可以快速评估我们的合成数据集在训练模型以检测重要的操作关键点方面的有用性。

训练后的结果很有希望,如图 8 所示。

在这里插入图片描述

图 8. 托盘侧面检测模型的真实检测结果

团队确认了使用合成数据检测托盘侧面的能力,即使是紧密堆叠的托盘也是如此。 我们继续迭代数据、模型和训练管道,以改进此任务的模型。

5、角点检测

当我们对侧面中心检测模型达到满意的程度时,我们探索将任务提升到一个新的水平:检测盒子的角点。 最初的方法是对每个角使用热力图,类似于托盘侧面中心的方法。

在这里插入图片描述

图 9. 使用热力图的托盘角点检测模型

然而,这种方法很快就带来了挑战。 由于检测对象的尺寸未知,如果托盘的角不是直接可见的,则模型很难精确推断托盘的角应该在哪里。 使用热力图,如果峰值不一致,则很难可靠地解析它们。

因此,我们没有使用热力图,而是选择在检测到面中心峰值后对角位置进行回归。 我们训练了一个模型来推断一个向量场,该向量场包含角点相对于给定托盘面中心的偏移量。 ‌这种方法很快就显示出了完成这项任务的希望,即使有很大的遮挡,我们也可以提供对角位置的有意义的估计。

在这里插入图片描述

图 10. 使用面中心热力图和基于矢量场的角点回归的托盘检测结果

现在团队拥有了一个有前途的工作流程,我们迭代并扩展了这个流程,以解决出现的不同失败案例。 总的来说,我们的最终模型接受了大约 25,000 张渲染图像的训练。 我们的模型以相对较低的分辨率(256 x 256 像素)进行训练,能够通过以更高分辨率运行推理来检测小托盘。 最终,我们能够以相对较高的准确度检测到具有挑战性的场景,如上面的场景。

这是我们可以使用的东西——所有这些都是用合成数据创建的。 这就是我们今天的托盘检测模型的立场。

在这里插入图片描述

图 11.最终托盘模型检测结果,为了便于可视化,仅显示检测的正面

在这里插入图片描述

图 12. 实时运行的托盘检测模型

6、用合成数据构建你自己的模型

通过使用合成数据进行迭代开发,我们的团队开发了一种适用于真实图像的托盘检测模型。 通过更多的迭代,可能会取得进一步的进展。 除此之外,我们的任务可能会受益于添加真实世界的数据。 然而,如果没有合成数据生成,我们就无法快速迭代,因为我们所做的每个更改都需要新的标注工作。

如果你有兴趣尝试此模型,或者正在开发可以使用托盘检测模型的应用程序,可以通过访问 GitHub 上的 SDG 托盘模型来找到模型和推理代码。 该存储库包括预训练的 ONNX 模型以及使用 TensorRT 优化模型并在图像上运行推理的说明。 该模型可以在 NVIDIA Jetson AGX Orin 上实时运行,因此你将能够在边缘设备上运行它。

你还可以查看最近的开源项目 USD Scene Construction Utilities,其中包含使用 USD Python API 构建 USD 场景的示例和实用程序。

我们希望我们的经验能够启发你探索如何使用合成数据来引导你的人工智能应用程序。 如果想开始生成合成数据,NVIDIA 提供了一套工具来简化该过程。 这些包括:

  • 通用场景描述(OpenUSD):USD被描述为metaverse的HTML,是一个完整描述3D世界的框架。 USD 不仅包含 3D 对象网格等基元,而且还具有描述材质、照明、相机、物理等的能力。
  • NVIDIA Omniverse Replicator:Replicator 是 NVIDIA Omniverse 平台的核心扩展,使开发人员能够生成大量且多样化的合成训练数据,以引导感知模型训练。 凭借易于使用的 API、域随机化和多传感器模拟等功能,Replicator 可以解决数据缺乏的挑战并加速模型训练过程。
  • SimReady 资产:模拟就绪资产是物理上精确的 3D 对象,包含精确的物理属性、行为和连接的数据流,以代表模拟数字世界中的现实世界。 NVIDIA 提供了一系列真实资产和材质,可开箱即用地用于构建 3D 场景。 这包括与仓库物流相关的各种资产,例如托盘、手推车和纸板箱。 要在将 SimReady 资产添加到活动阶段之前搜索、显示、检查和配置它们,你可以使用 SimReady Explorer 扩展。 每个 SimReady 资产都有自己的预定义语义标签,可以更轻松地生成用于分割或对象检测模型的标注数据。

如果你对托盘模型、NVIDIA Omniverse 合成数据生成或 NVIDIA Jetson 推理有疑问,请访问 GitHub 或访问 NVIDIA Omniverse 合成数据生成开发者论坛和 NVIDIA Jetson Orin Nano 开发者论坛。


原文链接:基于合成数据的托盘检测 — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/18333.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode】88. 合并两个有序数组

这道题我总共想了三种解法。 1.将nums2中的元素依次放入nums1有效元素的后面&#xff0c;再总体进行排序。 import java.util.*; class Solution {public void merge(int[] nums1, int m, int[] nums2, int n) {int j 0;for(int i m;i<mn;i){nums1[i] nums2[j];j;}Arrays…

搭建网站 --- 快速WordPress个人博客并内网穿透发布到互联网

文章目录 快速WordPress个人博客并内网穿透发布到互联网 快速WordPress个人博客并内网穿透发布到互联网 我们能够通过cpolar完整的搭建起一个属于自己的网站&#xff0c;并且通过cpolar建立的数据隧道&#xff0c;从而让我们存放在本地电脑上的网站&#xff0c;能够为公众互联…

vue3单选选择全部传all,否则可以多选

<el-form-item label"发布范围-单位选择"><el-radio-group v-model"formData.unitRadio" change"getUnit"><el-radio label"ALL" click.prevent"radioChange(ALL)">全部</el-radio><el-radio la…

java 企业工程管理系统软件源码+Spring Cloud + Spring Boot +二次开发+ MybatisPlus + Redis em

&#xfeff; 工程项目管理软件&#xff08;工程项目管理系统&#xff09;对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营&#xff0c;全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据…

【C++】STL——list的模拟实现、构造函数、迭代器类的实现、运算符重载、增删查改

文章目录 1.模拟实现list1.1构造函数1.2迭代器类的实现1.3运算符重载1.4增删查改 1.模拟实现list list使用文章 1.1构造函数 析构函数 在定义了一个类模板list时。我们让该类模板包含了一个内部结构体_list_node&#xff0c;用于表示链表的节点。该结构体包含了指向前一个节点…

深度学习入门 ---- 张量(Tensor)

文章目录 张量张量在深度学习领域的定义张量的基本属性使用PyTorch安装PyTorch查看安装版本 创建张量常用函数四种创建张量的方式和区别 四则运算 张量 张量在深度学习领域的定义 张量&#xff08;tensor&#xff09;是多维数组&#xff0c;目的是把向量、矩阵推向更高的维度。…

uniapp 微信小程序:v-model双向绑定问题(自定义 props 名无效)

uniapp 微信小程序&#xff1a;v-model双向绑定问题&#xff08;自定义 props 名无效&#xff09; 前言问题双向绑定示例使用 v-model使用 v-bind v-on使用 sync 修饰符 参考资料 前言 VUE中父子组件传递数据的基本套路&#xff1a; 父传子 props子传父 this.$emit(事件名, …

如何安装、部署、启动Jenkins

一、测试环境 Linux系统 Centos 7 二、安装步骤&#xff1a; 1、安装jdk 我安装的是jdk8&#xff0c;此处就不多说了&#xff0c;自己百度哈&#xff0c;很简单 2、安装jenkins 首先依次执行如下三个命令&#xff1a; 2.1、导入镜像&#xff1a; [rootcentos7 ~]# sudo …

Python(五十八)什么是字典

❤️ 专栏简介&#xff1a;本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中&#xff0c;我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 &#xff1a;本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…

学习C#编写上位机的基础知识和入门步骤:

00001. 掌握C#编程语言基础和.NET框架的使用。 00002. 学习WinForm窗体应用程序开发技术&#xff0c;包括控件的使用和事件驱动编程。 00003. 熟悉基本的数据结构和算法知识&#xff0c;如链表、栈、队列等。 00004. 理解串口通信协议和通信方法&#xff0c;用于与底层硬件设…

elb 直接配置到后端服务器组

出现上图报错的原因是&#xff0c;前面elb配置了https证书&#xff0c;后端的nginx也配置了证书&#xff0c;导致冲突。 需要修改后端的nginx配置文件&#xff0c;将证书配置注释掉。 如果出现健康检查异常&#xff0c;需要在对应服务器的安全组上配置elb所在的网段的访问权限…

CTFSHOW php 特性

web89 数组绕过正则 include("flag.php"); highlight_file(__FILE__);if(isset($_GET[num])){$num $_GET[num]; get numif(preg_match("/[0-9]/", $num)){ 是数字 就输出 nodie("no no no!");}if(intval($num)){ 如果是存在整数 输出 flagecho …

formatter的用法,深拷贝, Object.assign 方法实战。

1. :formatter的用法 :formatter 接受一个函数作为参数&#xff0c;这个函数有三个参数&#xff1a;row&#xff0c;column 和 cellValue。row 是当前行的数据&#xff0c;column 是当前列的数据&#xff0c;cellValue 是当前单元格的值。 <el-table-column prop"SYS…

sql入门基础-2

Dml语句 对数据的增删改查 关键字 Insert增 Update删 Delete改 添加数据 给指定字段添加数据 Insert into 表明 (字段名1&#xff0c;字段名2) values&#xff08;值1&#xff0c;值2&#xff09;; 给全部字段添加数据--(根据位置对应添加到字段下) Insert into 表名 values…

基于ESP8266+网络调试助手点灯实验

文章目录 ESP8266串口wifi模块简介实验准备硬件接线程序下载注意事项总结 ESP8266串口wifi模块 简介 ESP8266 是一种低成本、高性能的 Wi-Fi 模块&#xff0c;内置了 TCP/IP 协议栈&#xff0c;它可以作为单独的无线网络控制器&#xff0c;或者与其他微控制器进行串口通信。它…

STM SPI学习

SPI介绍 SPI&#xff1a;串行外设设备接口&#xff08;Serial Peripheral Interface&#xff09;&#xff0c;是一种高速的&#xff0c;全双工&#xff0c;同步通信总线。 IIC总线与SPI总线对比 全双工&#xff1a;同一时刻既能接收数据&#xff0c;也能发送数据。 CS&…

中国最赚钱公司出炉

7月25日&#xff0c;2023年《财富》中国500强排行榜正式发布。国家电网以5300亿美元的营收位居榜首&#xff0c;中国石油和中国石化分列第二和第三。工商银行则成为最赚钱的公司。 图片来源&#xff1a;财富FORTUNE 1中国500强TOP10 数据显示&#xff0c;今年500家上榜的中国…

Linux 用户和权限

一、root 用户 root 用户(超级管理员) 无论是windows、Macos、Linux均采用多用户的管理模式进行权限管理。在Linux系统中&#xff0c;拥有最大权限的账户名为&#xff1a;root (超级管理员)。 root用户拥有最大的系统操作权限&#xff0c;而普通用户在许多地方的权限是受限的。…

Keepalived 在CentOS 7安装并配置监听MySQL双主

keepalived安装 MySQL双主配置请看这里&#xff1a;https://tongyao.blog.csdn.net/article/details/132016200?spm1001.2014.3001.5502 128、129两台服务器安装步骤相同&#xff0c;配置文件不同&#xff0c;下面有介绍。 1.安装相关依赖包&#xff0c;并下载keepalived安…

Java课题笔记~ MyBatis入门

一、ORM框架 当今企业级应用的开发环境中&#xff0c;对象和关系数据是业务实体的两种表现形式。业务实体在内存中表现为对象&#xff0c;在数据库中变现为关系数据。当采用面向对象的方法编写程序时&#xff0c;一旦需要访问数据库&#xff0c;就需要回到关系数据的访问方式&…