【AI视野·今日Robot 机器人论文速览第三十七期】Wed, 20 Sep 2023

AI视野·今日CS.Robotics 机器人学论文速览
Wed, 20 Sep 2023
Totally 53 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Machine Learning-Driven Burrowing with a Snake-Like Robot
Authors Sean Even, Holden Gordon, Hoeseok Yang, Yasemin Ozkan Aydin
地下挖掘对于机器人来说本质上是困难的，因为该领域会经历很大的力量以及大量的不确定性。由于对粒状介质中的力进行建模的困难，我们建议使用一种新颖的机器学习控制策略来获得垂直自挖洞的最佳技术。在本文中，我们实现了一个像蛇一样的仿生机器人，它配备了 IMU 和两个三轴磁力计。利用磁场强度作为深度的模拟，提出了一种基于正弦和随机数据的新型深度学习架构，以获得更有效的垂直自挖掘策略。该策略能够胜过许多其他标准挖掘技术，并且能够自动达到目标挖掘深度。

Hierarchical Annotated Skeleton-Guided Tree-based Motion Planning
Authors Diane Uwacu, Ananya Yammanuru, Keerthana Nallamotu, Vasu Chalasani, Marco Morales, Nancy M. Amato
我们提出了一种基于分层树的运动规划策略 HAS RRT，由工作空间骨架引导来解决机器人和计算生物学中的运动规划问题。依靠有关工作空间连通性的信息以及工作空间中可用路径的排名，该策略对工作空间引导指示的路径进行优先级排序，以有效地为移动对象找到有效的运动计划。在指导不理想的情况下，该策略通过分层恢复到规划空间的局部探索来调整其对指导的依赖。我们提供与其他基于树的规划策略的广泛比较分析，并证明 HAS RRT 可靠且高效地找到低成本路径。

Heuristic Search for Path Finding with Refuelling
Authors Anushtup Nandy, Zhongqiang Ren, Sivakumar Rathinam, Howie Choset
本文考虑了具有加油约束的路径寻找 PF 的推广，称为加油路径寻找 RF PF 问题。就像 PF 一样，RF PF 问题是在图上定义的，其中顶点是燃料价格已知的加油站，边成本取决于相应顶点之间的 Gas 消耗。 RF PF 为具有有限油箱和有限加油站次数的机器人寻求一条从起点到目标顶点的最小成本路径。虽然 RF PF 是多项式时间可解的，但在实践中快速计算最佳解决方案仍然是一个挑战，因为机器人需要同时确定路径、在哪里停车以及每次停车时的加油量。本文开发了一种名为 Refuel A RF A 的启发式搜索算法，该算法在启发式函数的指导下迭代构建从开始到目标的部分解决方案路径，同时在规划过程中利用优势规则进行状态修剪。

Mobile Manipulation Platform for Autonomous Indoor Inspections in Low-Clearance Areas
Authors Erik Pearson, Paul Szenher, Christine Huang, Brendan Englot
多年来，移动机械手一直用于检查、维护和修理任务，但存在一些关键限制。出于稳定性考虑，通常需要较大的移动平台才能处理影响较远的机械手，或者需要大幅减少机械手的工作空间以适应较小的移动平台。因此，我们提出了两种广泛使用的机器人的组合：Clearpath Jackal 无人地面车辆和 Kinova Gen3 六自由度机械臂。 Jackal 占地面积小，在低净空的室内环境中运行良好。使用 LiDAR 传感器对定位、导航和地图进行广泛测试，使 Jackal 成为适合移动操控的成熟移动平台。 Gen3 具有较长的作用范围和合理的功耗来完成操纵任务。用于 RGB D 传感的腕式摄像头和可定制的末端执行器接口使 Gen3 适合多种操作任务。通常这些功能会导致平台不稳定，但是通过一些小的硬件和软件修改，我们已经生产了一个稳定的高性能移动操纵平台，具有显着的移动性、覆盖范围、传感和可操作性，适用于室内检查任务，而不会降低性能组件机器人的个人能力。

LEA*: An A* Variant Algorithm with Improved Edge Efficiency for Robot Motion Planning
Authors Dongliang Zheng, Panagiotis Tsiotras
在这项工作中，我们引入了一种新的图搜索算法，即基于惰性边缘的 A LEA，用于机器人运动规划。通过使用边缘队列并利用惰性搜索的思想，LEA 具有与 A 类似的最佳顶点效率，并且与 A 相比提高了边缘效率。 LEA 简单且易于实现，只需对 A 进行最少的修改，与以前的惰性搜索算法相比，开销非常小。我们还探索了膨胀启发法的影响，从而产生了加权 LEA wLEA 。我们表明 wLEA 的边缘效率变得接近 LazySP，因此接近最优。我们在 2D 规划问题和 7 DOF 机械臂规划上测试 LEA 和 wLEA。我们通过考虑稀疏、中等和杂乱的随机世界以及小、中和大图尺寸来与以前的算法进行彻底的比较。

DRIVE: Data-driven Robot Input Vector Exploration
Authors Dominic Baril, Simon Pierre Desch nes, Luc Coupal, Cyril Goffin, Julien L pine, Philippe Gigu re, Fran ois Pomerleau
精确的运动模型是大多数自主导航系统的基本组成部分。尽管在改进模型制定方面已经做了很多工作，但不存在用于收集训练模型所需的经验数据的标准协议。在这项工作中，我们通过提出数据驱动的机器人输入矢量探索 DRIVE 来解决这个问题，该协议能够表征无人驾驶地面车辆 UGV 输入限制并收集经验模型训练数据。我们还提出了一种新颖的学习滑动方法，其性能优于类似的加速学习方法。我们的贡献通过广泛的实验评估得到了验证，在三种不同的 UGV 和四种地形类型上累积了超过 7 公里和 1.8 小时的驾驶数据。我们表明，与常见的人类驱动的数据收集协议相比，我们的协议提供了更高的预测性能。此外，我们的协议收敛了 46 s 的训练数据，几乎比最短的人类数据集收集协议少四倍。我们表明，在表面冰上遇到的极端滑移条件下，我们的模型达到了操作极限。 DRIVE 是表征 UGV 在其运行条件下运动的有效方法。

Learning Model Predictive Control with Error Dynamics Regression for Autonomous Racing
Authors Haoru Xue, Edward L. Zhu, Francesco Borrelli
这项工作提出了一种新颖的学习模型预测控制 LMPC 策略，用于在操控极限下进行自动驾驶赛车，可以迭代地探索和学习高速操作域中的未知动态。我们从现有的 LMPC 公式出发，修改系统动力学学习方法。特别是，我们的方法使用标称、全局、非线性、基于物理的模型，以及局部、线性、数据驱动的误差动态学习。我们在 1 个 10 比例硬件中进行了模拟实验，并将所提出的 LMPC 部署在印地自主挑战赛 IAC 中使用的全尺寸自动赛车上，并在美国印第安纳州普特南公园路球场进行了闭环实验。结果表明，所提出的控制策略对参数调整和数据稀缺表现出更好的鲁棒性。

OASIS: Optimal Arrangements for Sensing in SLAM
Authors Pushyami Kaveti, Matthew Giamou, Hanumant Singh, David M. Rosen
自主移动机器人上传感器的数量和布置极大地影响其感知能力。确保传感器的安装方式能够实现准确的检测、定位和映射对于下游控制任务的成功至关重要。然而，在设计新的机器人平台时，研究人员和从业人员通常会模仿标准配置或最大化简单的启发式方法（例如视场 FOV 覆盖范围）来决定在何处放置外感受传感器。在这项工作中，我们在同步定位和地图 SLAM 的背景下对移动机器人感知中这个被忽视的元素进行了信息理论研究。我们展示了如何将传感器布置问题形式化为 E 最优性能标准下的子集选择形式。虽然这个公式一般来说是 NP 困难的，但我们进一步表明，贪婪传感器选择和基于快速凸松弛的事后验证的结合能够在实践中有效恢复可证明的最佳传感器设计。

Learning-Initialized Trajectory Planning in Unknown Environments
Authors Yicheng Chen, Jinjie Li, Wenyuan Qin, Yongzhao Hua, Xiwang Dong, Qingdong Li
未知环境中的自主飞行需要对轨迹的空间和时间轮廓进行精确规划，这通常涉及非凸优化，导致较高的时间成本和对局部最优的敏感性。为了解决这些限制，我们引入了 Learning Initialized Trajectory Planner LIT Planner，这是一种使用神经网络 NN Planner 提供初始值来指导优化的新颖方法。我们首先利用时空优化和批量采样来生成训练案例，旨在捕获轨迹中的多模态。根据这些数据，神经网络规划器将视觉和惯性观察结果映射到轨迹参数，以处理未知环境。然后优化网络输出以增强可靠性和可解释性，确保稳健的性能。此外，我们提出了一个框架，支持强大的在线重新规划并容忍规划延迟。与基于优化的方法相比，全面的模拟验证了 LIT Planner 的时间效率，且不会影响轨迹质量。

Asymptotically Optimal Belief Space Planning in Discrete Partially-Observable Domains
Authors Janis Eric Freund, Camille Phiquepal, Andreas Orthey, Marc Toussaint
机器人通常必须在离散的部分可观察的世界中运行，其中世界的状态只能在运行时观察。为了对不同的世界状态做出反应，机器人需要应对突发事件。然而，计算突发事件的成本很高，而且通常不是最优的。为了解决这个问题，我们开发了改进的路径树优化PTO方法。 PTO 通过在置信空间中构建运动路径树来计算运动偶发事件。这是通过构建配置图，然后添加观察边将图扩展到置信空间来实现的。然后，我们使用动态规划步骤来提取路径树。 PTO 通过添加基于相机的状态采样器来改进对观察点的搜索，从而扩展了先前的工作。我们还添加了对非欧几里德状态空间的支持，在开放运动规划库 OMPL 中提供实现，并使用虚拟相机在多达 10 维状态空间中的四个现实场景中评估 PTO。我们将 PTO 与默认值以及基于新相机的状态采样器进行比较。结果表明，基于相机的状态采样器提高了四分之三场景的成功率，同时内存占用显着降低。

Fast-dRRT*: Efficient Multi-Robot Motion Planning for Automated Industrial Manufacturing
Authors Andrey Solano, Arne Sieverling, Robert Gieselmann, Andreas Orthey
我们推出 Fast dRRT，一种基于采样的多机器人规划器，适用于实时工业自动化场景。快速 dRRT 建立在离散快速探索随机树 dRRT 规划器的基础上，并通过使用预先计算的扫描体积进行有效的碰撞检测、部分多机器人问题的死锁避免以及简化的重新布线策略来扩展 dRRT。我们使用来自不同制造商的两到四个工业机器人手臂，在五个具有挑战性的多机器人场景中评估 Fast dRRT。这些场景包括涉及僵局、狭窄通道和近距离任务的情况。将结果与 dRRT 进行比较，结果表明，在给定时间限制内寻找解决方案方面，Fast dRRT 的性能优于 dRRT 高达 94，而初始解决方案成本仅牺牲了 35。此外，Fast dRRT 展示了目标配置中的抗噪声能力，并且能够解决具有挑战性的焊接以及拾取和放置任务，同时减少计算时间。

Learning Adaptive Safety for Multi-Agent Systems
Authors Luigi Berducci, Shuo Yang, Rahul Mangharam, Radu Grosu
由于有关其他代理的信息有限，确保动态多代理系统的安全性具有挑战性。控制屏障函数 CBF 在安全保证方面表现出了良好的前景，但当前的方法对其他代理做出了强有力的假设，并且经常依赖手动调整来平衡安全性、可行性和性能。在这项工作中，我们深入研究了具有 CBF 的多智能体系统的自适应安全学习问题。我们展示了 CBF 配置如何深刻影响紧急行为，强调了采用响应式和动态方法进行 CBF 设计的必要性。我们提出了 ASRL，一种新颖的自适应安全 RL 框架，可以完全自动化策略和 CBF 系数的优化，通过强化学习来增强安全性和长期性能。通过直接与其他智能体交互，ASRL 学习如何应对不同的智能体行为并将成本违规保持在期望的限度以下。我们根据基于学习和控制理论的方法，在多机器人系统和竞争性多代理赛车场景中评估 ASRL。我们凭经验证明了 ASRL 的有效性和灵活性，并评估了分发场景之外的泛化性和可扩展性。

Spiral Complete Coverage Path Planning Based on Conformal Slit Mapping in Multi-connected Domains
Authors Changqing Shen, Sihao Mao, Bingzhou Xu, Ziwei Wang, Xiaojian Zhang, Sijie Yan, Han Ding
在多连通域中生成平滑且较短的螺旋完整覆盖路径是机器人型腔加工的一个重要研究领域。多连通域中的传统螺旋路径规划方法涉及子区域划分过程，将变形的螺旋路径合并到每个子区域内，并且子区域内的这些路径通过桥互连。在具有丰富空隙和不规则边界的复杂域中，添加的子区域边界增加了路径回避要求。这会导致过度桥接，并需要更长的不均匀密度螺旋来实现完整的分区覆盖。考虑到共形狭缝映射可以将多个连通区域转化为规则的圆盘或环面而无需进行分区划分，提出了一种基于共形狭缝映射的螺旋全覆盖路径规划方法。首先，提出了一种针对带角点的分段三次样条边界的狭缝映射计算技术。然后，基于相邻共形狭缝映射iso参数之间的最大内切圆半径，开发了一种螺旋路径间距控制方法。最后，通过偏移iso参数导出螺旋路径。跨各种边界场景综合分析了所提出方法的复杂性和适用性。同时，进行了两次型腔铣削实验，将新方法与传统的螺旋全覆盖路径方法进行了比较。

Perceptual Factors for Environmental Modeling in Robotic Active Perception
Authors David Morilla Cabello 1 , Jonas Westheider 2 , Marija Popovic 2 , Eduardo Montijano 1 1 Instituto de Investigaci n en Ingenier a de Arag n, Universidad de Zaragoza, Spain, 2 e Institute of Geodesy and Geoinformation, University of Bonn, Germany
准确评估新传感器观测的潜在价值是主动感知规划的一个关键方面。当使用基于视觉的神经网络的测量来推理高级场景理解时，这项任务尤其具有挑战性。由于基于外观的推理，测量结果容易受到多种环境影响，例如遮挡物的存在、照明条件的变化以及由于附近视点之间的外观相似而导致的信息冗余。为了解决这个问题，我们提出了一种新的主动感知框架，在规划和融合中纳入任意数量的感知效果。我们的方法通过一组称为感知因素的通用函数来建模与环境的相关性，以构建感知图，该感知图量化了环境对候选观点的总体影响。通过调整与测量相关的不确定性来衡量其贡献，该信息可以无缝地融入到规划和融合过程中。我们在模拟环境中评估我们的感知图，该环境再现了机器人应用中常见的环境条件。我们的结果表明，通过考虑感知图中的环境影响，我们可以通过正确选择视点并在受环境因素影响时正确考虑测量噪声来改进状态估计。

TELESIM: A Modular and Plug-and-Play Framework for Robotic Arm Teleoperation using a Digital Twin
Authors Audonnet P Florent, Jonathan Grizou, Andrew Hamilton, Gerardo Aragon Camarasa
我们推出了 TELESIM，这是一种模块化、即插即用的框架，用于使用数字孪生作为用户和机器人系统之间的接口来直接远程操作机械臂。我们通过对使用两种不同控制方式（虚拟现实控制器和使用不同抓取系统的手指映射硬件控制器）的两个不同机器人进行 37 名参与者的用户调查来测试 TELESIM。用户被要求远程操作机器人，将 3 个立方体拾取并放置在塔中，并在 10 分钟内尽可能多次地重复此任务，而事先仅进行 5 分钟的训练。

Assessing the Robustness of LiDAR, Radar and Depth Cameras Against Ill-Reflecting Surfaces in Autonomous Vehicles: An Experimental Study
Authors Michael Loetscher, Nicolas Baumann, Edoardo Ghignone, Andrea Ronco, Michele Magno
距离测量传感器在自动驾驶系统中发挥着至关重要的作用。尽管激光雷达技术一直占据主导地位，但其在恶劣天气条件下的脆弱性是有据可查的。本文重点讨论次要不利条件以及不良反射表面对测距传感器的影响。我们评估了这种情况对自主移动机器人激光雷达、雷达和深度相机中使用的三种主要测距模式的影响。基于准确的实验评估，论文结果表明，在反射率不佳的情况下，LiDAR 测距性能显着下降至其标称操作条件的 33，而雷达和深度相机则保持其标称距离测距能力的 100。

Vision-based Situational Graphs Generating Optimizable 3D Scene Representations
Authors Ali Tourani, Hriday Bavle, Jose Luis Sanchez Lopez, Deniz Isinsu Avsar, Rafael Munoz Salinas, Holger Voos
3D 场景图通过分层组织不同的语义实体及其之间的拓扑关系，提供更有效的环境表示。另一方面，基准标记提供了一种有价值的机制，用于编码与环境及其内部对象有关的综合信息。在视觉 SLAM VSLAM 的背景下，特别是当重建的地图富含实用的语义信息时，这些标记有可能通过增加有价值的语义信息并促进语义对象之间有意义的联系来增强地图。在这方面，本文利用基准标记的潜力，将 VSLAM 框架与分层表示相结合，生成可优化的基于多层视觉的情景图。该框架包括传统的 VSLAM 系统，具有低级特征跟踪和映射功能，并通过基准标记图的结合得到增强。基准标记有助于识别环境中的墙壁和门，随后与高层实体（包括走廊和房间）建立有意义的关联。实验结果是在使用各种腿式机器人收集的现实世界数据集上进行的，并以基于光检测和测距 LiDAR 的框架 S 图为基准进行基准测试。

Rethinking Imitation-based Planner for Autonomous Driving
Authors Jie Cheng, Yingbing Chen, Xiaodong Mei, Bowen Yang, Bo Li, Ming Liu
近年来，基于模仿的驾驶规划器取得了相当大的成功。然而，由于缺乏标准化基准，各种设计的有效性仍不清楚。新发布的 nuPlan 通过提供大规模现实世界数据集和用于公平比较的标准化闭环基准来解决这个问题。利用这个平台，我们对基于模仿的规划器的两个基本但尚未充分探索的方面进行了全面的研究：自我规划的基本特征和减少复合错误的有效数据增强技术。此外，我们强调了当前学习系统忽视的模仿差距。最后，综合我们的发现，我们提出了一个强大的基线模型 PlanTF。我们的结果表明，与涉及手工制定规则的最先进方法相比，设计良好、纯粹基于模仿的规划器可以实现极具竞争力的性能，并在长尾情况下表现出卓越的泛化能力。我们的模型和基准是公开的。

LiDAR-Generated Images Derived Keypoints Assisted Point Cloud Registration Scheme in Odometry Estimation
Authors Haizhou Zhang, Xianjia Yu, Sier Ha, Tomi Westerlund
关键点检测和描述在各种机器人和自主应用中发挥着关键作用，包括视觉里程计 VO、视觉导航以及同步定位和地图 SLAM。虽然在传统相机图像中广泛研究了无数的关键点检测器和描述符，但这些技术在 LiDAR 生成图像（即反射率和距离图像）中的有效性尚未得到评估。这些图像因其在雨或雾等不利条件下的恢复能力而受到关注。此外，它们还包含重要的纹理信息，可以补充 LiDAR 点云在点云配准阶段提供的几何信息，特别是在仅依赖 LiDAR 传感器时。这解决了 LiDAR 里程计 LO 在几何相同的场景中或并非所有原始点云都提供信息甚至可能产生误导的情况下遇到的漂移挑战。本文旨在通过全面的定量研究来分析传统图像关键点提取器和描述符在激光雷达生成图像上的适用性。此外，我们提出了一种新方法来增强 LO 的鲁棒性和可靠性。提取关键点后，我们继续对点云进行下采样，随后将其集成到点云配准阶段以进行里程计估计。我们的实验表明，所提出的方法具有相当的精度，但减少了计算开销，更高的里程计发布率，甚至在使用原始点云容易发生漂移的场景中具有优越的性能。这反过来又为后续研究 LiDAR 生成图像与 LO 的集成奠定了基础。

Multi-Object Graph Affordance Network: Enabling Goal-Oriented Planning through Compound Object Affordances
Authors Tuba Girgin, Emre Ugur
学习对象可供性是机器人学习领域的有效工具。虽然数据驱动模型深入探索单个或配对对象的可供性，但在研究由任意数量的复杂形状对象组成的复合对象的可供性方面存在显着差距。在这项研究中，我们提出了多对象图可供性网络 MOGAN，它可以对复合对象可供性进行建模，并预测将新对象放置在现有复合之上的效果。给定不同的任务，例如建造特定高度或属性的塔，我们使用基于搜索的规划来查找具有合适可供性的对象的堆叠操作序列。我们表明，我们的系统能够正确地对非常复杂的复合对象的可供性进行建模，这些复合对象包括堆叠的球体和杯子、杆子以及包围杆子的环。

Augmenting Tactile Simulators with Real-like and Zero-Shot Capabilities
Authors Osher Azulay, Alon Mizrahi, Nimrod Curtis, Avishai Sintov
模拟触觉感知可能会在操作任务中利用机器人系统的学习能力。然而，高分辨率触觉传感器模拟器的现实差距仍然很大。在模拟数据上训练的模型经常在零样本推理中失败，需要使用真实数据进行微调。此外，高分辨率传感器的工作通常集中在平面传感器上，而 3D 圆形传感器对于灵巧的操作至关重要。在本文中，我们提出了一种双向生成对抗网络 GAN，称为 SightGAN。 SightGAN 依赖于早期的 CycleGAN，同时包含两个额外的损失组件，旨在准确重建背景和接触模式（包括小接触痕迹）。所提出的 SightGAN 通过差异图像学习真实到模拟和模拟到真实的过程。它被证明可以生成真实的合成图像，同时保持准确的接触定位。生成的图像可用于训练新制造的传感器的零样本模型。因此，生成的真实生成器模拟可以构建在触觉模拟器之上，以提供真实世界的框架。例如，该框架可用于训练操作任务的强化学习策略。

Automating Bird Diverter Installation through Multi-Aerial Robots and Signal Temporal Logic Specifications
Authors Alvaro Caballero, Giuseppe Silano
本文解决了使用多旋翼机群安装鸟类转向器的任务分配和轨迹生成问题。所提出的运动规划器考虑了有效负载容量、充电约束，并利用信号时间逻辑 STL 规范来编码任务目标和时间要求。引入基于事件的重新规划策略来处理意外故障并确保操作连续性。还采用能量最小化项来隐式节省安装过程中的多旋翼飞行时间。

Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration
Authors Hongbo Zhao, Yikang Zhang, Qijun Chen, Rui Fan
立体相机外参数的准确估计是保证立体匹配算法性能的关键。在现有技术中，立体相机的在线自校准通常被表述为专门的视觉里程计问题，而没有考虑立体校正的原理。在本文中，我们首先深入研究了单应性校正的概念，这是我们新型立体相机在线自校准算法开发的基石，适用于只有一对图像可用的情况。此外，我们引入了一种简单而有效的解决方案，用于在存在立体视频序列的情况下进行全局最佳外在参数估计。此外，我们强调在平移向量中使用三个欧拉角和三个分量来进行性能量化是不切实际的。相反，我们引入了四个新的评估指标来量化外在参数估计的鲁棒性和准确性，适用于单对和多对情况。使用各种实验设置在室内和室外环境中进行的广泛实验验证了我们提出的算法的有效性。综合评估结果表明，与基线算法相比，其性能更加优越。

Resource-Efficient Cooperative Online Scalar Field Mapping via Distributed Sparse Gaussian Process Regression
Authors Tianyi Ding, Ronghao Zheng, Senlin Zhang, Meiqin Liu
协作在线标量场绘图是多机器人系统的一项重要任务。高斯过程回归广泛用于构建表示具有置信区间的空间信息的地图。然而，由于其高计算和通信成本，很难处理协作在线地图任务。这封信提出了一种通过分布式稀疏高斯过程回归来实现资源高效的协作在线场映射方法。开发了一种新颖的分布式在线高斯过程评估方法，使得机器人可以协作评估并找到具有足够全局效用的观测值以减少计算量。

Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill
Authors Wenzhe Cai, Siyuan Huang, Guangran Cheng, Yuxing Long, Peng Gao, Changyin Sun, Hao Dong
零射击对象导航对于家庭辅助机器人来说是一项具有挑战性的任务。这项任务强调视觉基础、常识推理和运动能力，其中前两项是基础模型所固有的。但对于运动部分，大多数工作仍然依赖于基于地图的规划方法。 RGB空间和地图空间之间的差距使得很难将知识从基础模型直接迁移到导航任务。在这项工作中，我们提出了一种像素引导导航技能 PixNav，它弥合了基础模型和具体导航任务之间的差距。对于最近的基础模型来说，通过像素来指示对象是很简单的，并且以像素作为目标规范，我们的方法成为针对所有不同类型对象的通用导航策略。此外，我们的PixNav是纯RGB策略，可以降低家庭辅助机器人的成本。实验证明了 PixNav 的鲁棒性，在本地路径规划任务中取得了 80 的成功率。为了执行长视野对象导航，我们设计了一个基于 LLM 的规划器，利用对象和房间之间的常识知识来选择最佳路径点。对逼真的室内模拟器和现实世界环境的评估验证了我们提出的导航策略的有效性。

Learning Orbitally Stable Systems for Diagrammatically Teaching
Authors Weiming Zhi, Kangni Liu, Tianyi Zhang, Matthew Johnson Roberson
图解教学是机器人获取新技能的范例，用户可以在场景图像上提供 2D 草图来塑造机器人的运动。在这项工作中，我们解决了教机器人接近一个表面，然后在其上进行循环运动的问题，其中运动周期可以由单个用户在机器人相机图像上提供的草图任意指定。因此，我们引入了emph稳定微分同胚图解教学SDDT框架。 SDDT 将机器人的运动建模为 emph 轨道渐近稳定 O.A.S.学习遵循用户指定草图的动力系统。这是通过应用 emph 微分同胚（即可微且可逆的函数）来变形已知的 O.A.S. 来实现的。系统。然后，根据我们建模系统的极限环和草图之间的豪斯多夫距离，对参数化微分同胚进行优化，以产生所需的机器人运动。我们提供了对优化系统行为的理论见解，并在模拟中和在安装有 6 自由度机械臂的四足动物上对 SDDT 进行了实证评估。

Autonomous Field-of-View Adjustment Using Adaptive Kinematic Constrained Control with Robot-Held Microscopic Camera Feedback
Authors Hung Ching Lin, Murilo Marques Marinho, Kanako Harada
用于毫米级操纵的机器人系统通常使用高放大倍率的相机来提供目标区域的视觉反馈。然而，显微相机的视场 FoV 有限，需要相机运动才能捕捉更广阔的工作空间环境。在这项工作中，我们提出了一种自主机器人控制方法，将机器人持有的相机限制在指定的视场内。此外，我们将相机外参建模为运动学模型的一部分，并使用相机测量与基于 U Net 的工具跟踪相结合，以在任务执行期间适应完整的机器人模型。作为概念验证演示，所提出的框架在双手动设置中进行了评估，其中控制显微摄像头以查看沿预定义轨迹移动的工具。

Crowd-Aware Multi-Agent Pathfinding With Boosted Curriculum Reinforcement Learning
Authors Phu Pham, Aniket Bera
拥挤环境中的多智能体路径查找 MAPF 在运动规划中提出了一个具有挑战性的问题，旨在为系统中的所有智能体找到无碰撞路径。 MAPF 在各个领域都有广泛的应用，包括空中集群、自主仓库机器人和自动驾驶车辆。目前的 MAPF 方法可大致分为集中式和分散式规划两大类。集中式规划受到维度灾难的影响，因此在大型复杂环境中无法很好地扩展。另一方面，去中心化规划使智能体能够在部分可观察的环境中进行实时路径规划，从而表现出隐式协调。然而，它们在密集环境中收敛缓慢且性能下降。在本文中，我们介绍了 CRAMP，这是一种人群感知的去中心化方法，通过利用基于强化课程的培训策略指导的强化学习来解决这个问题。我们在模拟环境中测试了 CRAMP，并证明我们的方法在各种指标上都优于 MAPF 最先进的去中心化方法。

Memory-based Controllers for Efficient Data-driven Control of Soft Robots
Authors Yuzhe Wu, Ehsan Nekouei
由于柔性材料的非线性变形和高自由度，软机器人的控制器设计具有挑战性。数据驱动方法是解决软机器人控制器设计问题的一种有前途的解决方案。然而，现有的软机器人数据驱动控制器设计方法存在两个缺点：一是需要过长的训练时间，二是可能导致控制器效率低下。本文通过开发两种基于内存的软机器人控制器来解决这些问题，这些控制器可以以数据驱动的方式进行训练，即有限内存控制器 FMC 方法和基于长期短期内存 LSTM 的方法。 FMC存储不同时间实例的跟踪误差，并根据存储的跟踪误差的加权和计算驱动信号。我们开发了三种强化学习算法，使用 Q 学习、软演员批评家和确定性策略梯度 DDPG 方法来计算 FMC 的最佳权重。基于 LSTM 的控制器由 LSTM 网络组成，其中网络的输入是机器人的所需配置和当前配置。 LSTM 网络计算软体机器人遵循所需配置所需的驱动信号。我们研究了所提出的方法在控制软手指方面的性能，作为基准，我们使用现有的基于强化学习 RL 的控制器和比例积分微分 PID 控制器。我们的数值结果表明，所提出的基于记忆的控制器的训练时间明显短于经典的基于强化学习的控制器。

Using an Uncrewed Surface Vehicle to Create a Volumetric Model of Non-Navigable Rivers and Other Shallow Bodies of Water
Authors Jayesh Tripathi, Robin Murphy
不可通航的河流和蓄水池在缓冲社区免受洪水影响方面发挥着重要作用，但应急计划人员往往没有关于它们在淹没周围地区之前可以承载的水量的数据。本文描述了一种实用方法，使用无人水面航行器 USV 收集测深图与浅水体岸数字表面图并将其合并为统一的体积模型。水线以下网格是通过将泊松表面重建算法应用于水下表面的稀疏声纳深度读数而开发的。使用运动 SfM 包中的商业结构创建银行的密集水线上方网格。由于多种原因，合并具有挑战性，最重要的是传感器覆盖范围的差距，即 USV 无法收集声纳深度数据或视觉上看到通向银行的沙滩，因此两个网格可能不会相交。

Lower Gravity Demonstratable Testbed for Space Robot Experiments
Authors Kentaro Uno, Kazuki Takada, Keita Nagaoka, Takuya Kato, Arthur Candalot, Kazuya Yoshida
在开发用于行星表面探索的移动机器人时，评估机器人的性能至关重要，展示机器人实际部署的恶劣环境。在可以重现各种地形和重力条件的受控测试环境中进行可重复的实验至关重要。

VPRTempo: A Fast Temporally Encoded Spiking Neural Network for Visual Place Recognition
Authors Adam D. Hines, Peter G. Stratton, Michael Milford, Tobias Fischer
尖峰神经网络 SNN 凭借其潜在的能源效率、低延迟和持续学习的能力，处于神经形态计算的最前沿。虽然这些功能非常适合机器人任务，但迄今为止 SNN 在该领域的适应性有限。这项工作引入了用于视觉位置识别 VPR 的 SNN，它既可以在几分钟内训练，又可以在毫秒内查询，因此非常适合部署在计算受限的机器人系统上。我们提出的系统 VPRTempo 使用抽象的 SNN 克服了缓慢的训练和推理时间，该 SNN 以生物现实性换取效率。 VPRTempo 采用时间代码，根据像素强度确定单个尖峰的时序，而之前的 SNN 依赖于速率编码来确定尖峰数量，从而将尖峰效率提高了 100 以上。 VPRTempo 使用尖峰时序相关可塑性和监督增量学习规则进行训练，强制每个输出尖峰神经元仅响应单个位置。我们在 Nordland 和 Oxford RobotCar 基准本地化数据集上评估我们的系统，其中包括多达 27,000 个位置。我们发现 VPRTempo 的准确性与之前的 SNN 和流行的 NetVLAD 地点识别算法相当，同时速度快了几个数量级，适合实时部署，CPU 上的推理速度超过 50 Hz。

Generalizing Trajectory Retiming to Quadratic Objective Functions
Authors Gerry Chen, Frank Dellaert, Seth Hutchinson
轨迹重定时是计算遍历路径的可行时间参数化的任务。它通常用于轨迹优化的解耦方法中，首先找到路径，然后重定时算法计算满足相动动力学和其他约束的速度曲线。虽然轨迹重定时通常是用最短时间目标来制定的，即尽可能快地遍历路径，但它并不总是最理想的目标，特别是当我们寻求平衡多个目标或当爆炸控制不合适时。在本文中，我们提出了一种基于因子图变量消除的新颖算法，该算法也可以解决具有二次目标的重定时问题的全局最优问题，例如通过最小化平方误差来最小化控制工作或匹配标称速度，这可以通过迭代扩展到任意目标。我们的工作扩展了先前的工作，仅在可行区域的边界上找到解决方案，同时保持单个前向向后传递的相同线性时间复杂度。

One ACT Play: Single Demonstration Behavior Cloning with Action Chunking Transformers
Authors Abraham George, Amir Barati Farimani
从人类示范行为克隆中学习是机器人学习的基石。然而，大多数行为克隆算法需要大量的演示来学习任务，特别是对于具有多种初始条件的一般任务。然而，人类只需观看一两次演示就可以学会完成任务，甚至是复杂的任务。我们的工作旨在模仿这种能力，利用行为克隆来学习仅在一次人类演示的情况下完成的任务。我们通过使用线性变换来增强单个演示，为各种初始条件生成一组轨迹来实现这一目标。通过这些演示，我们能够训练行为克隆代理成功完成三个块操作任务。此外，我们还开发了一种新的时间集成方法，供动作分块代理在推理过程中使用。

Asynchronous Perception-Action-Communication with Graph Neural Networks
Authors Saurav Agarwal, Alejandro Ribeiro, Vijay Kumar
由于传感和通信能力有限，在大型环境中通过大型机器人群进行协作以实现共同的全球目标是一个具有挑战性的问题。机器人必须执行感知行动通信 PAC 循环，它们感知本地环境、与其他机器人通信并实时采取行动。去中心化 PAC 系统的一个基本挑战是决定与邻近机器人通信哪些信息以及如何在利用邻近机器人共享的信息的同时采取行动。最近，这个问题已经通过使用图神经网络 GNN 来解决，例如集群和覆盖控制等应用。尽管从概念上讲，GNN 政策是完全去中心化的，但此类政策的评估和部署主要保持中心化或限制性去中心化。此外，现有框架假设感知和动作推理是顺序执行的，这在现实世界的应用中受到很大限制。本文提出了一种机器人群中的异步 PAC 框架，其中分散的 GNN 用于计算导航动作并生成通信消息。特别是，我们使用聚合 GNN，它可以在机器人之间交换隐藏层信息，以提高计算效率和分散的动作推理。此外，框架中的模块是异步的，允许机器人以不同的频率执行感知、提取信息、通信、动作推理和控制执行。

Efficient and Accurate Mapping of Subsurface Anatomy via Online Trajectory Optimization for Robot Assisted Surgery
Authors Brian Y. Cho, Alan Kuntz
机器人手术子任务自动化有可能减少人类外科医生每个患者的工作量。有多种手术子任务需要地下解剖结构的几何信息，例如肿瘤的位置，这需要准确、高效的手术传感。在这项工作中，我们提出了一种自动传感方法，可以绘制 3D 地下解剖结构以提供此类几何知识。我们通过基于贝叶斯希尔伯特图的概率 3D 占用图对解剖结构进行建模。使用 3D 占用图，我们通过图搜索算法 A 搜索来规划解剖结构表面上的传感路径，其成本函数使生成的轨迹能够在探索未感知区域和完善现有概率理解之间取得平衡。我们通过在多种解剖环境（包括现实生活 CT 扫描数据集）中将我们提出的方法与 3 种不同的方法进行比较来展示我们提出的方法的性能。

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
Authors Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
在这项工作中，我们提出了一种可扩展的强化学习方法，用于从大型离线数据集中训练多任务策略，该方法可以利用人类演示和自主收集的数据。我们的方法使用 Transformer 为通过离线时间差异备份训练的 Q 函数提供可扩展的表示。因此，我们将该方法称为 Q Transformer。通过离散每个动作维度并将每个动作维度的 Q 值表示为单独的标记，我们可以应用有效的高容量序列建模技术进行 Q 学习。我们提出了几种设计决策，可通过离线 RL 训练实现良好的性能，并表明 Q Transformer 在大型多样化的现实世界机器人操作任务套件上优于先前的离线 RL 算法和模仿学习技术。

Comparing an android head with its digital twin regarding the dynamic expression of emotions
Authors Amelie Kassner, Christian Becker Asano
情绪是社交互动的重要组成部分，可以借助机器人及其与人类尽可能相似的外观来研究。安卓机器人的生产和定制既昂贵又耗时，因此使用数字复制品可能比较实用。为了研究基于外观差异的情绪是否存在感知差异，我们对机器人头部进行了数字复制。在一项实验中，将初步研究中评估的基本情绪在三种情况下进行比较，然后进行统计分析。结果发现，除了恐惧之外，所有的情绪在真正的机器人头上都能被识别。除了愤怒表现之外，具有理想情绪的数字头部比真实头部表现更好，这为真实头部提供了优化潜力。

Adjustbot: Bio-Inspired Quadruped Robot with Adjustable Posture and Undulated Body for Challenging Terradynamic Tasks
Authors Saurav Kumar Dutta, Yasemin Ozkan Aydin
响应环境变化而改变形态的能力代表了生物有机体的一个非常有利的特征，有助于它们适应不同的环境条件。虽然一些机器人能够利用自适应身体部位来改变其形态，但机器人系统中形态变换的实际实现仍然相对受到限制。这种限制部分归因于实现这种转变的复杂性，这需要先进材料、控制系统和设计方法的集成。在自然界中，采用一系列形态适应策略来实现最佳性能和效率，例如鳄鱼和短吻鳄所采用的策略，它们根据速度和穿越的表面来调整身体姿势。受这些生物学例子的启发，本文介绍了Adjustbot，一种四足机器人，其身体起伏，能够调整身体姿势。

Effects of Explanation Strategies to Resolve Failures in Human-Robot Collaboration
Authors Parag Khanna, Elmira Yadollahi, M rten Bj rkman, Iolanda Leite, Christian Smith
尽管机器人能力有了显着提高，但由于人类环境的高度不可预测性和人类期望的变化，它们很可能在人类机器人协作任务中失败。在这项工作中，我们探讨了机器人在人类机器人协作任务中解释故障的作用。我们提出了一项用户研究，其中纳入了协作任务中的常见故障，并通过人工协助来解决故障。在这项研究中，机器人和人类一起工作，将物品装满架子。遇到故障时，机器人会解释故障并通过交接或人类完成任务来克服故障的解决方案。该研究是根据失败动作、失败原因和动作历史，使用不同级别的机器人解释，以及在重复交互过程中提供解释的不同策略。我们的结果表明，解决失败的成功不仅取决于解释的水平，还取决于失败的类型。

Reasoning about the Unseen for Efficient Outdoor Object Navigation
Authors Quanting Xie, Tianyi Zhang, Kedi Xu, Matthew Johnson Roberson, Yonatan Bisk
机器人应该存在于人类活动的任何地方，无论是室内、室外，甚至是未绘制地图的环境。相比之下，对象目标导航 OGN 的最新进展重点是通过利用室外无法推广的空间和语义线索来实现室内环境中的导航。虽然这些贡献为室内场景提供了宝贵的见解，但更广泛的现实世界机器人应用通常会扩展到室外环境。当我们过渡到户外环境的广阔而复杂的地形时，新的挑战出现了。与室内的结构化布局不同，室外环境缺乏清晰的空间界限，并且充满了固有的语义模糊性。尽管如此，人类仍能轻松导航，因为我们可以推理看不见的事物。我们引入了一项新任务 OUTDOOR，一种用于大型语言模型法学硕士准确预测可能未来的新机制，以及一种新的计算感知成功指标，用于推动这个更复杂领域的研究。此外，我们在室外环境中的模拟无人机和实体四足动物上都显示了令人印象深刻的结果。

Conformal Temporal Logic Planning using Large Language Models: Knowing When to Do What and When to Ask for Help
Authors Jun Wang, Jiaming Tong, Kaiyuan Tan, Yevgeniy Vorobeychik, Yiannis Kantaros
本文解决了移动机器人的一个新的运动规划问题，该问题的任务是完成多个高级子任务，使用自然语言 NL 按时间和逻辑顺序表示。为了正式定义此类任务，我们利用基于 NL 的原子谓词定义的 LTL，对所考虑的基于 NL 的子任务进行建模。这与相关的规划方法形成鲜明对比，相关的规划方法通过原子谓词定义 LTL 任务，捕获所需的低级系统配置。我们的目标是设计满足通过基于 NL 的原子命题定义的 LTL 任务的机器人计划。此设置中出现的一个新颖的技术挑战在于推理机器人计划相对于此类 LTL 编码任务的正确性。为了解决这个问题，我们提出了 HERACLE，一种分层共形自然语言规划器，它依赖于现有工具的新颖集成，其中包括自动机理论来确定机器人下一步应该完成的 NL 指定子任务以取得任务进展 ii 大型语言模型设计满足这些子任务的机器人计划，以及 iii 保形预测，以概率方式推理设计计划的正确性和任务满意度，并确定是否需要外部援助。我们提供了有关移动操作任务的广泛比较实验。

Toward collision-free trajectory for autonomous and pilot-controlled unmanned aerial vehicles
Authors Kaya Kuru, John Michael Pinder, Benjamin Jon Watkinson, Darren Ansell, Keith Vinning, Lee Moore, Chris Gilbert, Aadithya Sujit, David Jones
对于作为安全关键系统的无人机，由于其具有多自由度的高移动性以及部署的非结构化环境的复杂性，越来越需要机载检测避免 DAA 技术来查看、感知或检测冲突交通或迫在眉睫的非合作威胁，然后根据自主级别采取适当的行动以避免碰撞。无人机交通管理 UTM 系统与空中交通管理 ATM 系统采用智能自主方法安全高效地集成，是一项新兴要求，在密集的空中交通环境中，多样化的无人机应用数量正在大规模增加，以完成集群的多个任务。灵活地同时执行复杂的任务。过去几年，在检测、识别航空航天领域的无人机以及确定其现有飞行路径方面取得了重大进展。本研究更多地利用 PilotAware Ltd 提供的电子显着 EC 信息来开发先进的碰撞管理方法无人机感知碰撞管理 DACM，该方法能够使用反应性几何冲突检测和解决来确定和执行各种时间最佳规避碰撞避免 CA 机动CDR技术。 DACM 方法的优点已通过广泛的模拟和现实世界的现场测试得到证明，可以避免无人机和有人驾驶飞机之间的空中碰撞 MAC。

SMART-LLM: Smart Multi-Agent Robot Task Planning using Large Language Models
Authors Shyam Sundar Kannan, Vishnunandan L. N. Venkatesh, Byung Cheol Min
在这项工作中，我们介绍了 SMART LLM，这是一种专为具体多机器人任务规划而设计的创新框架。 SMART LLM 使用大型语言模型 LLM 进行智能多代理机器人任务规划，利用 LLM 的功能将作为输入提供的高级任务指令转换为多机器人任务计划。它通过执行一系列阶段来实现这一目标，包括任务分解、联盟形成和任务分配，所有这些阶段都由少数镜头提示范式中的程序化 LLM 提示引导。我们创建了一个基准数据集，旨在验证多机器人任务规划问题，包含任务复杂性不同的四种不同类别的高级指令。我们的评估实验涵盖了模拟和现实场景，表明所提出的模型可以在生成多机器人任务计划方面取得有希望的结果。

Multi-Agent Deep Reinforcement Learning for Cooperative and Competitive Autonomous Vehicles using AutoDRIVE Ecosystem
Authors Tanmay Vilas Samak, Chinmay Vilas Samak, Venkat Krovi
这项工作提出了一种模块化且可并行的多智能体深度强化学习框架，用于吸收自动驾驶车辆中的合作和竞争行为。我们引入 AutoDRIVE 生态系统作为开发物理精确和图形逼真的 Nigel 和 F1TENTH 数字孪生的推动者，这两个规模化的自动驾驶汽车平台具有独特的品质和功能，并利用该生态系统来训练和部署多代理强化学习策略。我们首先使用一组协作车辆 Nigel 研究交叉口遍历问题，这些车辆使用通用策略方法在单代理和多代理学习设置中相互共享有限的状态信息。然后，我们在多智能体学习环境中使用单独的策略方法，使用一组不同的车辆 F1TENTH 来研究对抗性的头对头自动驾驶赛车问题。在这两组实验中，都采用了分散式学习架构，由于代理是相互独立的并且表现出异步运动行为，因此可以在随机环境中对方法进行稳健的训练和测试。通过为代理提供稀疏的观察空间并要求他们对隐式满足所施加的运动动力学和安全约束的控制命令进行采样，问题进一步加剧。

Guide Your Agent with Adaptive Multimodal Rewards
Authors Changyeon Kim, Younggyo Seo, Hao Liu, Lisa Lee, Jinwoo Shin, Honglak Lee, Kimin Lee
开发能够适应看不见的环境的智能体仍然是模仿学习中的一项艰巨挑战。在这项工作中，我们提出了自适应返回条件策略 ARP，这是一个有效的框架，旨在使用自然语言任务描述和预训练的多模态编码器来增强代理的泛化能力。我们的关键思想是在预先训练的多模态嵌入空间（例如 CLIP）中计算视觉观察和自然语言指令之间的相似性，并将其用作奖励信号。然后，我们使用标有多模式奖励的专家演示来训练返回条件策略。由于多模态奖励在每个时间步长提供自适应信号，因此我们的 ARP 有效地减轻了目标的错误概括。与现有的文本条件策略相比，即使面对看不见的文本指令，这也会产生优异的泛化性能。为了提高奖励的质量，我们还引入了针对预训练多模态编码器的微调方法，进一步提高了性能。

SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction
Authors Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Fabien Baradel, Salma Galaaoui, Romain Bregier, Matthieu Armando, Jean Sebastien Franco, Gregory Rogez
最近的手部对象交互数据集显示真实对象的可变性有限，并且依赖于拟合 MANO 参数模型来获得真实的手部形状。为了超越这些限制并促进进一步的研究，我们引入了 SHOWMe 数据集，该数据集由 96 个视频组成，并用真实且详细的手部对象 3D 纹理网格进行注释。在最近的工作之后，我们考虑了一个刚性手对象场景，其中手相对于对象的姿势在整个视频序列期间保持不变。这一假设使我们能够将亚毫米级精确的地面实况 3D 扫描注册到 SHOWMe 中的图像序列。尽管更简单，但该假设对于所需的准确性和详细程度很重要的应用而言是有意义的，例如人类机器人协作中的对象移交、对象扫描或操纵和接触点分析。重要的是，手持物体系统的刚性允许使用由刚性配准步骤和随后的多视图重建 MVR 部分组成的 2 阶段管道来处理未知手持物体的基于视频的 3D 重建。我们仔细评估了这两个阶段的一组重要基线，并表明使用 SfM 工具箱或手部姿势估计器来恢复刚性变换和现成的 MVR 算法，可以实现有前途的与对象无关的 3D 手部对象重建。然而，这些方法对初始相机姿态估计仍然敏感，由于物体缺乏纹理或手部严重遮挡，初始相机姿态估计可能不精确，从而为重建的改进留下了空间。

Few-Shot Panoptic Segmentation With Foundation Models
Authors Markus K ppeler, K rsat Petek, Niclas V disch, Wolfram Burgard, Abhinav Valada
当前最先进的全景分割方法需要大量带注释的训练数据，获得这些数据既困难又昂贵，对其广泛采用构成了重大挑战。与此同时，视觉表示学习的最新突破引发了范式转变，导致可以使用完全未标记的图像进行训练的大型基础模型的出现。在这项工作中，我们建议利用这种与任务无关的图像特征，通过呈现具有近 0 标签 SPINO 的分割全景信息来实现少量镜头全景分割。具体来说，我们的方法将 DINOv2 主干与轻量级网络头相结合，用于语义分割和边界估计。我们展示了我们的方法，尽管仅使用十个带注释的图像进行训练，但可以预测可与任何现有全景分割方法一起使用的高质量伪标签。值得注意的是，我们证明，与完全监督的基线相比，SPINO 在使用少于 0.3 个真实标签的情况下取得了有竞争力的结果，为利用基础模型学习复杂的视觉识别任务铺平了道路。为了说明其普遍适用性，我们进一步在室外和室内环境的现实世界机器人视觉系统上部署 SPINO。

Measurement Simplification in ρ-POMDP with Performance Guarantees
Authors Tom Yotam, Vadim Indelman
不确定性下的决策是任何在不完美信息下运行的自治系统的核心。解决决策问题的成本在行动和观察空间中呈指数级增长，因此对于许多在线系统来说是不可行的。本文介绍了一种通过划分高维观察空间来进行高效决策的新方法。使用分区的观察空间，我们为一般信念分布制定了预期信息理论奖励的分析界限。然后使用这些界限进行有效规划，同时保持性能保证。我们证明了边界是自适应的，计算效率高，并且它们收敛到原始解。我们扩展了分区范例并提出了分区空间的层次结构，可以提高规划效率。然后，我们提出了高斯信念的这些界限的特定变体，并显示出至少 4 倍的理论性能改进。最后，我们将我们的新方法与主动 SLAM 场景中的其他最先进的算法进行比较，无论是在模拟还是在现实中实验。

DCPT: Darkness Clue-Prompted Tracking in Nighttime UAVs
Authors Jiawen Zhu, Huayi Tang, Zhi Qi Cheng, Jun Yan He, Bin Luo, Shihao Qiu, Shengming Li, Huchuan Lu
现有的夜间无人机跟踪器遵循“增强然后跟踪”架构，首先使用光增强器使夜间视频变亮，然后使用白天跟踪器来定位物体。这种单独的增强和跟踪无法构建端到端的可训练视觉系统。为了解决这个问题，我们提出了一种名为“黑暗线索提示跟踪 DCPT”的新颖架构，它通过有效学习生成黑暗线索提示来实现强大的夜间无人机跟踪。 DCPT无需单独的增强器，直接使用黑暗线索提示器DCP将反黑暗能力编码到提示中。具体来说，DCP 迭代地学习强调和削弱对黑暗线索的预测。然后，它将这些学习到的视觉提示注入到具有跨变压器层的固定参数的日间跟踪器中。此外，门控特征聚合机制可以实现提示之间以及提示与基础模型之间的自适应融合。大量实验表明 DCPT 在多个黑暗场景基准测试中具有最先进的性能。 DCPT 中增强和跟踪的统一端到端学习使系统更具可训练性。黑暗线索提示，高效注入反黑暗知识，无需额外模块。

GloPro: Globally-Consistent Uncertainty-Aware 3D Human Pose Estimation & Tracking in the Wild
Authors Simon Schaefer, Dorian F. Henning, Stefan Leutenegger
准确且具有不确定性的 3D 人体姿态估计是实现真正安全而高效的人机交互的关键。目前3D人体姿势估计中的不确定性感知方法仅限于预测身体姿势的不确定性，而有效地忽略了身体形状和根姿势。在这项工作中，我们提出了 GloPro，据我们所知，它是第一个通过有效地将视觉线索与学习的运动模型融合来预测 3D 身体网格的不确定性分布（包括其形状、姿势和根姿势）的框架。我们证明，即使在存在严重遮挡的情况下，它在世界坐标系中的人体轨迹精度方面也远远优于最先进的方法，产生一致的不确定性分布，并且可以实时运行。

RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing
Authors Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan
深度卷积神经网络的最新进展在道路场景解析领域显示出了巨大的前景。然而，现有的工作主要集中在自由空间检测上，很少关注可能损害驾驶安全性和舒适性的危险道路缺陷。在本文中，我们介绍了 RoadFormer，这是一种为道路场景解析而开发的基于 Transformer 的新型数据融合网络。 RoadFormer 利用双工编码器架构从 RGB 图像和表面法线信息中提取异构特征。编码后的特征随后被输入到一个新颖的异构特征协同块中，以进行有效的特征融合和重新校准。然后，像素解码器从融合和重新校准的异构特征中学习多尺度长程依赖性，这些特征随后由 Transformer 解码器处理以产生最终的语义预测。此外，我们还发布了 SYN UDTIRI，这是第一个大规模道路场景解析数据集，其中包含超过 10,407 个 RGB 图像、密集深度图像以及不同形状和大小的自由空间和道路缺陷的相应像素级注释。对我们的 SYN UDTIRI 数据集以及三个公共数据集（包括 KITTI road、CityScapes 和 ORFD）进行的广泛实验评估表明，RoadFormer 在道路场景解析方面优于所有其他最先进的网络。具体来说，RoadFormer 在 KITTI 道路基准测试中排名第一。

Parameter-Varying Koopman Operator for Nonlinear System Modeling and Control
Authors Changyu Lee, Kiyong Park, Jinwhan Kim
本文提出了一种对具有变化参数的非线性系统进行建模和控制的新方法。该方法引入了在提升空间中使用参数变化的 Koopman 算子 PVKO，这提供了一种有效的方法来理解系统行为和设计考虑潜在动态和变化参数的控制算法。 PVKO 建立在传统的 Koopman 模型的基础上，通过提升空间内的插值结合局部时不变线性系统。本文概述了识别 PVKO 并使用识别的 PVKO 模型设计模型预测控制的过程。仿真结果表明，所提出的方法提高了模型精度，并能够根据未来参数信息进行预测。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com