【AI视野·今日Robot 机器人论文速览第七十九期】Thu, 18 Jan 2024

AI视野·今日CS.Robotics 机器人学论文速览
Thu, 18 Jan 2024
Totally 43 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

CognitiveDog: Large Multimodal Model Based System to Translate Vision and Language into Action of Quadruped Robot
Authors Artem Lykov, Mikhail Litvinov, Mikhail Konenkov, Rinat Prochii, Nikita Burtsev, Ali Alridha Abdulkarim, Artem Bazhenov, Vladimir Berman, Dzmitry Tsetserukou
本文介绍了 CognitiveDog，这是一款具有大型多模态模型 LMM 的四足机器人的开创性开发，它不仅能够与人类进行口头交流，还能够通过物体操纵与环境进行物理交互。该系统是在配备定制夹具的 Unitree Go1 机器狗上实现的，并展示了自主决策能力，能够独立确定最合适的动作以及与各种物体的交互，以完成用户定义的任务。这些任务不一定包括直接指令，而是要求机器人根据自然语言输入和环境线索理解和执行它们。本文深入研究了该系统的复杂性、数据集特征和软件架构。这一发展的关键是机器人能够熟练地使用视觉 SLAM 进行空间导航、有效地操纵和运输物体，以及在任务执行过程中提供富有洞察力的自然语言注释。实验结果凸显了机器人先进的任务理解能力和适应性，强调了其在现实世界应用中的潜力。

A Multi-Agent Security Testbed for the Analysis of Attacks and Defenses in Collaborative Sensor Fusion
Authors R. Spencer Hallyburton, David Hunt, Shaocheng Luo, Miroslav Pajic
自动驾驶汽车的性能和安全性在恶劣环境和敌对行为者的作用下会恶化。对多传感器、多代理 MSMA AV 的投资旨在提高出行效率并降低安全风险。不幸的是，开发安全意识 MSMA 传感器融合管道的投资很少，这使得它们很容易受到对手的攻击。为了推进自动驾驶汽车的安全分析，我们在机器人操作系统 ROS2 中开发了多代理安全测试平台 MAST。我们的框架可针对一般 AV 场景进行扩展，并与最新的多代理数据集集成。我们构建了 AVstack 和 ROS 之间的第一座桥梁，并开发自动化 AV 管道构建，以实现快速 AV 原型设计。我们通过动态主题重新映射来解决在启动时部署可变数量的代理对手节点的挑战。

POE: Acoustic Soft Robotic Proprioception for Omnidirectional End-effectors
Authors Uksang Yoo, Ziven Lopez, Jeffrey Ichnowski, Jean Oh
由于软机器人复杂的变形行为和无限的自由度，软机器人的形状估计和本体感觉具有挑战性。软机器人的身体不断变形，因此很难集成刚性传感器并可靠地估计其形状。在这项工作中，我们提出了本体感受全向末端执行器 POE，它在肌腱驱动的软机器人表面有六个嵌入式麦克风。我们首先介绍了先前提出的 3D 重建方法对来自麦克风的声学信号的新颖应用，用于软机器人形状本体感知。为了提高本体感觉管道的训练效率和模型预测的一致性，我们提出了 POE M。POE M 首先使用嵌入式麦克风阵列根据声学信号观测来预测关键点位置。然后，我们利用能量最小化方法在给定估计关键点的情况下重建物理上可接受的高分辨率 POE 网格。我们使用模拟数据评估网格重建模块，并使用真实世界实验评估完整的 POE M 管道。我们证明 POE M 在网格重建过程中对关键点的明确指导为消融研究的流程提供了鲁棒性和稳定性。

Self-navigation in crowds: An invariant set-based approach
Authors Veejay Karthik J, Leena Vachhani
在由通过局部传感操作的非完整机器人组成的多代理系统中，非协调拥挤环境中的自我导航面临着巨大的挑战。我们的主要目标是开发一种新颖、快速、传感器驱动的自导航控制器，该控制器直接计算控制命令，以在与其他代理共存的同时实现安全操纵。我们提出了一种为非完整移动机器人精心设计的输入约束反馈控制器以及相关不变集的表征。不变集是在非合作主体中保持稳定性和安全性的关键。然后，我们提出一个规划策略，从策略上指导不变集的生成以实现代理的预期目标。这使得代理能够直接计算理论上安全的控制输入，而无需明确要求预先规划的路径轨迹来可靠地穿过拥挤的多代理环境。我们的技术的实用性通过硬件实验以及并行计算以缩短合成安全控制命令的计算持续时间的能力得到了证明。

Neural Contractive Dynamical Systems
Authors Hadi Beik Mohammadi, S ren Hauberg, Georgios Arvanitidis, Nadia Figueroa, Gerhard Neumann, Leonel Rozo
当确保完全自主的机器人不会采取不良或潜在有害的行为时，稳定性保证至关重要。不幸的是，在从数据中学习的动态系统中很难提供全局稳定性保证，特别是当学习到的动态由神经网络控制时。我们提出了一种学习神经收缩动力系统的新颖方法，其中我们的神经架构确保收缩，从而确保全局稳定性。为了有效地将方法扩展到高维动态系统，我们开发了变分自动编码器的变体，它可以在低维潜在表示空间中学习动态，同时在解码后保持收缩稳定性。我们进一步扩展了学习李氏旋转组收缩系统的方法，以解释完整姿势末端执行器动态运动。其结果是第一个高度灵活的学习架构，提供收缩稳定性保证以及执行避障的能力。

Vision-driven Autonomous Flight of UAV Along River Using Deep Reinforcement Learning with Dynamic Expert Guidance
Authors Zihan Wang, Jianwen Li, Nina Mahmoudian
无人机在复杂的河流环境中进行视觉驱动的自主飞行和避障，以执行救援和监视等任务，需要强大的控制策略，但由于缺乏可训练的河流环境模拟器和此类环境中奖励的稀疏性，这一点很难获得。为了在实际部署之前轻松验证河流跟踪任务的导航控制器性能，我们使用 Unity 开发了一个可训练的照片逼真动态免费河流模拟环境。手动收集环境中成功的河流跟踪轨迹，并使用行为克隆 BC 来训练模仿学习 IL 代理来模仿专家行为并生成专家指导。最后，提出了一个框架，使用 BC 专家指导来训练深度强化学习 DRL 代理，并通过对 DRL 产生的良好演示进行采样来在线改进专家策略，以提高收敛速度和策略性能。该框架能够解决沿江自主导航任务，并且优于基线 RL 和 IL 方法。

FIT-SLAM -- Fisher Information and Traversability estimation-based Active SLAM for exploration in 3D environments
Authors Suchetan Saravanan, Corentin Chauffaut, Caroline Chanel, Damien Vivet
主动视觉 SLAM 在 GNSS 拒绝的地下环境和地面机器人的室外环境中有着广泛的应用。为了实现强大的定位和测绘精度，必须在探索任务期间将感知考虑因素纳入目标选择和实现目标的路径规划中。通过这项工作，我们提出了基于 Fisher 信息和可遍历性估计的 FIT SLAM Active SLAM，这是一种专为无人地面车辆 UGV 探索 3D 环境而量身定制的新探索方法。该方法的设计具有双重目标：维持高效的探索率，同时优化 SLAM 精度。首先，对全球可通行性地图进行估计，该地图考虑了与可通行性相关的环境限制。随后，我们提出了一种目标候选选择方法以及实现该目标的路径规划方法，该方法考虑了 SLAM 后端使用的地标提供的信息，以实现稳健的定位和成功的路径执行。整个算法首先在模拟 3D 世界中进行测试和评估，然后在真实世界环境中进行测试和评估，并与现有的探索方法进行比较。

The landscape of Collective Awareness in multi-robot systems
Authors Miguel Fernandez Cortizas, David Perez Saura, Ricardo Sanz, Martin Molina, Pascual Campoy
集体感知多机器人系统的开发对于提高多个领域机器人应用的效率和鲁棒性至关重要。这些系统实现了机器人之间的协作、协调和资源共享，从而提高了可扩展性、对动态环境的适应性，并提高了整体系统的稳健性。

Deployable Reinforcement Learning with Variable Control Rate
Authors Dong Wang, Giovanni Beltrame
在真实机器人上部署经过强化学习 RL 训练的控制器可能具有挑战性 RL 依赖于被建模为马尔可夫决策过程 MDP 的代理策略，该策略假设本质上是离散的时间流逝。 MDP 的使用导致几乎所有基于 RL 的控制系统都采用固定速率控制策略，其周期或时间步长通常根据开发人员的经验或应用环境的特定特征进行选择。不幸的是，系统应该控制在最高、最坏情况下的频率以确保稳定性，这可能需要大量的计算和能源资源，并阻碍控制器在板载硬件上的部署。遵循反应式编程的原则，我们推测仅在必要时应用控制操作可以使用更简单的硬件并有助于降低能耗。我们通过提出具有可变控制率的 RL 变体来挑战固定频率假设。在这种方法中，策略决定代理应采取的操作以及与该操作相关的时间步长的持续时间。在我们的新设置中，我们扩展了 Soft Actor Critic SAC 以计算具有可变控制率的最优策略，引入了 Soft Elastic Actor Critic SEAC 算法。我们通过用牛顿运动学驱动代理的概念验证模拟来展示 SEAC 的功效。

An Efficient Generalizable Framework for Visuomotor Policies via Control-aware Augmentation and Privilege-guided Distillation
Authors Yinuo Zhao, Kun Wu, Tianjiao Yi, Zhiyuan Xu, Xiaozhu Ju, Zhengping Che, Qinru Qiu, Chi Harold Liu, Jian Tang
视觉运动策略直接从高维视觉观察中学习控制机制，在适应具有复杂视觉变化的新环境方面面临着挑战。数据增强成为一种通过丰富数据多样性来弥合这些泛化差距的有前途的方法。然而，直接增强整个观察结果会给政策学习带来过多的负担，甚至可能导致性能下降。在本文中，我们建议从两个方面提高视觉运动策略的泛化能力并保持训练稳定性1我们通过具有三个辅助损失的自监督重建任务学习控制感知掩模，然后仅对那些不相关的控制应用强增强基于掩模的区域以减少泛化差距。 2 为了解决视觉强化学习 RL 中普遍存在的训练不稳定问题，我们将处理低级环境状态的预训练 RL 专家的知识提炼为学生视觉运动策略。该策略随后被部署到未见过的环境中，无需任何进一步的微调。我们对各种基准进行了比较和消融研究，包括 DMControl 泛化基准 DMC GB、增强型机器人操作分心基准 RMDB 以及专门的长水平抽屉打开机器人任务。

DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning
Authors Sabariswaran Mani, Abhranil Chandra, Sreyas Venkataraman, Adyan Rizvi, Yash Sirvi, Soumojit Bhattacharya, Aritra Hazra
机器人学习任务是计算密集型且特定于硬件的。因此，使用可用于训练机器人操纵代理的多样化离线演示数据集来应对这些挑战的途径非常有吸引力。训练离线测试在线 TOTO 基准为离线训练提供了一个精心策划的开源数据集，主要由专家数据以及常见离线 RL 和行为克隆代理的基准分数组成。在本文中，我们介绍了 DiffClone，一种基于扩散策略学习的增强行为克隆代理的离线算法，并在测试时测量了我们的方法在真实在线物理机器人上的有效性。这也是我们向 NeurIPS 2023 组织的火车离线测试在线 TOTO 基准挑战赛的正式提交。我们尝试了预先训练的视觉表示和代理策略。在我们的实验中，我们发现 MOCO 微调的 ResNet50 与其他微调的表示相比表现最好。目标状态调节和映射到转换导致成功率和平均奖励的微小增加。

Biased-MPPI: Informing Sampling-Based Model Predictive Control by Fusing Ancillary Controllers
Authors Elia Trevisan, Javier Alonso Mora
由于机器人的动力学、环境以及与其他智能体交互的不确定性，人类居住环境中的自主机器人的运动规划提出了许多挑战。基于采样的 MPC 方法（例如模型预测路径积分 MPPI 控制）在解决这些复杂的运动规划问题方面已显示出前景。然而，MPPI 的性能很大程度上依赖于采样分布的选择。现有文献经常使用先前计算的输入序列作为高斯分布的平均值进行采样，从而导致潜在的失败和局部极小值。在本文中，我们提出了 MPPI 方法的新颖推导，以提高其效率、鲁棒性和收敛性。我们的方法包括允许任意采样分布的数学公式，解决数值问题，并缓解局部最小值问题。我们提出了一种有效的重要性采样方案，它同时结合了经典和基于学习的辅助控制器，从而产生更多信息的采样和控制融合。

DK-SLAM: Monocular Visual SLAM with Deep Keypoints Adaptive Learning, Tracking and Loop-Closing
Authors Hao Qu, Lilian Zhang, Jun Mao, Junbo Tie, Xiaofeng He, Xiaoping Hu, Yifei Shi, Changhao Chen
手工特征中不可靠的特征提取和匹配削弱了视觉 SLAM 在复杂现实场景中的性能。虽然利用 CNN 学习局部特征，表现出捕获高级信息的能力并擅长匹配基准，但它们在连续运动场景中遇到挑战，导致泛化能力较差并影响循环检测准确性。为了解决这些问题，我们提出了 DK SLAM，一种具有自适应深度局部特征的单目视觉 SLAM 系统。 MAML 优化了这些特征的训练，我们引入了从粗到细的特征跟踪方法。最初，直接方法近似连续帧之间的相对姿势，然后采用特征匹配方法进行精细姿势估计。为了对抗累积定位误差，一种新颖的基于在线学习二进制特征的在线闭环模块识别序列内的循环节点。

Relative Pose for Nonrigid Multi-Perspective Cameras: The Static Case
Authors Min Li, Jiaqi Yang, Laurent Kneip
具有潜在不重叠视场的多视角相机已成为智能车辆、无人机和混合现实耳机等许多应用中重要的外感受传感方式。在这项工作中，我们挑战了在这些场景中做出的基本假设之一，即多摄像头装备是刚性的。更具体地说，我们正在考虑估计不同空间方向的静态非刚性装备之间的相对位姿的问题，同时考虑重力对系统的影响。每个相机和身体中心之间的可变形物理连接通过简单的悬臂模型来近似，并插入广义极线约束中。我们的结果使我们得出重要的见解，即变形模型的潜在参数（即两个视图中的重力矢量）变得可观察到。我们根据两种不同算法的噪声、异常值和钻机刚性，对所有变量的可观测性进行了简明分析。第一个是仅视觉替代方案，而第二个则利用额外的重力测量。

Admittance Controller Complemented with Real-time Singularity Avoidance for Rehabilitation Parallel Robots
Authors Jose L. Pulloquinga, Rafael J. Escarabajal, Marina Valles, Miguel Diaz Rodriguez, Vicente Mata, Angel Valera
康复任务需要强大而准确的轨迹跟踪性能，这主要是通过并联机器人来实现的。在这一领域，限制施加在患者身上的力值至关重要，特别是当涉及受伤的肢体时。在人机交互研究中，导纳控制器根据用户的努力来修改机器人的位置，将末端执行器驱动到工作空间内的任意位置。然而，并联机器人在工作空间内具有奇点，使得实现传统的准入控制器不安全。因此，本研究提出了一种导纳控制器，通过使用实时奇异性避免算法来克服奇异配置的局限性。奇异性避免算法根据并联机器人的实际位置修改原始轨迹。补充导纳控制器应用于膝关节康复四自由度并联机器人。在这种情况下，实际位置由 3D 跟踪系统测量，因为正向运动学计算的位置在奇点附近不准确。

A Type II Singularity Avoidance Algorithm for Parallel Manipulators using Output Twist Screws
Authors Jose L. Pulloquinga, Rafael J. Escarabajal, Angel Valera, Marina Valles, Vicente Mata
并联机器人 PR 是闭链机械手，由于其精度和高有效负载而具有多种应用。然而，工作区中存在名为 II 型奇点的配置，其中 PR 失去了对末端执行器运动的控制。对于需要完全控制末端执行器的应用来说，II 型奇点是一个问题。轨迹规划通过避免 II 类奇点来产生 PR 的精确运动。一般来说，奇异性避免是通过将奇异配置视为障碍物来优化具有速度分布的几何路径来实现的。这项研究提出了一种通过修改执行器子集的轨迹来避免 II 类奇点的算法。执行器子集代表负责 II 型奇点的肢体，它们通过两个输出扭转螺钉之间的角度来识别。所提出的回避算法不需要优化过程，减少了离线轨迹规划的计算成本，使其适用于在线轨迹规划。

PIN-SLAM: LiDAR SLAM Using a Point-Based Implicit Neural Representation for Achieving Global Map Consistency
Authors Yue Pan, Xingguang Zhong, Louis Wiesmann, Thorbj rn Posewsky, Jens Behley, Cyrill Stachniss
准确而强大的定位和地图绘制是大多数自主机器人的重要组成部分。在本文中，我们提出了一种用于构建全局一致地图的 SLAM 系统，称为 PIN SLAM，该系统基于弹性且紧凑的点隐式神经地图表示。以范围测量作为输入，我们的方法在局部隐式带符号距离场的增量学习和使用无对应的点到隐式模型注册给定当前局部地图的姿态估计之间交替。我们的隐式地图基于稀疏可优化神经点，这些神经点本质上是弹性的，并且在闭环时可随着全局姿态调整而变形。还使用神经点特征来检测循环。大量实验验证了 PIN SLAM 对于各种环境都具有鲁棒性，并且适用于不同范围的传感器，例如 LiDAR 和 RGB D 相机。 PIN SLAM 可以更好地实现姿态估计精度，或者与最先进的 LiDAR 里程计或 SLAM 系统相当，并且优于最近的神经隐式 SLAM 方法，同时保持更一致、高度紧凑的隐式地图，可以将其重建为准确和完整的网格。最后，得益于用于高效神经点索引的体素散列和基于隐式地图的快速配准（无需最近点关联），PIN SLAM 可以在中等 GPU 上以传感器帧速率运行。

Autonomous Catheterization with Open-source Simulator and Expert Trajectory
Authors Tudor Jianu, Baoru Huang, Tuan Vo, Minh Nhat Vu, Jingxuan Kang, Hoan Nguyen, Olatunji Omisore, Pierre Berthet Rayne, Sebastiano Fichera, Anh Nguyen
血管内机器人在学术界和工业界都得到了积极的发展。然而，自主导管插入术的进展常常受到闭源模拟器和物理模型的广泛使用的阻碍。此外，由于昂贵的医疗程序，获取大规模数据集以使用血管内机器人训练机器学习算法通常是不可行的。在本章中，我们介绍 CathSim，这是第一个用于血管内介入的开源模拟器，旨在解决这些局限性。 CathSim 强调实时性能，以实现学习算法的快速开发和测试。我们针对真实机器人验证了 CathSim，并表明我们的模拟器可以成功模仿真实机器人的行为。基于CathSim，我们开发了多模态专家导航网络，并证明了其在下游血管内导航任务中的有效性。密集的实验结果表明，CathSim 有潜力显着加速自主导管插入领域的研究。

Visual Robotic Manipulation with Depth-Aware Pretraining
Authors Wanying Wang, Jinming Li, Yichen Zhu, Zhiyuan Xu, Zhengping Che, Yaxin Peng, Chaomin Shen, Dong Liu, Feifei Feng, Jian Tang
最近关于视觉表示学习的工作已证明对于机器人操作任务是有效的。然而，大多数现有作品仅在 2D 图像或以自我为中心的视频上预训练视觉主干，忽略了机器人学习在 3D 空间中行动的事实，而这很难从 2D 观察中学习。在本文中，我们研究了利用公共可用的大规模 3D 数据对视觉骨干进行预训练以改善操纵策略学习的有效性。我们的方法，即深度感知机器人预训练 DPR，使仅 RGB 的主干能够从自监督对比学习中学习 3D 场景表示，其中深度信息充当辅助知识。在操纵策略学习和推理过程中不需要 3D 信息，使我们的模型在 3D 空间操纵中兼具效率和有效性。此外，我们引入了一种将机器人本体感觉注入策略网络的新方法，使操纵模型具有鲁棒性和可推广性。

Improved Consensus ADMM for Cooperative Motion Planning of Large-Scale Connected Autonomous Vehicles with Limited Communication
Authors Haichao Liu, Zhenmin Huang, Zicheng Zhu, Yulin Li, Shaojie Shen, Jun Ma
本文研究了有限通信下大规模联网自动驾驶车辆 CAV 的协作运动规划问题，解决了高通信和计算资源需求的挑战。我们提出的方法结合了并行优化算法和改进的共识 ADMM，考虑到更现实的本地连接拓扑网络，并且通过利用对偶更新过程中的稀疏性来实现 O N 的时间复杂度。为了进一步提高计算效率，我们对 CAV 的动态连接图采用轻量级进化策略，从共识 ADMM 中分裂出来的每个子问题只需要管理一小组 CAV。使用后退地平线方案实现的所提出的方法得到了彻底的验证，并且与现有数值求解器和方法的比较证明了我们所提出的算法的效率。此外，在高保真 CARLA 模拟器中对涉及 80 辆车的大规模协作驾驶任务进行了模拟，这凸显了我们所提出的开发的显着计算效率、可扩展性和有效性。

Robot Tape Manipulation for 3D Printing
Authors Nahid Tushar, Rencheng Wu, Yu She, Wenchao Zhou, Wan Shou
3D 打印使用不同形式的材料（例如长丝、薄片和墨水）实现了各种应用。通常，在 3D 打印过程中，原料会转化为离散的构建块，并放置或沉积在指定位置，类似于离散物体的操作和组装。然而，3D 打印具有细丝和片材之间的几何形状且不断裂或变形的连续柔性胶带仍然尚未得到充分探索和挑战。在这里，我们报告了定制末端执行器（即胶带打印模块 TPM）的设计和实现，通过利用两个端点之间胶带上形成的张力来实现 3D 打印的机器人胶带操作。我们展示了制造代表性 2D 和 3D 结构的可行性，同时利用导电铜带用于各种电子应用，例如电路和传感器。

SWBT: Similarity Weighted Behavior Transformer with the Imperfect Demonstration for Robotic Manipulation
Authors Kun Wu, Ning Liu, Zhen Zhao, Di Qiu, Jinming Li, Zhengping Che, Zhiyuan Xu, Qinru Qiu, Jian Tang
模仿学习IL旨在从专家演示中学习最优控制策略，已成为机器人操纵任务的有效方法。然而，以前的IL方法要么只使用昂贵的专家演示并省略不完善的演示，要么依赖于与环境交互并从在线经验中学习。在机器人操作的背景下，我们的目标是克服上述两个挑战，并提出了一种名为“相似度加权行为转换器 SWBT”的新颖框架。 SWBT 可以有效地从专家和不完美的演示中学习，而无需与环境交互。我们发现，容易获得不完美的演示，例如正向和反向动力学，可以通过学习富有成效的信息来显着增强网络。据我们所知，我们是第一个尝试将不完美的演示集成到机器人操作任务的离线模仿学习设置中的人。基于高保真 Sapien 模拟器和现实世界机器人操作任务的 ManiSkill2 基准的大量实验表明，所提出的方法可以提取更好的特征并提高所有任务的成功率。

PINSAT: Parallelized Interleaving of Graph Search and Trajectory Optimization for Kinodynamic Motion Planning
Authors Ramkumar Natarajan, Shohin Mukherjee, Howie Choset, Maxim Likhachev
轨迹优化是机器人运动规划中广泛使用的技术，用于让系统的动力学和约束形成并综合复杂的行为。之前的几项工作已经展示了它在高维连续状态空间和微分约束下的好处。然而，长期视野和围绕非凸空间中的障碍进行规划对保证收敛或寻找最佳解决方案提出了挑战。因此，当面对障碍杂乱的环境时，离散图搜索规划器和基于采样的规划器是首选。最近开发的一种名为 INSAT 的算法有效地结合了低维子空间中的图搜索和全维空间中的轨迹优化，以实现长范围内的全局运动动力学规划。尽管 INSAT 成功地推理并解决了复杂的规划问题，但对优化器的大量昂贵调用导致了较长的规划时间，从而限制了其实际使用。受最近基于边缘的并行图搜索工作的启发，我们提出了 PINSAT，它在 INSAT 中引入了系统并行化，以实现更短的规划时间和更高的成功率，同时保持比相关基线显着降低的成本。

Enhancing Campus Mobility: Achievements and Challenges of Autonomous Shuttle "Snow Lion''
Authors Yingbing Chen, Jie Cheng, Sheng Wang, Hongji Liu, Xiaodong Mei, Xiaoyang Yan, Mingkai Tang, Ge Sun, Ya Wen, Junwei Cai, Xupeng Xie, Lu Gan, Mandan Chao, Ren Xin, Ming Liu, Jianhao Jiao, Kangcheng Liu, Lujia Wang
自动驾驶汽车的快速发展对全球交通系统产生了重大影响。在此背景下，我们推出了 Snow Lion，这是一款经过精心设计的自动驾驶班车，旨在彻底改变校园交通，为学生、教师和访客提供更安全、更高效的出行解决方案。这项研究的主要目标是通过提供可靠、高效、环保的交通解决方案来增强校园的流动性，该解决方案与现有基础设施无缝集成并满足大学环境的多样化需求。为了实现这一目标，我们深入研究了系统设计的复杂性，包括传感、感知、定位、规划和控制方面。我们评估了自动驾驶班车在现实场景中的性能，包括 1146 公里的公路运输和两个月内运送的 442 名乘客。这些实验证明了我们系统的有效性，并为将自动驾驶车辆集成到校园班车运营中的复杂过程提供了宝贵的见解。

Benchmarking Particle Filter Algorithms for Efficient Velodyne-Based Vehicle Localization
Authors Jose Luis Blanco Claraco, Francisco Ma as Alvarez, Jose Luis Torres Moreno, Francisco Rodriguez, Antonio Gimenez Fernandez
在预先构建的地图中保持车辆的良好定位是任何自动车辆导航系统的核心。在这项工作中，我们证明标准 SIR 采样和基于拒绝的最佳采样都适用于高效的 10 到 20 毫秒实时姿态跟踪，无需使用 3D LiDAR 的原始点云进行特征检测。受这些传感器捕获的大量信息的启发，我们对实际需要多少个点才能达到效率和定位精度之间的最佳比率进行了系统的统计分析。此外，根据不利条件（例如城市峡谷中 GPS 信号较差）的初始化，我们还确定了确保收敛所需的最佳粒子滤波器设置。我们的研究结果包括，输入点云上的抽取因子在 100 到 200 之间，可以大大节省计算成本，而 VLP 16 扫描仪的定位精度损失可以忽略不计。此外，需要 sim 2 粒子 m 2 的初始密度才能在大规模 sim 100,000 m 2 、户外全球定位中实现 100 次收敛成功，而无需来自 GPS 或磁场传感器的任何额外提示。

Risk-anticipatory autonomous driving strategies considering vehicles' weights, based on hierarchical deep reinforcement learning
Authors Di Chen, Hao Li, Zhicheng Jin, Huizhao Tu
自动驾驶汽车有潜力防止因驾驶员失误造成的事故并降低道路交通风险。由于重型车辆的性质，其碰撞会导致更严重的碰撞，因此在制定旨在减少自动驾驶背景下的潜在风险及其后果的驾驶策略时需要考虑车辆的重量。本研究开发了一种基于风险预期的自动驾驶策略，考虑周围车辆的权重并使用分层深度强化学习。基于风险场理论，提出了一种整合周围车辆权重的风险指标，并将其纳入自动驾驶决策中。混合行动空间的设计允许左变道、右变道和跟车，这使得自动驾驶汽车能够在任何可能的情况下更加自由和现实地行动。为了解决上述混合决策问题，开发了分层近端策略优化HPPO算法，并结合了注意力机制，在保持稳定性能方面提供了巨大优势。新提出了一个指标，即冲突中的潜在碰撞能量PCEC，从潜在事故的可能性和后果的角度来评估所开发的自动驾驶驾驶策略的性能。进行了应用，模拟结果表明我们的模型提供的驾驶策略可以减少潜在事故的可能性和后果，同时保持驾驶效率。

End-To-End Planning of Autonomous Driving in Industry and Academia: 2022-2023
Authors Gongjin Lan an Qi Hao
本文旨在对目前工业界和学术界报道的方法（包括详细技术）进行快速回顾。具体来说，本文回顾了端到端规划，包括 Tesla FSD V12、Momenta 2023、Horizon Robotics 2023、Motional RoboTaxi 2022、Woven Planet Toyota Urban Driver 和 Nvidia。此外，我们回顾了研究自动驾驶端到端规划的最先进的学术研究。本文为读者提供了 2022 年和 2023 年最先进的端到端规划的简洁结构和快速学习。本文为初学者提供了有意义的概述，作为入门材料，帮助他们了解 2022 年和 2023 年自动驾驶最先进的端到端规划。

Smart Mobility Digital Twin for Automated Driving: Design and Proof-of-Concept
Authors Kui Wang, Zongdian Li, Tao Yu, Kei Sakaguchi
在过去的十年中，智能出行和智能汽车越来越受到人们的关注，因为它们有望在未来创建一个高效、安全的交通系统。同时，数字孪生作为一项新兴技术，将在自动驾驶和智能交通系统中发挥重要作用。本文应用该技术设计一个智能移动平台，提供大规模路线规划服务。利用传感技术和云边缘计算，我们构建了数字孪生系统模型，实时反映现实世界的静态和动态对象。借助智能出行平台，我们通过协同环境感知实现交通监控和路线规划，帮助自动驾驶车辆规避拥堵。

The "Pac-Man'' Gripper: Tactile Sensing and Grasping through Thin-Shell Buckling
Authors Kieran Barvenik, Zachary Coogan, Gabriele Librandi, Matteo Pezzulla, Eleonora Tubaldi
柔软且轻便的夹具极大地提高了机器人操纵器在处理具有不同形状、纹理和刚度的复杂物体时的性能。然而，通用抓取与被动传感能力的结合仍然面临挑战。为了克服这一限制，我们引入了一种流体软夹具，称为 Pac Man 夹具，基于柔软、薄的半球形壳体的屈曲。利用单个流体压力输入，软夹具可以封装光滑且精致的物体，同时被动地提供有关这种物理交互的信息。在分析、数值和实验工具的指导下，我们探索了这种基于力学的软夹具的新颖抓取原理。首先，我们将自由半球的屈曲行为描述为其几何参数的函数。受到适合抓取目的的自由半球的两瓣模态形状的启发，我们证明了抓取器可以在有限的环境中对易碎物体进行灵巧的操作和轻柔的抓取。最后，我们证明了软抓手在与未知物体交互过程中检测接触、抓取和释放条件的嵌入能力。

Exploratory Driving Performance and Car-Following Modeling for Autonomous Shuttles Based on Field Data
Authors Renan Favero, Lily Elefteriadou
自动驾驶班车 AS 在多个城市运营，并显示出改善公共交通网络的潜力。然而，目前还没有基于现场数据并允许决策者评估和规划自动驾驶操作的汽车跟随模型。为了填补这一空白，本研究收集了 AS 的现场数据，分析了其驾驶性能，并建议改变 AS 轨迹模型以提高乘客舒适度。样本是通过跟随一辆传统汽车超过 4000 秒的 AS 采集的。该样本包含 AS 和传统车辆的 GPS 位置。纬度和经度位置用于计算领导者和跟随者的速度、加速度和加加速度。数据分析表明，AS 具有较高的加加速度值，可能会影响乘客的舒适度。对几个现有模型进行了评估，研究人员得出结论，校准后的 ACC 模型可以降低 AS 间距和速度的误差。

Typification of Driver Models Using Clustering Methods
Authors Gergo Igneczi, Tamas Dobay
近年来自动驾驶系统的快速发展带动了道路安全和出行舒适度的提高。这些系统的一项典型功能是车道保持辅助，该功能通常不考虑人类的驾驶偏好。在我们之前的工作中，我们已经证明可以使用基于线性驾驶模型的轨迹规划算法来实现适合人类偏好的车道保持辅助功能。在我们当前的工作中，我们研究了如何区分各个驾驶员的驾驶风格。我们假设存在运动型、中性型和防御型三种驾驶风格。为了证明这些关系，将聚类方法应用于先前记录的测量结果。

Development of Control Framework for Spine Surgery Robot Using EtherCAT
Authors Veysi Adin, Chunwoo Kim
随着机器人系统中使用越来越多的传感器和执行器来提供更多功能，系统的复杂性也在增加。对于医疗机器人来说，确保系统的安全性和确定性变得更加困难。为了应对日益增加的复杂性并确保医疗机器人精确的周期性和执行时序，在本文中，我们报告了 EtherCAT 主站的开发，作为脊柱手术机器人软件框架的一部分。我们使用在实时抢占式 Linux 中运行的开源 EtherCAT 主站实现了多轴控制器。

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
Authors Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
3D 视觉语言基础侧重于使语言与 3D 物理环境保持一致，是实体代理开发的基石。与 2D 领域的最新进展相比，3D 场景中的基础语言面临着几个重大挑战：由于不同的对象配置、丰富的属性和复杂的关系，3D 场景固有的复杂性；配对 3D 视觉语言数据的稀缺性支持扎根学习，以及 iii 缺乏统一的学习框架来从扎根 3D 数据中提取知识。在这项工作中，我们的目标是通过研究在室内环境中系统升级 3D 视觉语言学习的潜力来解决 3D 视觉语言的三大挑战。我们推出了第一个百万级 3D 视觉语言数据集 SceneVerse，包含约 68K 3D 室内场景，并包含源自人类注释和我们基于可扩展场景图的生成方法的 250 万个视觉语言对。我们证明，这种缩放可以为 3D 视觉语言学习提供统一的预训练框架，即场景 GPS 的接地预训练。通过大量实验，我们在所有现有 3D 视觉接地基准上实现了最先进的性能，展示了 GPS 的有效性。通过在具有挑战性的 3D 视觉语言任务中进行零镜头传输实验，SceneVerse 和 GPS 的巨大潜力得以展现。

Event-Based Visual Odometry on Non-Holonomic Ground Vehicles
Authors Wanting Xu, Si ao Zhang, Li Cui, Xin Peng, Laurent Kneip
尽管在具有挑战性的条件下承诺提供卓越的性能，但由于从事件流中提取和跟踪稳定特征的困难，基于事件的运动估计仍然是一个难题。为了增强估计，通常认为需要与其他传感器融合。在这项工作中，我们通过采用阿克曼转向平台的约束非完整运动模型，在平面地面车辆上展示了可靠的、纯粹基于事件的视觉里程计。我们将基于常规帧的相机的单特征 n 线性扩展到准时间连续事件轨迹的情况，并通过变阶泰勒展开实现多项式形式。通过直方图投票即可轻松实现多个事件轨迹的稳健平均。正如模拟数据和实际数据所证明的那样，我们的算法实现了对车辆瞬时旋转速度的准确且稳健的估计，因此结果与正常条件下基于框架的传感器获得的增量旋转相当。此外，在具有挑战性的照明场景中，我们的表现明显优于更传统的替代方案。

Tight Fusion of Events and Inertial Measurements for Direct Velocity Estimation
Authors Wanting Xu, Xin Peng, Laurent Kneip
传统的视觉惯性状态估计目标是绝对相机位姿和空间地标位置，而一阶运动学通常被解析为隐式估计的子状态。然而，这在基于速度的控制场景中带来了风险，因为运动学估计的质量取决于绝对相机和地标坐标估计的稳定性。为了解决这个问题，我们提出了一种新颖的解决方案，通过使用动态视觉传感器而不是普通相机，直接在一阶运动学水平上进行紧密视觉惯性融合。更具体地说，我们利用三焦点张量几何来建立直接取决于事件和相机速度的重合关系，并演示如何在短时间间隔内获得高度动态情况下的速度估计。使用嵌套两层 RANSAC 方案处理噪声和异常值。此外，使用滑动窗口优化器通过与预积分惯性信号的紧密融合获得平滑的速度信号。模拟和真实数据的实验表明，所提出的紧密事件惯性融合可以在独立于绝对坐标的高度动态场景中实现连续可靠的速度估计。

DaFoEs: Mixing Datasets towards the generalization of vision-state deep-learning Force Estimation in Minimally Invasive Robotic Surgery
Authors Mikel De Iturrate Reyzabal, Mingcong Chen, Wei Huang, Sebastien Ourselin, Hongbin Liu
在微创机器人手术 MIRS 中精确确定安全交互过程中的接触力仍然是一个开放的研究挑战。受手术视频术后定性分析的启发，使用跨模态数据驱动的深度神经网络模型已成为预测无传感器力趋势的最新方法之一。然而，这些方法需要当前不可用的大型且可变的数据集。在本文中，我们提出了一个新的视觉触觉数据集 DaFoEs，具有可变的软环境，用于训练深度神经模型。为了减少单个数据集的偏差，我们提出了一个管道，使用先前经过验证的具有不同设置的数据集来概括混合数据集训练的不同视觉和状态数据输入。最后，我们提出了一种可变编码器解码器架构，以使用单个输入或输入序列来预测腹腔镜工具所产生的力。对于输入序列，我们使用一个以前缀 R 命名的循环解码器，以及一个新的时间采样来表示工具的加速度。在我们的训练过程中，我们证明单个数据集训练往往会过度拟合训练数据域，但在跨新域转换结果时遇到困难。然而，数据集混合提供了良好的转换，循环模型和非循环模型的平均相对估计力误差分别为 5 和 12。随着可用数据量增加 150 ，我们的方法还略微将力估计变压器的有效性提高到最大值 15 。

SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects
Authors Haowen Wang, Zhen Zhao, Zhao Jin, Zhengping Che, Liang Qiao, Yakun Huang, Zhipeng Fan, Xiuquan Qiao, Jian Tang
重建现实世界的物体并估计其可移动关节结构是机器人领域的关键技术。以前的研究主要集中在监督方法上，依靠广泛注释的数据集来对有限类别内的铰接对象进行建模。然而，这种方法无法有效解决现实世界中存在的多样性。为了解决这个问题，我们提出了一种自监督交互感知方法，称为 SM 3 ，它利用交互前后捕获的多视图 RGB 图像来建模关节对象，识别可移动部件，并推断其旋转关节的参数。通过从捕获的 2D 图像构建 3D 几何形状和纹理，SM 3 在重建过程中实现了可移动部件和关节参数的集成优化，从而无需注释。此外，我们还介绍了 MMArt 数据集，它是 PartNet Mobility 的扩展，包含跨越不同类别的铰接对象的多视图和多模态数据。

Hands-On Robotics: Enabling Communication Through Direct Gesture Control
Authors Max Pascher, Alia Saad, Jonathan Liebers, Roman Heger, Jens Gerken, Stefan Schneegass, Uwe Gruene
有效的人机交互 HRI 是将机器人系统无缝集成到我们日常生活中的基础。然而，当前的通信模式需要额外的技术接口，这可能是麻烦且间接的。本文提出了一种新颖的方法，通过移动机器人的末端执行器来使用基于直接运动的通信。我们的策略使用户能够通过使用四种不同的手势、正式和非正式的两次握手以及两个字母 W 和 S 来与机器人进行交流。作为概念验证，我们对 16 名参与者进行了一项用户研究，获取用于训练机器学习分类器的主观体验评分和客观数据。我们的研究结果表明，通过移动机器人末端执行器执行的四种不同手势可以以接近 100 的准确度进行区分。

Enhancing Lidar-based Object Detection in Adverse Weather using Offset Sequences in Time
Authors Raphael van Kempen, Tim Rehbronn, Abin Jose, Johannes Stegmaier, Bastian Lampe, Timo Woopen, Lutz Eckstein
自动驾驶车辆需要准确感知周围环境，以实现安全高效的驾驶。基于激光雷达的物体检测是一种广泛使用的环境感知方法，但其性能受到雨、雾等恶劣天气条件的显着影响。在这项工作中，我们研究了通过处理激光雷达传感器生成的顺序数据样本来增强基于激光雷达的物体检测的鲁棒性的各种策略。我们的方法利用时间信息来改进激光雷达目标检测模型，而不需要额外的过滤或预处理步骤。我们比较了处理点云序列的 10 种不同的神经网络架构，包括一种新颖的增强策略，在训练期间引入序列帧之间的时间偏移，并通过实验评估所有策略在恶劣天气条件下对激光雷达点云的有效性。我们的研究对有效方法进行了全面研究，以减轻恶劣天气对基于激光雷达的物体检测可靠性的影响，这些方法使用使用 nuScenes、Dense 和加拿大不良驾驶条件数据集等公共数据集进行评估的序列数据。

Surface-Enhanced Raman Spectroscopy and Transfer Learning Toward Accurate Reconstruction of the Surgical Zone
Authors Ashutosh Raman, Ren A. Odion, Kent K. Yamamoto, Weston Ross, Tuan Vo Dinh, Patrick J. Codd
拉曼光谱是一种基于相干光非弹性反向散射的光子模式，是术中传感空间的宝贵财富，提供非电离电位和高度特异性的分子指纹（如光谱特征），可用于动态手术中病理组织的诊断场地。尽管拉曼强度较弱，但使用金属纳米结构放大拉曼信号的表面增强拉曼光谱 SERS 可以实现与传统光子模式相媲美的检测灵敏度。在这项研究中，我们概述了一个机器人拉曼系统，该系统可以可靠地查明嵌入健康组织中的肿瘤的位置和边界，该系统在此建模为具有选择性注入金纳米星区域的组织模仿体模。此外，由于收集的生物 SERS 或拉曼数据相对缺乏，我们实施迁移学习，与对照琼脂糖相比，金纳米星的验证分类精度达到 100，从而为基于拉曼的深度学习训练流程提供了概念证明。我们在 10.2 分钟内重建了 30x60mm 的手术视野，并达到 98.2 的精度，保留了体模中特征之间的相对测量值。我们还获得了 84.3 的交集分数，这是地面实况和预测重建之间的重叠程度。最后，我们还证明拉曼系统和分类算法不是根据样本颜色进行识别，而是根据 SERS 试剂的存在进行识别。

An Integrated Imitation and Reinforcement Learning Methodology for Robust Agile Aircraft Control with Limited Pilot Demonstration Data
Authors Gulay Goktas Sever, Umut Demir, Abdullah Sadik Satir, Mustafa Cagatay Sahin, Nazim Kemal Ure
在本文中，我们提出了一种为敏捷飞机构建数据驱动的机动生成模型的方法，该模型可以概括各种配平条件和飞机模型参数。机动生成模型在飞机原型的测试和评估中发挥着至关重要的作用，可以深入了解飞机的机动性和敏捷性。然而，构建模型通常需要大量的真实试点数据，获取这些数据可能非常耗时且成本高昂。此外，用有限的数据构建的模型通常很难推广到原始数据集中涵盖的特定飞行条件之外。为了应对这些挑战，我们提出了一种利用模拟模型（称为源模型）的混合架构。这个开源敏捷飞机模拟器与目标飞机具有相似的动态，并允许我们生成无限的数据来构建代理机动生成模型。然后，我们使用有限数量的真实飞行员数据将此模型微调到目标飞机。我们的方法结合了模仿学习、迁移学习和强化学习的技术来实现这一目标。为了验证我们的方法，我们利用土耳其航空航天工业 TAI 提供的真实敏捷试点数据。通过使用 F 16 作为源模型，我们证明可以构建一个机动生成模型，该模型可以概括各种配平条件和飞机参数，而无需任何额外的真实飞行员数据。

Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement Learning
Authors Maxence Faldor, F lix Chalumeau, Manon Flageat, Antoine Cully
智力的一个基本特征涉及寻找新颖且创造性的解决方案来应对特定的挑战或适应不可预见的情况。反映这一点的是，质量多样性优化是一系列进化算法，它生成多样化且高性能的解决方案的集合。其中，MAP Elites 是一个突出的例子，它已成功应用于包括进化机器人技术在内的各个领域。然而，MAP Elites 使用源自遗传算法的随机突变进行发散搜索，因此仅限于低维解决方案的进化群体。 PGA MAP Elites 使用基于梯度的变异算子克服了这一限制，该算子受到深度强化学习的启发，能够实现大型神经网络的进化。尽管在许多环境中表现出色，但 PGA MAP Elites 在基于梯度的变异算子的收敛搜索阻碍多样性的多项任务上失败了。在这项工作中，我们提出了三个贡献：1我们使用描述符条件批评家增强了策略梯度变化算子，该批评家将多样性搜索与基于梯度的方法相协调，2我们利用演员批评家训练来学习描述符条件策略，无需额外成本，提炼出将群体的知识转化为可以执行多种行为的单一通用策略，3尽管网络架构存在差异，但我们通过将其注入群体来利用描述符条件参与者。

Nahid: AI-based Algorithm for operating fully-automatic surgery
Authors Sina Saadati
在本文中，首次提出了一种基于软件和计算机视觉技术提供全自动手术的方法。然后，研究了医疗手术计算机化的优势和挑战。最后，对与孤立性卵巢子宫内膜异位症相关的手术进行了检查，并基于所提出的方法，提出了一种更详细的算法，能够在手术期间自动诊断和治疗这种疾病，作为我们提出的方法的证明，其中 U 网为

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com