深圳市建设工程交易/百度seo怎么提高排名

深圳市建设工程交易,百度seo怎么提高排名,网站办公室,建站工具也成为什么系统这篇笔记用来描述2025年发表在arxiv上的一篇有关VLN领域的论文,由港科大和达特茅斯大学联合发布,其核心思想有以下几点: 将3D环境转化为2D平面;2D平面中障碍物分布、机器人起点与终点信息用稀疏矩阵形式进行描述;与LL…

这篇笔记用来描述2025年发表在arxiv上的一篇有关VLN领域的论文,由港科大和达特茅斯大学联合发布,其核心思想有以下几点:

  • 将3D环境转化为2D平面;
  • 2D平面中障碍物分布、机器人起点与终点信息用稀疏矩阵形式进行描述;
  • 与LLM进行轮询时使用格式化文本以规整LLM的输入与输出;

写在最前面

为了方便你的阅读,以下几点的注意事项请务必了解:

  • 该系列文章每个字都是我理解后自行翻译并写上去的,可能会存在笔误与理解错误,如果发现了希望读者能够在评论区指正,我会在第一时间修正错误。
  • 阅读这个系列需要你有基础的LLM与导航知识,有时候我会直接使用英文名词,因为这些词汇实在不容易找到符合语境的翻译。
  • 原文可能因为版面限制存在图像表格与段落不同步的问题,为了更方便阅读,我会在博文中重新对图像表格进行排版,并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
  • 对于原文中的图像,我会在必要时对图像描述进行翻译并附上我自己的理解,但如果图像描述不值得翻译我也不会强行写上去。

Basic Information

  • 论文标题:Dynamic Path Navigation for Motion Agents with LLM Reasoning
  • 原文链接:https://arxiv.org/abs/2503.07323
  • 发表时间:2025年03月10日
  • 发表平台:arxiv
  • 预印版本号:[v1] Mon, 10 Mar 2025 13:39:09 UTC (1,987 KB)
  • 作者团队:Yubo Zhao1、Qi Wu1、Yifan Wang1、Yu-Wing Tai、Chi-Keung Tang
  • 院校机构:
    • The Hong Kong University of Science and Technology;
    • Dartmouth College;
  • GitHub仓库:【暂无】
  • 项目网站:【暂无】

Abstract

LLMs已经展示了强大的通用推理和规划能力。然而其在空间路径规划和无障碍轨迹生成方面的潜力仍未得到充分探索。鉴于LLMs处理未见场景、人机交互以及在复杂系统中全局控制的表现,利用LLMs进行导航规划具有巨大潜力,非常适合Agent生成类人的运动行为。作为该领域最早的研究之一,作者通过构建数据集并提出评估标准,探索LLMs zero-shot导航和生成路径能力。使用由直线连接的锚点来表示路径从而实现多方向移动。与以往方法相比,本文提出的方法具备更高的灵活性和实用性,同时对LLMs而言保持了简单和直观输入与输出。作者证明该方式可以很好地构建任务,在LLMs进行避障的同时自主优化导航行为以到达目标,表现出卓越的规划能力。此外,单个LLM Agent在静态环境中的空间推理能力可以无缝地推广到多Agent协同的动态环境中。与依赖单步规划或局部策略的传统方法不同,该方案基于LLM的无训练方法实现了全局、动态、闭环规划,并自主解决碰撞问题。
在这里插入图片描述


1. Introduction

LLMs在各个领域的推理和规划方面取得了显著进展。这些模型表现出强大的泛化能力使其能够处理未见场景,并对通识具有卓越的灵活性和理解力。尽管已经取得了这些成功,但LLMs在空间路径查找和无障碍轨迹生成方面的应用仍然有限。

最近其他学者的工作已经探索了LLMs的空间推理能力,但大部分研究集中在仿真环境,其性能仍然不足以满足真实环境需求。相比之下,基于深度强化学习(RL)的方法,在自主导航和路径搜索任务中取得了显著进展。然而这些方法通常需要大量的训练数据,涉及环境之间的重复交互,数据采集的实际成本高昂。此外,RL方法在处理未见或未建模的情况时表现不佳,而这正是LLMs的显著优势。

作者探索了 zero-shot 预训练LLMs在多样化环境中进行导航的潜力,重点关注生成类人运动等实际应用。使用LLMs的方法实现了直观的user-Agent交互,适合基于Agent的规划、类人运动生成、多Agent协同作业等需求。为了使导航任务适合LLMs,作者将环境、Agent、规划路径表示为与LLM之间交互空间内的tokens。这种基于token的表示方法实现了高效的空间推理,为复杂环境中的路径搜索提供了稳健而灵活的方案。具体来说,将路径表示为稀疏锚点序列,允许Agent移动到空间中的任何位置,而不是像以前方案那样依赖于预定义的目标位置集合。该方法更符合人类行为与避障直觉,同时也减轻了LLM的负担。

作者通过在真实楼层平面图上进行实验,展示了他们方案性能,评估了各种LLMs在单Agent和多Agent条件下的导航能力。实验结果表明,该方法能够有效地推广到以前未见的环境和任务中。此外,还展示了该系统在封闭环境中解决动态问题的能力,其中Agent通信和协作对于稳健导航和运动至关重要。Agent可以实时自主调整运动计划以并避免碰撞,突显了系统处理复杂、不可预测场景的能力。最后,强调了该系统在类人运动行为生成方面的潜力,展示了该系统如何为处于动态环境中的Agent生成与环境上下文相关的运动。这项工作为自主机器人、虚拟现实交互、人机交互等领域应用铺平了道路,在这些领域中,Agent必须在复杂且动态空间中进行导航与协作。


2. Related Work

2.1 Spatial Understanding and Reasoning

在空间中进行有效的导航和规划需要对环境有基本理解,这对人类和智能系统而言都是至关重要的能力。随着LLMs的进步,空间推理已成为新兴的研究重点。先前研究通过诸如QA等语言推理任务来测试LLMs的空间推理能力。还有研究探索了LLMs识别模式的能力,或专注于增强LLMs的3D推理能力。此外,也有研究对LLMs解决QA谜题方面性能进行了研究。本文旨在进一步探索和评估现代LLMs在标准化、结构化、真实Agent导航任务中的能力,展示它们在理解空间环境和生成可行解决方案上的有效性。此外,作者还展示了它们的下游应用的潜力,将应用范围从理论或仿真场景扩展到真实环境中。

2.2 Using LLMs for Navigation

近期关于导航的LLM研究适用于受限的场景。例如,研究LLMs在简单环境中下对单一可行路径上导航的能力、在仿真简化的方形网格中的路径搜索能力、在没有障碍物的5x5网格中单个Agent导航能力等。这些研究都集中在仿真环境中的导航,且运动行为被限制在四个方向(上、下、左、右)。其他工作使用语言模型以及带有摄像头输入的单个机器人导航任务。相比之下,本文通过为一个或多个Agent实现全局规划,允许在真实的楼层平面图中进行导航,同时支持动态冲突处理,步缩小了仿真和真实场景之间的性能差异。

2.3 Environment-Aware Agents

在环境中规划控制Agent是一个日益受到关注的领域。这项任务通常涉及导航避障以及Agent-环境交互。以往的研究通过手动指定路径、A*算法、扩散模型等方案生成导航路径。虽然这些方法在静态环境中表现良好,但在更复杂的场景中,特别是当多个Agent共存时会遇到瓶颈。与单Agent系统相比,多Agent系统明显引入了更高的复杂性,并且该领域在连续时空中的研究也相对缺失。一些方案使用扩散模型为多个Agent生成轨迹,但并没有解决Agent之间的交互问题。基于传统RL的方法已被用于动态环境中生成满足物理约束的动作。然而这些方法通常难以泛化到不同的应用场景中。本文提出了一种免训练的、基于LLM驱动的方法,该方法利用了LLM的通识和交互能力,以一种简单直观的方式促进了在动态环境中多Agent共存条件下的路径规划和导航,同时实现了Agent之间交互,类似于人类在复杂、动态环境中导航和交互行为。


3. Dynamic Path Planning with LLMs

为了让LLMs理解这项任务,作者统一将Agent、锚定轨迹、环境信息编码为离散的文本tokens,并按照以下方式进行交互:

3.1 Agents with Anchored Trajectories

与人类在环境中导航的方式类似,作者并不局限于离散策略。人类规划的路径类似于一系列近乎直线连接的锚点构成以避免障碍物,同时最小化总距离。例如,从一个房间移动到另一个房间时,可能会先直接走向门口,然后直接走向下一个房间的门口,最后进入目标房间。这种基于锚点的方法对人类来说很直观,并且可以很容易地适应LLM规划。在该框架中,路径或轨迹不一定是密集的,而只需要一系列关键点,类似于将复杂任务分解为更简单的子目标,这种方式非常适合现代LLMs的输入。

χ \chi χ 表示Agent可活动空间,则每个 x ∈ χ x\in\chi xχ 表示Agent的一种可能状态,路径 Γ \Gamma Γ 被定义为一系列点:

Γ = { x 1 , x 2 , … , x k } \Gamma=\{x_{1},x_{2},\dots,x_{k}\} Γ={x1,x2,,xk}

其中每个点 x i ∈ χ x_{i}\in\chi xiχ 表示环境中的一个位置; k k k 是路径上锚点的总个数。通过直线连接这些点来生成轨迹,行程距离可以表示为:

D ( Γ ) = ∑ i = 1 k − 1 ∥ x i − x i + 1 ∥ 2 D(\Gamma)=\sum_{i=1}^{k-1}\|x_{i}-x_{i+1}\|_{2} D(Γ)=i=1k1xixi+12

其中 ∥ ⋅ ∥ 2 \|\cdot\|_{2} 2 表示连续近邻两个点的欧式距离。总体目标是优化出一条满足环境约束的路径,使其能够从初识状态到达目标状态的锚点连线。

路径规划的一个关键指标是确保轨迹避开静态或动态障碍物,且仅当相邻的两个连续锚点 x i x_{i} xi x i + 1 x_{i+1} xi+1 的线段上没有障碍物时才认为这两个点构成的子路径是有效的,即对于每一对连续的点 ( x i , x i + 1 ) (x_{i},x_{i+1}) (xi,xi+1) 满足以下形式时子路径有效:

∀ t ∈ [ 0 , 1 ] , s u c h t h a t γ ( t ) = ( 1 − t ) x i + t x i + 1 , t h e r e e x i s t s n o o b s t a c l e s u c h t h a t γ ( t ) ∈ O \forall t\in[0,1], such\,\,that\, \gamma(t)=(1-t)x_{i}+tx_{i+1},\\ there\,exists\,no\,obstacle\,such\,that\,\gamma(t)\in O t[0,1],suchthatγ(t)=(1t)xi+txi+1,thereexistsnoobstaclesuchthatγ(t)O

其中 γ ( t ) \gamma(t) γ(t) 表示点 x i x_{i} xi 和点 x i + 1 x_{i+1} xi+1 的线性插值; O O O 表示环境中障碍物的集合。如果所有连续点对 ( x i , x i + 1 ) (x_{i},x_{i+1}) (xi,xi+1)都满足条件,那么则认为这个路径 Γ \Gamma Γ 是可用的。

因此,路径规划问题可以被定义为:优化出一条连续的锚点 { x 1 , x 2 , … , x i } \{x_{1},x_{2},\dots,x_{i}\} {x1,x2,,xi} 并最小化总长度 D ( Γ ) D(\Gamma) D(Γ) 同时确保在环境下路径上不存在任何障碍物。

在多Agent场景中,因为不同Agent的轨迹可能会相交,这将导致路径规划的复杂度增加。虽然一些相交可能是不可避免的或难以解决的,但重点是不能让Agent在同一时刻占据相同的空间。由于每个Agent的实际轨迹只能在运行期间完全确定,此时才能在动态环境中考虑Agent之间的交互和时间安排。

3.2 Spatial Environment Representation

在各种替代方案中,最常用和最直观的空间表示形式是网格。在这种表示形式中,环境被离散化为网格结构,每个单元格对应一个空间中位置,从而可以精确地定义自由空间、障碍物、Agent所在位置。

也可以使用基于代码的形式来表示空间,这对于LLMs来说可能更易于解释。例如,可以定义变量来指定起点和目标位置,同时在网格上放置障碍物以塑造环境。代码方案提供了一种清晰简洁的方式来定义任务,是基于网格描述的替代方案。

作者在这里使用基于文本的形似,消除了空间推理和自然语言处理之间的差距,使LLMs能够其已被证明有效的领域中利用自身的推理能力。该方法区别于将完整图像作为输入的模式,图像可能会引入冗余信息,例如纹理、颜色或无关紧要的细节,同时使LLMs的语言能力得以发挥。基于文本的环境表示形式如下:

G = { g i , j ∣ g i , j ∈ { 0 , 1 } } G=\{g_{i,j} | g_{i,j}\in\{0,1\}\} G={gi,jgi,j{0,1}}

其中 g i , j g_{i,j} gi,j 表示在一个2D网格中第 i i i j j j 列的单元格,并定义 g i , j = 1 g_{i,j}=1 gi,j=1 表示有障碍物, g i , j = 0 g_{i,j}=0 gi,j=0 表示自由空间;

作者同样定义了用代码标识障碍物的方式:
C = o b s t a c l e s . a p p e n d ( ( i 1 , j 1 ) , … , ( i n , j n ) ) C=obstacles.append((i_{1},j_{1}),\dots,(i_{n},j_{n})) C=obstacles.append((i1,j1),,(in,jn))

其中每个 ( i k , j k ) (i_{k},j_{k}) (ik,jk) 表示一个障碍物所在的位置。

3.3 System Architecture

3.3.1 Overview

本文提出的系统框架如 Figure 2. 所示,首先将楼层地图编码成基于网格 G G G 或基于代码 C C C 的形式。编码后的平面构成了一个环境 E E E,将其传递给 LLM L L L

在这里插入图片描述

给定 N N N 个Agent,每一个Agent都有自己的起始点 s i s_{i} si 和目标点 t i t_{i} ti。LLM基于起点 S = { s i } i = 1 N S=\{s_{i}\}_{i=1}^{N} S={si}i=1N 与目标点. T = { t i } i = 1 N T=\{t_{i}\}^{N}_{i=1} T={ti}i=1N 集合为所有Agent都生各自的路径:

Γ = L ( E , S , T ) = { x 1 ( i ) , x 2 i , … , x k i i } i = 1 N \Gamma=L(E,S,T)=\{x_{1}^{(i)},x_{2}^{i},\dots,x_{k_{i}}^{i}\}_{i=1}^{N} Γ=L(E,S,T)={x1(i),x2i,,xkii}i=1N

在模拟的环境 E E E 中,如果Agent在 t t t 时刻发生了碰撞,则会请求LLM按照下文中 3.3.2 Path Refining Strategies 的策略,结合当前位置 p i ( t ) p_{i}(t) pi(t) 以及碰撞检测结果 C t C_{t} Ct 重新生成路径 Γ i ′ \Gamma_{i}^{'} Γi。最终输出的路径 Γ i ′ \Gamma_{i}^{'} Γi确保每一时刻Agent都不会发生碰撞。

3.3.2 Path Refining Strategies

为了处理与静态障碍物与动态障碍物碰撞,作者利用LLMs的多轮轮询能力,允许LLM进行迭代优化直至输出期望结果。作者在此提出了两种迭代策略来调整路径:累加式(additive)和 组合式(compositional)。

  • 累加式:整体重新计算整个运动规划,将先前所有规划得到的路径存放在一个统一的变量中,每次更新都会将Agent重置到起点位置;简单但低效;
  • 组合式:以增量方式优化轨迹,基于当前状态进行逐步校正;高效但可能会增加未来规划难度,可能会让某些Agent在原地等待很久才允许移动;

累加式策略:令 s s s 表示起点, t t t 表示终点。给定 n n n 次更新机会,如果Agent在第 i i i 次尝试中因为 r r r(包括其当前卡住的位置)而卡住,这意味着每次更新都是全局计算的,则累加式策略将轨迹更新如下,从原始起点 s s s 重新开始。:

Γ i + 1 = L ( s , t , r ) \Gamma_{i+1}=L(s,t,r) Γi+1=L(s,t,r)

组合式策略:基于当前状态优化轨迹。令 p i p_{i} pi 表示路径不成功时第 i i i 次迭代的当前停止位置。更新后的轨迹计算如下,以当前卡住的位置作为规划起点,每次调整都基于当前轨迹以实现增量式更新:

Γ i + 1 = L ( p i , t , r ) \Gamma_{i+1}=L(p_{i},t,r) Γi+1=L(pi,t,r)

当多个Agent同时被卡住时,LLM可以使用任一策略来协调它们,计算出调整后的路径。


4. Experiments

4.1 Experiment Setup

4.1.1 Dataset

为了确保系统适用于真实场景并保持简洁性,作者以 R2V 数据集为基础进行测试,该数据集包含来自实体建筑物的815个真实楼层平面图。这些楼层平面图主要呈直线形,能让LLMs更容易处理和理解。

对于每个楼层平面图,首先将其按照上文中提到的规则转换为文本格式(具体操作细节见 Supplementary Material 章节),并随机抽取三对起点和目标点。然后使用A*算法生成无碰撞路径作为真实标签(这里也可以使用Dijkstra算法),创建一个包含网格数据与路径长度信息的数据集。

4.1.2 Evaluation Metrics

为了评估LLMs的性能,作者使用几个常用指标:成功率(Success Rate,SR)、路径长度加权成功率(Success weighted by Path Length,SPL)、完成率(Completion Rate,CR)、加权成功率(Weighted Suc- cess Rate,WSR)。这些指标通常用于导航和路径规划任务,以评估生成轨迹的效能与可用性。

Success Rate (SR)

成功率定义为Agent成功到达目标case占总测试用例的百分比:
S R = 1 N ∑ i = 1 N I I ( s u c c e s s i ) SR=\frac{1}{N}\sum_{i=1}^{N}II(success_{i}) SR=N1i=1NII(successi)
其中 I I ( s u c c e s s i ) II(success_{i}) II(successi) 表示成功的次数,1为成功,0为失败,共计进行 N N N 次实验;

Success weighted by Path Length (SPL)

SPL同时考虑了成功率和路径的执行效率:
S P L = 1 N ∑ i = 1 N I I ( s u c c e s s i ) ⋅ d i m a x ( d i , d o p t , i ) SPL=\frac{1}{N}\sum_{i=1}^{N}\frac{II(success_{i})\cdot d_{i}}{max(d_{i}, d_{opt,i})} SPL=N1i=1Nmax(di,dopt,i)II(successi)di
其中 d i d_{i} di 是Agent执行LLM生成的路径长度; d o p t , i d_{opt,i} dopt,i 是第 i i i 个case的最优路径长度,通常用完备的传统算法生成。SPL本质上是奖励更短且高效的路径,惩罚较长且低效的路径。

Completion Rate (CR)

完成率衡量智能体实际达成的总路径长度比,定义为:
C R = 1 N ∑ i = 1 N d i d t o t a l , i CR=\frac{1}{N}\sum_{i=1}^{N}\frac{d_{i}}{d_{total,i}} CR=N1i=1Ndtotal,idi
其中 d i d_{i} di 是Agent实际执行执行的路径长度(可以成功也可以失败); d t o t a l , i d_{total,i} dtotal,i 是Agent在第 i i i 个测试中规划出来的路径总长度。CR指标强调计划路径的成功完成程度,无论成功还是失败。

Weighted Success Rate (WSR)

WSR对更长路径赋予更高权重,反映了它们的成本或复杂性,定义为:
W S R = 1 ∑ i = 1 N d o p t , i ∑ i = 1 N I I ( s u c c e s s i ) ⋅ d o p t , i WSR=\frac{1}{\sum^{N}_{i=1}d_{opt,i}}\sum^{N}_{i=1}II(success_{i})\cdot d_{opt,i} WSR=i=1Ndopt,i1i=1NII(successi)dopt,i
其中 d o p t , i d_{opt,i} dopt,i 是最优路径长度,反映了当前case的难度;分母对所有测试用例中的WSR进行归一化,通过考虑总最佳路径长度来确保WSR之和等于1。

这些指标通过反映了生成轨迹的达成率和效率、任务完成度和复杂性,对LLM的导航性能进行了全面评估。结合作者构建的数据集,提出了一种衡量LLM的空间导航能力的基准。

4.2 Quantitative Results

作者对一系列LLMs进行了实验,包括GPT-4oGeminiDeepSeekLlamaOpenAI o3-miniClaude-Sonnet。包含了最先进的推理模型和通用模型。并且进行了基准测试和消融实验,上述所有的实验都是在zero-shot的条件下进行的。

4.2.1 Single-Agent

首先评估LLMs在单次生成中的表现。直接从起点到终点而不允许期间对路径进行任何修正。输入部分使用上文中的网格描述和代码形式。此外,作者还进行了不进行空间编码,在原始图像上标记起点和终点后直接作为输入的实验。

Table 1 的结果证明了以下几点:

  1. 具备推理能力的模型在任务中表现出明显更强的性能;
  2. 文本输入形式优于图像的输入形式,突出了文本表示的有效性,更自然地符合LLMs处理结构化与基于离散文本信息的能力。
  3. 在对比两种文本输入形式(网格描述和代码形式)时,其有效性因模型而异。对于大多数模型而言,基于代码的输入能够产生更好的性能,因为其明确编码了坐标。然而,对于有推理能力的模型o3-mini而言,基于网格的格式则更有效。可能是由于其类似于人一样能够直观地识别空间模式解释。
    在这里插入图片描述

作者还研究了该系统如何通过多轮交互来提升性能。对比了累加式和组合式策略,结果如 Figure 3. 所示:

  • 随着轮数的增加,两种策略都有助于整体性能的提高;
  • 累加式方法通常获得更高的成功率(SR和WSR),因为它在每一步都从起点重新计算完整路径;
  • 组合式方法虽然更容易受到次优规划的影响,但表现出更高的SPL和CR,因为能够在不重置的情况下优化当前轨迹,保留了进度并确保持续改进。
    在这里插入图片描述

4.2.2 Multi-Agents

作者还将实验扩展到2~3个Agent的场景,结果如 Figure 4. 所示。在这些实验中最大重试次数设置为3,该配置引入了额外的复杂度,因为每个Agent在必须导航至各自的目的地的同时,还需要避开障碍物并动态解决与其他Agent之间的冲突问题,从而使系统更具交互性和适应性。
在这里插入图片描述

实验结果表明以下论据:

  1. 随着Agent数量的增加,系统整体性能得分会降低,但仍会保持在合理的范围内;
  2. 该实验这证明了多Agent协同的可行性,以及LLMs管理复杂动态环境的能力;
  3. 不同的调整策略对整体性能的影响很小;
  4. 组合式策略往往产生较低的得分,这与现实世界情形结果一致,例如,当两个人彼此走近并且都本能地向同一方向迈步以避免碰撞时,他们可能会无意中造成尴尬的局面;
  5. 累加式方法可能更有效地全局解决此类协调冲突;

总的来说,o3-mini 等现代LLMs在空间导航任务中展现了强大的能力,在单次尝试中达到了约80%的成功率(SR),在单Agent场景的多轮尝试中达到了约90%的成功率(SR)。该系统还可以无缝扩展到多Agent场景并保证性能下降不大。此外,所有实验都是在zero-shot条件下进行的,进一步验证了LLMs的推理能力和通识。综上所述,现代LLMs能够适用于现实世界的Agent场景。

4.3 Qualitative Results

在本节中,作者将可视化实验结果,并介绍一个涉及生成环境感知类人运动的真实应用如 Figure 6. 所示。OmniControlTLControl等控制算法依赖于手动定义的输入轨迹。

Motion-Agent这样的框架利用LLMs自动分解复杂的用户请求,并通过Agent生成运动从而实现自然的user-Agent交互。通过整合这些方法,作者证明了基于LLM的导航系统可以无缝地应用于类人行为的下游任务。此外,该系统可以轻易地扩展到多个Agent共存的场景中。如 **Figure 6.**所示,一旦系统生成无碰撞轨迹,就可以用于引导不具备环境感知能力的模型来避免碰撞。
在这里插入图片描述

Figure 5. 中提供了俯视图和3D类人运动行为,展示了该系统可以有效地为单个和多个Agent进行导航。虽然最初生成的路径有时会不可用,但系统可以通过多次自主调整以解决此类问题。在下图的右侧,五个Agent遇到了不同困难,系统通过多次调整成功地协调了它们的路径,使它们能够避开障碍物和彼此最终到达各自的目的地。
在这里插入图片描述
此外,作者还将输入楼层地图扩展到3D,其中不是使用1和0来表示障碍物和自由空间,而是为每个点分配一个高度值形成一个高度图。因此,输出路径用三维的锚点表示。如 Figure 7. 所示,该类扩展使系统能够生成不限于平面上的Agent路径。此外,该系统有与SCENIC 等方法集成的潜力,这些方法可以与场景之间进行交互,但依赖于事先手动输入轨迹来实现避障功能。
在这里插入图片描述


5. Discussion

RL-agents vs LLM-agents

虽然现代LLMs与强化学习(RL)并不冲突,因为两者都是通过人类反馈强化学习(RLHF)训练得到的,但与传统深度强化学路径规划形成鲜明对比的是,后者强调优化预期折扣回报(对于单Agent RL)和联合策略均衡(在多Agent RL中),通常需要大量训练数据。本章节展示了现代LLMs在单Agent和多Agent场景中进行路径规划和动态导航zero-shot、免训练的能力,并使用完成率、成功率、路径长度进行性能评估。虽然这些指标常规RL优化目标相比较而言更简单,但对于评估任何自主系统的性能而言是等价的。

Limitations and Future Work.

本文关于LLM导航的当前工作侧重于动态系统,包括多Agent场景并使用仿真环境进行了验证。虽然这些仿真为系统有效性提供了论据,但缺乏真实世界的测试,特别是使用真机和在家庭场景中的效能需要进一步验证。此外,该方法依赖于全局编码的楼层平面图,需要假设路径规划期间该平面图具备完全可观测性。然而在许多机器人应用中,导航期间只能获得部分环境观测信息。未来的工作将探索用局部嵌入策略替换全局楼层平面图嵌入,侧重于每个Agent在当前时刻仅可观测到周围环境。尽管如此,作者认为该系统从院里上是可推广的,能够无缝集成其他功能,例如碰撞处理以及Agent之间交互,这些功能可以作为局部操作进行添加。

Concluding Remarks

本文作者研究了LLMs在动态环境中Agent空间导航和无碰撞轨迹生成方面的推理能力。将楼层地图表示为离散文本,并使用稀疏锚点来描述导航路径。作为LLMs空间推理的早期研究之一,作者构建了一个综合数据集并提出了评估标准来度量系统的性能。此外,还将研究扩展到多个Agent共存的场景。实验结果表明,LLMs可以有效地对Agent进行协调,并在闭环、动态环境中自主解决冲突情况。通过将其应用于类人运动任务中,展示了该系统的拓展潜力。总而言之,这篇文章的工作推进了智能系统的发展,所提出的框架能够更好地感知和理解现实世界后做出适当的决策,并实现user-Agent之间的交互,从而为真实场景中的应用铺平了道路。


Supplementary Material

这一章节是原文中的实验支撑依据,用来证明其实验的有效性。

A. More Qualitative Results

在补充材料中提供了一些的定性结果,包括附加视频和一个HTML文件(但是我在他们版本的预印版中没有发现这两个文件),以实现更好的可视化。此处展示了一些最终生成的轨迹的俯视图。

  • Figure 1. 说明了LLM有效管理和解决复杂且具有挑战性场景的能力:

在这里插入图片描述

  • Figure 2. 展示了累加式策略如何利用重启机制成功避开障碍物:
    在这里插入图片描述

  • Figure 3. 展示了组合式策略如何即时动态避开障碍物:

在这里插入图片描述

B. Dataset Processing

B.1 Spatial Encoding

对于一个给定的平面输入图像 I ∈ R H × W × 3 I\in R^{H\times W\times 3} IRH×W×3 首先将其转换为灰度图:
I g = G r a y s c a l e ( I ) , I g ∈ R H × W I_{g}=Grayscale(I), I_{g}\in R^{H\times W} Ig=Grayscale(I),IgRH×W
移除所有空白的行和列以保留核心区域 I ′ ⊆ I g I^{'}\subseteq I_{g} IIg
I ′ = I g [ r o w s ( I g ) ≠ 0 , c o l s ( I g ) ≠ 0 ] I^{'}=I_{g}[rows(I_{g})\neq0, cols(I_{g})\neq0] I=Ig[rows(Ig)=0,cols(Ig)=0]
I ′ I^{'} I 进行填充以达到标准尺度 I r I_{r} Ir,使用高斯平滑调整大小以降低分辨率得到 :
I s = G a u s s i a n B l u r ( I r ) I_{s}=GaussianBlur(I_{r}) Is=GaussianBlur(Ir)
最后将图像进行二值化得到 I b I_{b} Ib
I b ( x , y ) = { 1 , I s ( x , y ) ≠ 0 0 , o t h e r w i s e I_{b}(x,y)= \begin{cases} 1, & I_{s}(x,y)\neq0 \\ 0, & otherwise \end{cases} Ib(x,y)={1,0,Is(x,y)=0otherwise
最终得到的二值矩阵 I b I_{b} Ib 构成了可导航与障碍物空间并提供给后续推理使用。

B.2 Sampling

为了增加任务的复杂性使其超越均匀决策,这里采用了一种策略来生成起点和终点位置。对于给定的起始单元格 s s s 和任何候选单元格 c c c,曼哈顿距离定义为:
d ( c ) = ∣ i s , i c ∣ + ∣ j s , j c ∣ d(c)=|i_{s},i_{c}| + |j_{s},j_{c}| d(c)=is,ic+js,jc
d m i n d_{min} dmin d m a x d_{max} dmax分别为从点 s s s 到候选单元的最大与最小距离,并将其归一化,约定当 d m a x = d m i n d_{max}=d_{min} dmax=dmin d ^ = 0 \hat{d}=0 d^=0
d ^ ( c ) = d c − d m i n d m a x , d m i n \hat{d}(c)=\frac{d{c}-d_{min}}{d_{max}, d_{min}} d^(c)=dmax,dmindcdmin
对于给定距离权重 α ∈ [ 0 , 1 ] \alpha\in[0,1] α[0,1] 计算每个候选点:
w ( c ) = α d ^ ( c ) + ( 1 − α ) w(c)=\alpha\hat{d}(c)+(1-\alpha) w(c)=αd^(c)+(1α)
选择单元格 c c c 的概率为:
P ( c ) = w ( c ) ∑ c ′ ∈ C w ( c ′ ) P(c)=\frac{w(c)}{\sum_{c^{'}\in C}w(c^{'})} P(c)=cCw(c)w(c)
其中 C C C 是候选单元格集合。随着 α \alpha α 值的增加,该方法将选择偏向于离 s s s 更远的单元格的同时保留了随机性。在实验中令 α = 0.5 \alpha=0.5 α=0.5

C. More Discussion

在NeurIPS 2024一篇相关论文里的任务要比本文简单得多,只涉及一条可选路线的小网格地图以及四个运动方向,该配置可以被认为是本文case的一个子集。但其论文中使用GPT-4导航SR和CR分别仅为15%和40%左右。作者认为是缺乏结构良好和标准化任务IO导致的,其输出通常包含预期意外的内容,需要对文本进行字符串模版匹配以获得最终结果。相比之下,作者在任务描述上采用了标准化的IO格式,类似于现代Agent调用LLM时使用的格式,确保了路径生成内容更加标准化和结构化,以此更容易地应用于真实世界的场景。

D. Epilogue: Deep Reinforcement Learning

熟悉用RL进行动态路径导航Agent的读者很清楚,如果有足够的训练数据,那么在仿真环境中使用近端策略优化和软约束评分算法,深度RL的成功率(SR)可能会超过0.9,其表现将如论文主体部分的 Figure 3. 和 **Figure 4.**所示,zero-shot的SR和相关性能可以达到这种性能,在有多转弯场景中的导航性能超过75%。
在这里插入图片描述

在没有训练数据的情况下,作者提出的模型具备与RL相同的性能表现,而当深度RL依赖探索来习得最佳策略,其ballmark SR将降至接近零,同时非常耗时且无法生成导航路径。

尽管如此,由于现代LLM是用RLHF训练的,将深度RL纳入这篇文章的工作中,可以更深入了解LLM和深度RL集成在动态路径导航中的应用,从而进一步提高性能,这将是一项有趣且有价值的未来工作。


写在最后

总体来说这篇文章通俗易懂,其核心思想是对地图中信息的格式化描述,将其中包含的空间信息转换LLM擅长的自然语言描述以充分发挥LLM的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898236.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3之写一个aichat ----vite.config.js

vite.config.js的CSS配置 postcss-pxtorem 开发响应式网页的时候需要用到postcss-pxtorem amfe-flexible amfe-flexible是由阿里团队开发的一个库,它可以根据设备的屏幕宽度去动态调整HTML根元素()的字体大小,这意味着无论用户使用什么尺寸的设备访问你…

宝石PDF,全新 PC 版本,全部免费

宝石PDF已经运行 3 年时间,有客户端,小程序,一直未上 PC 版本,随着客户端功能升级的不及时,很多用户建议上 PC 版本。但是飞哥一直忙,这不终于给上了。 同时系统的名称也从 “PDF云转换”改为“宝石PDF”&…

HTML课后实践

实验一 【实验原理】 在搜索引擎的文本分析中,标题的信息权重要比正文的大,所以标题的样式非常重要。本实验通过把标题标记和常规文本进行对比输出,掌握标题标签的用法。在网页中,有时需要为文字设置粗体、斜体或下划线效果&#…

【紫光同创FPGA开发常用工具】FPGACPLD的下载与固化

文档内容适配技术问题说明(非正文): 1、FPGA&CPLD如何下载位流文件; 2、FPGA外部flash如何固化位流文件; 3、PDS软件烧录界面如何新增用户flash; 4、CPLD内部flash如何固化位流文件; F…

塔能智慧物联节能方案:点亮城市,赋能工厂

在全球积极倡导节能减排、绿色发展的时代背景下,塔能(江苏)科技有限公司凭借其创新的智慧物联节能一体化解决方案,在城市照明和工厂节能领域取得了显著成果。该方案不仅为城市的夜晚带来了明亮且节能的照明,还为工厂的…

Python自动点击器开发教程 - 支持键盘连按和鼠标连点

Python自动点击器开发教程 - 支持键盘连按和鼠标连点 这里写目录标题 Python自动点击器开发教程 - 支持键盘连按和鼠标连点项目介绍开发环境安装依赖核心代码解析1. 键盘模拟实现2. 鼠标点击实现 开发要点使用说明注意事项优化建议打包发布项目源码开发心得参考资料成品工具 项…

Cursor插件市场打不开解决

问题现象: cursor搜索插件的时候提示错误,无法搜索安装插件 error while fetching extensions.failed to fetch 问题原因 cursor默认安装使用的并不是vs code的插件市场,国内网络有时候打不开 解决 修改插件市场地址并重启cursor 打开cur…

python-leetcode 54.全排列

题目: 给定不含重复数字的数组nums,返回其所有可能的全排列,可以按任意顺序返回答案 回溯法 一种通过探索所有可能的候选解来找出所有的解的算法。如果候选解被确认不是一个解(或者至少不是最后一个解),回溯算法会通…

华为中小型企业项目案例

实验目的(1) 熟悉华为交换机和路由器的应用场景 (2) 掌握华为交换机和路由器的配置方法 实验拓扑实验拓扑如图所示。 华为中小型企业项目案例拓扑图 实验配置市场部和技术部的配置创建VLANLSW1的配置 [LSW1]vlan batch 10 20 [LSW1]q…

深度学习-简介

一、几个概念 (1)what is ai including? 看一张图: 这里注意机器学习和深度学习的关系 (2)机器学习和模式识别有什么区别? 和机器学习同领域的有一个词叫做模式识别,二者有什么区别呢? 机…

Unity小框架之单例模式基类

单例模式(Singleton Pattern)是一种常用的创建型设计模式,其核心目标是确保一个类只有一个实例,并提供一个全局访问点。它常用于需要控制资源访问、共享配置或管理全局状态的场景(如数据库连接池、日志管理器、应用配置…

安装 Powerlevel10k 及 Oh My Zsh 的使用

1. 简介 Powerlevel10k 是 Oh My Zsh 最流行的终端主题,它不仅美观,还提供 Git 状态显示、命令执行时间、网络状态、Python 虚拟环境指示等 实用功能。相比其他主题,Powerlevel10k 速度更快、可定制性更强。 本教程将详细介绍如何安装 Powe…

在IDEA中连接达梦数据库:详细配置指南

达梦数据库(DM Database)作为国产关系型数据库的代表,广泛应用于企业级系统开发。本文将详细介绍如何在IntelliJ IDEA中配置并连接达梦数据库,助力开发者高效完成数据库开发工作。 准备工作 1. 下载达梦JDBC驱动 访问达梦官方资…

app.config.globalProperties

目录 一:基础使用 1、简介 2、使用 3、打印结果: 二:封装 1、创建一个.ts文件(utils/msg.ts) 2、在main.ts中全局注册 3、在页面中使用 4、打印结果 一:基础使用 1、简介 app.config.globalProperties 是 Vue 3 应用实例(app)的一个配置属性&…

16.使用读写包操作Excel文件:XlsxWriter 包

一 XlsxWriter 的介绍 XlsxWriter 只能写入 Excel 文件。 OpenPyXL 和 XlsxWriter 的区别在笔记 15 。 二 如何使用 XlsxWriter 1.导包 import datetime as dtimport xlsxwriterimport excel 2.实例化工作簿 book xlsxwriter.Workbook("xlxswriter.xlsx") book.clo…

ChatGPT and Claude国内使用站点

RawChat kelaode chatgptplus chatopens(4.o mini免费,plus收费) 网页: 定价: wildcard 网页: 虚拟卡定价: 2233.ai 网页: 定价: MaynorAPI chatgpt cla…

【MySQL】MySQL审计工具Audit Plugin安装使用

MySQL审计工具Audit Plugin安装使用 https://www.cnblogs.com/waynechou/p/mysql_audit.html MySQL 5.6 开启审计功能 https://blog.51cto.com/u_15127556/4344503 MySQL之添加日志审计功能 https://blog.csdn.net/weixin_43279032/article/details/105507170 MySQL开启日志记录…

Git——分布式版本控制工具使用教程

本文主要介绍两种版本控制工具——SVN和Git的概念,接着会讲到Git的安装,Git常用的命令,以及怎么在Vscode中使用Git。帮助新手小白快速上手Git。 1. SVN和Git介绍 1.1 SVN 集中式版本控制工具,版本库是集中存放在中央服务器的&am…

压测实战 | 微信小程序商城 “双 11” 的压测实践

背景 某全球知名珠宝品牌,始终以创新驱动零售变革。随着全渠道战略的深化,其小程序官方商城逐渐成为品牌私域流量的核心阵地,不仅承载了线上销售、会员运营等功能,同时还与其内部系统打通,如会员管理系统、人力资源系…

垃圾分类--环境配置

写在前面: 如果你们打这届比赛时,还有我们所保留的内存卡,那么插上即可运行(因为内存卡里我们已经配置好所有的环境) 本文提供两种环境的配置 一种是基于yolov8:YOLOv8 - Ultralytics YOLO Docshttps://d…