5 AGENTS
VLN代理根据其核心特征和技术方法可分为四种主要类型:基于表示学习、基于决策和策略学习、面向任务和数据驱动。这种分类反映了VLN代理在处理多模式信息、执行复杂推理、解决数据短缺和适应环境变化方面的独特策略。每一类代理都为VLN任务的特定方面提供了解决方案,展示了执行复杂视觉和语言任务的多样性。系统的分类为研究人员提供了全面而详细的视角,加深了对VLN代理如何处理任务、数据和环境适应性的理解。这不仅有助于当前研究的进展,也指导了未来VLN技术的发展和创新。
5.1 Representation Learning-based
这些代理的核心任务是加深对各种模式之间关系的理解,特别是指令中的词汇与环境感知特征之间的相互作用。有效的表示学习有助于智能体在处理图像、指令和导航动作的同时,在语言描述和视觉感知之间建立联系,增强复杂场景中的导航能力和决策效率。
5.1.1 Unimodal Representations in Vision-Language.
Visual Representation
在VLN领域,基于视觉表示的学习模型侧重于增强主体对视觉信息和语言指令之间关系的理解,特别是将指令中的词汇与感知的环境特征联系起来。通过使用预训练的模型,如ResNet[20]或Vision Transformer[88]进行视觉编码,增强了代理获取单个模态知识的能力[89]。研究主要集中在物体和场景的表现上;物体表示包括特定目标的分类和相关文本信息的获取,而场景表示包括整个图像,考虑到不同物体之间的排列和关系。在VLN任务中,对象和场景的表示有助于代理从自我中心的角度识别周围的对象,识别它们自己的位置,并通过分析场景内结构之间的语义关系来更复杂地