VLM和VLAM(VLA)相关介绍和发展历程

目录

    • 一、个人感想
    • 二、相关介绍
      • 2.1 视觉语言模型 (VLM) 的发展历程
      • 2.2 视觉语言动作模型 (VLA) 的发展历程
      • 2.3 一些关键的研究工作:
      • 一些架构图
    • 三、发展历程
      • 3.1 视觉语言模型 (VLM) 的发展时间线
      • 3.2 视觉语言动作模型 (VLA) 的发展时间线
    • 四、参考资料

一、个人感想

进入2024年,尤其是最近半年,在自动驾驶圈,出现了很多听上去很高大上的名词,比如视觉语言模型(VLM)、视觉语言动作模型(VLA,相对比前者可微,所以可以端到端)、世界模型等等。让我这个刚入圈子的在校硕士,不禁感叹,世界变化太快,技术迭代也很快,总感觉新的东西层出不穷,快要被世界淘汰了。但是吧,个人其实又有点好奇,为啥最近一年,端到端、VLM、VLA接连都出来,难道都是最近的成果吗?出于这样的好奇,特此搜了一下VLM和VLA,发现好像并不是那么回事,这俩技术,其实几年前就有了,只不过最近自动驾驶中L2辅助驾驶行业各种新概念都卷起来了,加上理想他们弄了个端到端+VLM双系统,使得各种看上去很新但是其实几年前就开始研究的东西被吹起来了。
关于以后的技术方向,感觉参考文章中有两句话说的比较好,如下:
sss
在这里插入图片描述

二、相关介绍

相关介绍和发展历程的内容来自于通义大模型,还是让大模型总结整理比较方便。

视觉语言模型(VLM)和视觉语言动作模型(VLA)是近年来在人工智能领域内取得显著进展的两个概念,它们的发展历程反映了多模态学习的进步,特别是在结合视觉、语言和机器人动作方面

2.1 视觉语言模型 (VLM) 的发展历程

视觉语言模型的发展可以追溯到2015年左右,当时研究人员开始探索如何将计算机视觉与自然语言处理结合起来,以实现更复杂的人机交互。一个重要的里程碑是基于图像的问答系统(Visual Question Answering, VQA)它要求模型根据给定的图片回答相关问题。这类任务需要模型理解图像内容,并将其与语言查询相结合,从而给出合理的答案。(其实这个东西就是现在2024年底很成熟的GPT大模型了,比如给他一张摄影作品,可以让他给你点评或者解释图片内容等等)

随后,随着深度学习技术的发展,特别是Transformers架构的提出,VLM得到了快速进步。例如,Google推出的PaLI(Pathways Language-Image model)是一个统一的语言图像模型,能够执行多种跨模态任务,如视觉问答、图像字幕等。PaLI-X 和 PaLM-E(Pathways Language Model Embodied)进一步增强了这些能力,通过将大规模的视觉语言预训练与机器人数据相结合,实现了从VLM到VLA的转变。如下图所示:
在这里插入图片描述

2.2 视觉语言动作模型 (VLA) 的发展历程

视觉语言动作模型的概念则更为新颖,它旨在让机器人不仅能理解和生成语言,还能根据视觉输入执行物理世界的动作。RT-2(Robotic Transformer 2)是这一领域的代表作品之一,由Google DeepMind开发,建立在RT-1的基础上。RT-2通过使用预训练的视觉语言模型作为基础,直接输出动作指令作为token序列,使得机器人可以在未见过的环境中完成复杂的操作任务。

2.3 一些关键的研究工作:

视觉语言模型(VLM):早期的VQA任务被认为是VLM的一个起点,而像ViT(Vision Transformer)、CLIP等模型则是推动了VLM发展的重要力量。
视觉语言动作模型(VLA):RT-2被广泛认为是首个成功的VLA模型,它首次明确地将视觉、语言和动作三者结合起来,用于指导机器人的实际操作。
总的来说,VLM和VLA都是AI研究中非常活跃的方向,它们的出现和发展极大地促进了具身智能的进步,即赋予机器人理解并互动于物理世界的能力。

一些架构图

端到端
在这里插入图片描述
在这里插入图片描述

三、发展历程

视觉语言模型(VLM)和视觉语言动作模型(VLA)的发展历程反映了多模态学习的进步,特别是在结合视觉、语言和机器人动作方面。

3.1 视觉语言模型 (VLM) 的发展时间线

2015-2016年:视觉问答系统(Visual Question Answering, VQA)的兴起,标志着VLM早期研究的开始。这些系统能够根据图像回答自然语言问题,首次将视觉与语言理解结合起来。
2017-2018年:研究人员开始探索更复杂的跨模态任务,如图像字幕生成(Image Captioning),进一步推动了VLM的发展。
2019年:BERT等预训练语言模型的提出为后续的多模态模型提供了强大的语言处理能力。
2020年:CLIP(Contrastive Language–Image Pre-training)由OpenAI发布,它通过对比学习框架连接了图像和文本,极大地促进了VLM的发展。
2021年:ViT(Vision Transformer)的出现,使得Transformers架构不仅限于NLP,也开始在计算机视觉中取得成功,统一了CV和NLP的架构。
2022年:Google推出了PaLI(Pathways Language-Image model),这是一个大规模的语言图像模型,能够执行多种跨模态任务。
2023年:
PaLM-E(Pathways Language Model Embodied)被推出,它结合了PaLM和ViT,为机器人技术带来了新的可能性。
RT-1(Robotic Transformer 1)发布,这是第一个尝试直接从视觉语言输入生成机器人动作的模型之一。
2024年:TinyVLA模型的提出,它提供了一种更加紧凑且高效的解决方案来实现视觉语言动作模型,减少了对大量预训练数据的需求,并提高了推理速度。

3.2 视觉语言动作模型 (VLA) 的发展时间线

2023年3月:RT-1(Robotic Transformer 1)的发布是VLA领域的关键一步,它证明了可以使用预训练的视觉语言模型来指导机器人的动作,但其应用范围相对有限。
2023年9月:RT-2(Robotic Transformer 2)面世,作为RT-1的升级版本,它展示了显著更好的泛化性能,尤其是在未见过的物体、背景和环境中。RT-2引入了“思维链”机制,增强了长期规划和低级技能的学习能力。
2024年:TinyVLA模型进一步推进了VLA的发展,通过优化模型结构和训练方法,在保持高效的同时实现了媲美甚至超越现有大型VLA模型的效果。此外,TinyVLA还解决了双臂环境下的操作难题,无需修改网络结构即可适应不同的动作维度。
综上所述,VLM 和 VLA 的发展历程体现了从单纯的理解视觉和语言信息到实际应用于物理世界操作的重大转变。随着时间推移和技术进步,这些模型变得越来越复杂、高效,并且更接近实现通用人工智能的目标

四、参考资料

2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)

【具身智能】RT-2:视觉-语言-动作模型(VLA)

端到端混战,VLM还没暖热,VLA已叫阵

端到端自动驾驶大模型:视觉-语言-动作模型 VLA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65396.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法题(18):删除有序数组中的重复项2

审题: 需要原地删除数据让数组中一个数据只能出现最多2次,并返回修改后的数组的数据个数 (不会有空数组情况) 思路: 双指针:我们用left指向下一个需要插入数据的位置,right去遍历数组 left数据的…

什么是变分法(Calculus of Variations)?以及 欧拉-拉格朗日方程(Euler-Lagrange Equation)具体推导:中英双语

中文版 什么是变分法(Calculus of Variations)? 变分法(Calculus of Variations)是一种数学方法,用于求解在某种条件下,使某个函数达到极值(最大值或最小值)的变量。变…

IPv6 基础协议-NDP

IPv6 基础协议报文 何为基础协议?像v4中的icmp、arp、hdcp之类的 在v6中只需要NDP协议,他是通过ICMPv6报文完成的,她能够实现邻居发现、无状态地址检测、重复地址检测、PMTU等功能 RS(133)RA(134&#x…

MySQL外键类型与应用场景总结:优缺点一目了然

前言: MySQL的外键简介:在 MySQL 中,外键 (Foreign Key) 用于建立和强制表之间的关联,确保数据的一致性和完整性。外键的作用主要是限制和维护引用完整性 (Referential Integrity)。 主要体现在引用操作发生变化时的处理方式&…

MONI后台管理系统-敏感信息脱敏传输

本文章纯转载,如有侵权联系删除 SpringBoot如何优雅地实现返回数据脱敏 前言:数据脱敏是一种常见的数据安全保护技术,可以在保护数据隐私的同时,保持数据的有效性和可用性。在 Spring Boot 中,我们可以使用注解的方式实…

分布式事务入门 一

分布式事务入门 一 您好,我是今夜写代码,今天学习下分布式事务相关理论,以及常见的解决方案,为后续掌握Seata分布式事务框奠定基础。 为什么需要分布式事务? 分布式事务主要由于存储资源的分布性,通常涉及多个数据库。 分布式…

Goland:专为Go语言设计的高效IDE

本文还有配套的精品资源,点击获取 简介:Goland是JetBrains公司开发的集成开发环境(IDE),专为Go语言设计,提供了高效的代码编辑、强大的调试工具和丰富的项目管理功能。其智能代码补全、强大的调试与测试支…

uniapp 前端解决精度丢失的问题 (后端返回分布式id)

原因: 后端使用分布式id, id为19位数,导致精度丢失 ,前端解决方法 这个是通过浏览器请求回来的数据,这个时候id 数据已经丢失了,在数据库查询不到,在调获详情接口的时候会有问题 实际的: 解决…

Pandas07

Pandas01 Pandas02 Pandas03 Pandas04 Pandas05 Pandas06 文章目录 1 用户偏好分析 TGI1.1 TGI介绍1.2 TGI案例代码 2 用户评论文本分析2.1 用户评论文本分析简介 1 用户偏好分析 TGI 1.1 TGI介绍 TGI(Target Group Index,目标群体指数)用于…

spring cloud微服务-OpenFeign的使用

OpenFeign的使用 openFeign的作用是服务间的远程调用 ,比如通过OpenFeign可以实现调用远程服务。 已经有了LoadBalancer为什么还要用openFeign? 在微服务架构中,LoadBalancer和OpenFeign虽然都提供了服务间调用的能力,但它们的设计目的和…

使用PHP函数 “setcookie“ 设置cookie

在网站开发中,cookie是一种非常常用的技术,它用于在用户的浏览器中存储少量的数据,以便在不同页面之间传递信息。PHP提供了一个名为 "setcookie" 的函数,用于设置cookie的值和属性。在本文中,我们将学习如何…

读书笔记-《乡下人的悲歌》

前段时间看了一些 J.D. Vance 的采访视频,几乎都是记者带着刁难的问题先手进攻,而 Vance 面带微笑,提及对方的名字,条理清晰地从对方的攻击中切回主题形成后手反制,实在让人看得过瘾。 更不可思议的是,Van…

Datawhale-AI冬令营二期

目录 一、番茄时钟(1)输入Prompt(2)创建 HTML 文件解析1:HTML结构解析2:计时器内容解析3:按钮区域解析4:脚本引用 (3)使用JavaScript实现时钟功能解析1&#…

【Sentinel】流控效果与热点参数限流

目录 1.流控效果 1.1.warm up 2.2.排队等待 1.3.总结 2.热点参数限流 2.1.全局参数限流 2.2.热点参数限流 2.3.案例 1.流控效果 在流控的高级选项中,还有一个流控效果选项: 流控效果是指请求达到流控阈值时应该采取的措施,包括三种&…

我的Qt作品(20)使用Qt+OpenCV写一个旋转/抠图/mask生成工具

使用QtOpenCV写一个旋转/抠图/mask生成工具 1、旋转功能 void FormRotate::rotateImage(const cv::Mat &src, cv::Mat &dst, double degree) //旋转 {if (fabs(degree) < 0.001){dst src;return;}//center旋转的中心点坐标//degree旋转的角度,不是弧度,>0逆时针…

win11中win加方向键失效的原因

1、可能是你把win键锁了&#xff1a; 解决办法&#xff1a;先按Fn键&#xff0c;再按win键 2、可能是可能是 贴靠窗口设置 中将贴靠窗口关闭了&#xff0c;只需要将其打开就好了

MetaRename for Mac,适用于 Mac 的文件批量重命名工具

在处理大量文件时&#xff0c;为每个文件手动重命名既耗时又容易出错。对于摄影师、设计师、开发人员等需要频繁处理和整理文件的专业人士来说&#xff0c;找到一款能够简化这一过程的工具是至关重要的。MetaRename for Mac 就是这样一款旨在提高工作效率的应用程序&#xff0c…

JavaScript甘特图 dhtmlx-gantt

背景 需求是在后台中&#xff0c;需要用甘特图去展示管理任务相关视图&#xff0c;并且不用依赖vue&#xff0c;兼容JavaScript原生开发。最终使用dhtmlx-gantt&#xff0c;一个半开源的库&#xff0c;基础功能免费&#xff0c;更多功能付费。 甘特图需求如图&#xff1a; 调…

VSCode下载安装指南

VSCode下载 通过网盘分享的文件&#xff1a;VSCodeUserSetup-x64-1.96.2.exe 链接: https://pan.baidu.com/s/1l7fdxeALnyeuUe1a5l0aqQ?pwdb8y3 提取码: b8y3 –来自百度网盘超级会员v6的分享 VSCode安装 1、下载好之后双击下图 2、我同意&#xff0c;下一步 3、可以点浏…

多显卡服务器如何设置使用集成显卡输出信号?

要在IPMI中设置服务器的显示接口只使用集成显卡&#xff0c;而不使用插入的PCI显卡&#xff0c;您需要进入服务器的BIOS设置进行相应的配置。以下是一般步骤&#xff1a; • 重启服务器&#xff0c;在启动时按下相应的键&#xff08;通常是Del或F2&#xff09;进入BIOS设置。 …