Meta发布Chameleon模型预览,挑战多模态AI前沿

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

随着生成式AI领域的竞争转向多模态模型,Meta推出了一款名为Chameleon的新模型家族,以回应前沿实验室发布的各类模型。Chameleon被设计为原生多模态模型,而非将不同模态组件拼凑在一起。

虽然Meta尚未发布这些模型,但据报告显示,Chameleon在图像描述和视觉问答(VQA)等任务中表现出色,同时在纯文本任务中也具竞争力。

早期融合多模态模型

目前,创建多模态基础模型的流行方式是将为不同模态训练的模型拼凑在一起。这种方法称为“后期融合”,即AI系统接收不同的模态,用单独的模型编码它们,然后融合编码进行推理。尽管后期融合效果不错,但它限制了模型跨模态整合信息和生成交错图像与文本序列的能力。

Chameleon采用了“早期融合基于token的混合模态”架构,这意味着它从一开始就设计为从交错的图像、文本、代码和其他模态中学习。Chameleon将图像转换为离散的token,就像语言模型处理单词一样。它还使用了由文本、代码和图像token组成的统一词汇表,使得能够对包含图像和文本token的序列应用相同的transformer架构。

据研究人员介绍,与Chameleon最相似的模型是谷歌的Gemini,它也采用了早期融合token的方法。然而,Gemini在生成阶段使用了单独的图像解码器,而Chameleon则是一个端到端模型,既处理又生成token。

“Chameleon的统一token空间使其能够无缝推理并生成交错的图像和文本序列,无需模态特定的组件,”研究人员写道。

Chameleon的架构和训练

尽管早期融合非常有吸引力,但在训练和扩展模型时会面临重大挑战。为了克服这些挑战,研究人员采用了一系列的架构修改和训练技术。在论文中,他们分享了不同实验的细节及其对模型的影响。

Chameleon的训练分两个阶段进行,数据集包含4.4万亿个文本、图像-文本对以及交错的文本和图像序列。研究人员在超过500万小时的Nvidia A100 80GB GPU上训练了一个7-billion和一个34-billion参数版本的Chameleon。

Chameleon的表现

根据论文中报告的实验,Chameleon能够执行多种纯文本和多模态任务。在视觉问答(VQA)和图像描述基准测试中,Chameleon-34B达到了最先进的性能,超越了Flamingo、IDEFICS和Llava-1.5等模型。

研究人员表示,Chameleon在预训练和微调模型评估中,以更少的上下文训练示例和更小的模型尺寸达到了其他模型的性能。

多模态的一个折衷是单模态请求中的性能下降。例如,视觉-语言模型在纯文本提示上的性能往往较低。但Chameleon在纯文本基准测试中仍具竞争力,在常识推理和阅读理解任务中与Mixtral 8x7B和Gemini-Pro等模型相匹敌。

有趣的是,Chameleon能够为混合模态推理和生成解锁新能力,特别是在提示预期混合模态响应时。实验显示,用户总体上更喜欢Chameleon生成的多模态文档。

上周,OpenAI和谷歌都发布了提供丰富多模态体验的新模型。然而,他们并未发布有关模型的详细信息。如果Meta继续按照其策略发布Chameleon的权重,它可能成为私人模型的开放替代方案。

早期融合还可以为更高级的模型研究开辟新方向,特别是随着更多模态的加入。例如,机器人初创公司已经在实验将语言模型整合到机器人控制系统中。早期融合如何改进机器人基础模型也将是一个有趣的研究方向。

“Chameleon代表了实现能够灵活推理并生成多模态内容的统一基础模型愿景的重大一步,”研究人员写道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15519.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构与算法】之堆的应用——堆排序及Top_K问题!

目录 1、堆排序 2、Top_K问题 3、完结散花 个人主页:秋风起,再归来~ 数据结构与算法 个人格言:悟已往之不谏,知来者犹可追 克心守己,律己则安! 1、堆排序 对一个无序的数组…

03_前端三大件CSS

文章目录 CSS用于页面元素美化1.CSS引入1.1style方式1.2写入head中,通过写style然后进行标签选择器加载样式1.3外部样式表 2.CSS样式选择器2.1 元素选择器2.2 id选择器2.3 class选择器 3.CSS布局相关3.1 CSS浮动背景:先设计一些盒子因此,引出…

[图解]产品经理创新模式02改善信息流转

1 00:00:02,160 --> 00:00:04,000 第二种改进模式 2 00:00:04,010 --> 00:00:06,340 就是改善信息流转 3 00:00:06,550 --> 00:00:08,000 它是这样的 4 00:00:09,250 --> 00:00:11,290 当电脑系统越来越多的时候 5 00:00:11,300 --> 00:00:12,530 就会出现这…

linux centos stream 9 定时任务

定时任务,也称为计划任务,指在规定时间执行某项任务。在各操作系统中都有此功能,如Windows下的计划任务:定时关机等。 linux用户定时任务和系统定时任务是在Linux操作系统中用于自动执行特定任务的机制。它们基于cron(cron daemon)服务来完成的。 cron是linux系统中以后台…

Hive运行错误

Hive 文章目录 Hive错误日志错误SessionHiveMetaStoreClientql.Driver: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskerror: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster Please check …

DOS学习-目录与文件应用操作经典案例-type

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.使用 三.案例 1. 查看文本文件内容 2. 同时查看多个文本文件内容 3. 合并文…

可视化 | Seaborn中的矩阵图及示例

Seaborn是python提供的一个很棒的可视化库。它有几种类型的绘图,通过这些绘图,它提供了惊人的可视化能力。其中一些包括计数图,散点图,配对图,回归图,矩阵图等等。本文讨论了Seaborn中的矩阵图。 示例1&am…

第十三期Big Demo Day聚焦Web3前沿,FaceN.AI项目路演揭幕创新技术

第十三期Big Demo Day活动即将于2024年5月28日在香港数码港的CyberArena隆重举行。FaceN.AI将亮相本次Big Demo Day,参与精彩的项目路演,展示其在跨链去中心化数字身份、On-chain to Off-chain数据应用、DIDFi探索以及元宇宙与AIGC人格化发展等领域的领先…

HTML静态网页成品作业(HTML+CSS)——宠物狗介绍网页(3个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有3个页面。 二、作品演示 三、代…

下载CentOS系统或者下载Ubuntu系统去哪下?

因为Centos官网是挂在国外的服务器上,下载镜像时相比于国内的下载速度会慢很多,分享国内的镜像站去阿里巴巴下载Centos镜像。 首先分享两种下载方式,如果只想下载Centos那么就访问方式一的下载地址即可,如果还想下载其他的系统&a…

【算法设计与分析】基于Go语言实现动态规划法解决TSP问题

本文针对于最近正在学习的Go语言,以及算法课实验所需内容进行Coding,一举两得! 一、前言 由于这个实验不要求向之前的实验一样做到那种连线的可视化,故可以用图形界面不那么好实现的语言进行编写,考虑到Go语言的…

C# 结合 JS 暴改腾讯 IM SDK Demo

目录 关于腾讯 IM SDK Demo 范例运行环境 设计思路 服务端生成地址 IM 服务端接收 IM 客户端程序 小结 关于腾讯 IM SDK Demo 腾讯云即时通信 IM SDK 提供了单聊、群聊、关系链、消息漫游、群组管理、资料管理、直播弹幕等功能,并提供完备的 App 接入及管…

数据可视化第9天(利用wordcloud和jieba分析蝙蝠侠评论的关键字)

数据可以在这里下载 https://github.com/harkbox/DataAnalyseStudy WordCloud wordcloud可以很方便的生成词云图,方便的提供可视化可以直接使用pip install wordcloud进行安装如果使用的是Anaconda,可以使用conda install进行安装 下面看一个简单的例子 txt &qu…

【游戏引擎】Unity动画系统详解

持续更新。。。。。。。。。。。。。。。 【游戏引擎】Unity动画系统详解 Unity动画系统详解简介关键帧动画创建关键帧动画的步骤: Mecanim动画系统Mecanim的关键组件:使用Mecanim创建动画的步骤: 动画控制器动画控制器的高级功能&#xff1a…

【STM32CubeIDE】软件硬件SPI+六针OLED使用

前言 本文将介绍STM32 6针OLED的使用,分别使用软件和硬件两种SPI驱动方式,最终实现OLED显示TEST-ok字符和数字累加刷新显示 软件平台:STM32CubeIDEHAL库 硬件:STM32F103ZET6(正点原子战舰V3)六针OLED 题外话: 最…

Commons-Collections篇-CC1链小白基础分析学习

1.介绍 Apache Commons工具包中有⼀个组件叫做 Apache Commons Collections ,其封装了Java 的 Collection(集合) 相关类对象,它提供了很多强有⼒的数据结构类型并且实现了各种集合工具类,Commons Collections被⼴泛应⽤于各种Java应⽤的开发&…

Windows安装VMware(Broadcom)

1.安装前提 1.检查BIOS中是否开启了虚拟化技术。1.1 打开任务管理器,查看性能,CPU部分,虚拟化处于“已启用”状态。1.2 如果没有开启,则需要进入BIOS系统,将 Intel Virtualization Technology改为Enalble。2.下载VMwa…

卷积神经网络CNN动态演示和输出特征图计算公式

目录 一、卷积运算 1、卷积(Convolution) 2、填充(Padding) (1)Valid Padding (2)Same Padding 3、步长 4、卷积核大小为什么一般为奇数奇数? 5、卷积核kernel和…

笔记88:LeetCode_134_加油站

前言: 前言1:这个题的题目条件给的不太严谨,题目描述中说“如果存在解,则保证它是唯一的”,通过我的实践,我发现这句话的意思其实是本题的所有样例只有两种情况,无解/有唯一解;而不可…

迅睿 CMS 中开启【ionCube 扩展】的方法

有时候我们想要某种功能时会到迅睿 CMS 插件市场中找现有的插件,但会有些担心插件是否适合自己的需求。于是迅睿 CMS 考虑到这一层推出了【申请试用】,可以让用户申请试用 30 天,不过试用是有条件的,条件如下: php 版…