【论文笔记】Flamingo: a Visual Language Model for Few-Shot Learning

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Flamingo: a Visual Language Model for Few-Shot Learning
作者: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob L Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikołaj Bińkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karén Simonyan
发表: Advances in Neural Information Processing Systems 35 (NeurIPS 2022)
arxiv: https://arxiv.org/abs/2204.14198

基本信息

摘要

构建仅使用少量标注示例即可快速适应新任务的模型,是跨模态机器学习研究的一个开放挑战。

我们介绍了Flamingo,这是一系列具有这种能力的视觉语言模型(VLM)。
我们提出了关键架构创新:

  1. 连接强大的预训练视觉和语言模型。
  2. 处理任意交织的视觉和文本数据序列。
  3. 无缝地摄入图像或视频作为输入。

得益于其灵活性,Flamingo模型可以在包含任意交织文本和图像的大规模多模态网络语料库上进行训练,这对于赋予它们上下文少样本学习能力至关重要。

我们对我们的模型进行了彻底的评估,探索并测量了它们快速适应各种图像和视频任务的能力。

这些任务包括开放性任务,如视觉问答,其中模型被提示一个问题,它必须回答;字幕任务,评估描述场景或事件的能力;以及封闭性任务,如多项选择视觉问答。对于这个范围内的任何任务,单个Flamingo模型可以通过提示特定任务的示例,仅通过少样本学习实现新的最先进水平。

在众多基准测试中,Flamingo优于在数以千计的任务特定数据上微调的模型。

主要贡献

  1. 引入了Flamingo系列VLM,它可以从少量输入/输出示例中执行各种多模态任务(如标题生成、视觉对话或视觉问答)。得益于架构创新,Flamingo模型可以高效地接受任意交织的视觉数据和文本作为输入,并以开放式生成文本。
  2. 定量评估了Flamingo模型如何通过少样本学习适应各种任务。
  3. Flamingo在16个多模态语言和图像/视频理解任务上达到了少样本学习的SOTA水平。

概览图表

选自Flamingo-80B的输入和输出示例。Flamingo能够通过少量提示快速适应各种图像/视频理解任务(顶部)。开箱即用,Flamingo还具备多图像视觉对话功能(底部)。

Flamingo结果概述。左:我们最大的模型,称为Flamingo,在16个任务中有6个优于最先进的微调模型,且未进行微调。对于9个已发布少量样本结果的任务,Flamingo设定了新的少量样本最佳水平。注意:我们省略了第16个基准RareAct,因为它是一个零样本基准,没有可比较的微调结果。右:Flamingo的性能随着模型大小和样本数量的增加而提高。

方法

整体架构

Flamingo架构概述。Flamingo是一种视觉语言模型(VLM)家族,它以视觉数据与文本交织的形式作为输入,并产生自由形式的文本作为输出。

  • Visual Encoder: NFNet-F6,由像素图像得到视觉特征。
  • Perceiver Resampler: 类似 Perceiver 和 DETR,转换视觉特征到固定数量的视觉输出。

GATED XATTN-DENSE layers

GATED XATTN-DENSE layers。为了使语言模型对视觉输入进行条件化,我们在现有的预训练和冻结的语言模型层之间插入新的交叉注意力层。这些层的键和值来自视觉特征,而查询来自语言输入。随后是密集的前馈层。这些层是门控的,以确保在初始化时语言模型保持完整,从而提高稳定性和性能。

在各个 LM block 之间插入 GATED XATTN-DENSE 来获取视觉特征。

Multi-visual input support: per-image/video attention masking

通过 Mask 限制每个文本 token 能够看到的视觉 token。模型仅能关注到之前的一个视觉 token,而非前文出现过的所有视觉 token。这一限制比允许模型直接注意所有视觉 token 效果更好。

训练

使用三类数据进行训练:

  1. M3W,交错图像和文本数据。
  2. ALIGN,图像文本对数据。
  3. LTIP,视频文本对数据。

实验

主实验

与SOTA方案的比较

Flamingo模型在广泛的图像(I)和视频(V)理解任务中,通过少样本学习达到了SOTA水平,显著优于之前最佳的无样本和少样本方法,只需四个示例即可。更重要的是,仅使用32个示例且未调整任何模型权重,Flamingo在七个任务上优于当前最佳方法——这些方法是在数千个标注示例上微调的。

微调Flamingo与SOTA方案的比较

作者在Flamingo使用少量样本学习未能达到SOTA的九项任务上对Flamingo进行了微调。在其中的五项任务上,Flamingo创造了新的SOTA,超越了使用诸如模型集成或特定领域指标优化(例如CIDEr优化)等技巧的方法(标记为†)。

消融实验

消融实验

  1. 训练数据混合的重要性。(i)对训练数据进行了消融实验,特别是对M3W图文交织数据的有无进行了消融,发现图文交织数据能提供大约17%的提升。
  2. 视觉训练的冻结LM。(iii)不使用tanh gating会导致约4.2%的性能下降,且会使训练不稳定。(iv)使用GATED XATTN-DENSE比使用原始的Transformer交叉注意力效果更好。
  3. 计算/内存与性能权衡。(v)添加新的GATED XATTN-DENSE块的频率越高,模型效果越好,但模型的可训练参数数量和时间复杂度会显著增加。每四个块插入一次可以加速训练66%,同时整体分数仅下降1.9%。(vi)MLP和原始Transformer在性能和速度上都不如Perceiver。
  4. 视觉编码器。(vii)NFNet-F6的效果比CLIP ViT-L/14好5.8%,比NFNet-F0好8.0%。
  5. 冻结LM组件可防止灾难性遗忘。(viii)训练随机初始化的LM层,性能会下降12.9%。微调预训练LM也会导致性能下降8.0%。这表明模型出现了“灾难性遗忘”,即模型在训练新目标时逐渐忘记了其预训练。在本文的设置中,冻结语言模型是比在混合中使用预训练数据集(MassiveText)进行训练更好的替代方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/55611.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十四章 Redis之全局唯一ID(分布式集群)

目录 一、概念 ‌二、全局唯一ID的生成方法‌ 三、Redis生成全局ID 3.1. 生成策略 3.2. 代码 一、概念 全局唯一ID是指在分布式系统中,每个实体都有一个唯一的标识符,确保在不同的节点或服务之间能够唯一标识一个实体。这种唯一性对于数据的一致性…

Vue项目开发注意事项

事项一:项目代码放在本地怎么运行起来 1、首先确定项目对应的node和npm版本 node下载地址 Index of /dist/https://nodejs.org/dist/ node 与 npm版本对应关系 Node.js — Node.js Releases 2、node卸载的时候,会自动把对应的npm卸载掉 情况1&…

2024-你自学网络安全的顺序可能一直是反的!

作为一名在网络安全领域工作了八年的技术人员,我想分享一些经验给2024年学习黑客技术的朋友们。 千万不要毫无基础就开始学黑客!一定要先了解相关的信息和知识! 对于刚入行的朋友,我建议先从网络安全或Web安全/渗透测试入手,这些方向市场需求…

【优选算法】(第二十八篇)

目录 K个⼀组翻转链表(hard) 题目解析 讲解算法原理 编写代码 两数之和(easy) 题目解析 讲解算法原理 编写代码 K个⼀组翻转链表(hard) 题目解析 1.题目链接:. - 力扣(Leet…

掌握RocketMQ——基本概念和系统架构

简述RcoketMQ 概念:RocketMQ是一个开源的分布式消息中间件,由阿里巴巴开发并贡献给Apache软件基金会。它用于处理高吞吐量、低延迟的消息传递,并广泛应用于现代分布式系统中。 1 基本概念 1.1 消息 (Message) 概念:消息是信息传…

Ubuntu24.04远程开机

近来在几台机器上鼓捣linux桌面,顺便研究一下远程唤醒主机。 本篇介绍Ubuntu系统的远程唤醒,Windows系统的唤醒可搜索相关资料。 依赖 有远程唤醒功能的路由器(当前一般都带这个功能)有线连接主机(无线连接有兴趣朋友…

Pikachu-Sql-Inject -基于boolian的盲注

基于boolean的盲注: 1、没有报错信息显示; 2、不管是正确的输入,还是错误的输入,都只显示两种情况,true or false; 3、在正确的输入下,输入and 1 1/and 1 2发现可以判断; 布尔盲注常用函数&…

YOLO11改进|注意力机制篇|引入反向残差移动快iRMB

目录 一、【iRMB】注意力机制1.1【iRMB】注意力介绍1.2【iRMB】核心代码 二、添加【iRMB】注意力机制2.1STEP12.2STEP22.3STEP32.4STEP4 三、yaml文件与运行3.1yaml文件3.2运行成功截图 一、【iRMB】注意力机制 1.1【iRMB】注意力介绍 反向残差移动快iRMB结构如下所示&#xf…

【Canvas与标牌】盾形银底红带Best Quality Premium标牌

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>BestQulityPremium金属牌重制版Draft2</title><style type&…

雷池+frp 批量设置proxy_protocol实现真实IP透传

需求 内网部署safeline&#xff0c;通过frp让外网访问内部web网站服务&#xff0c;让safeline记录真实外网攻击IP safeline 跟 frp都部署在同一台服务器&#xff1a;192.168.2.103 frp client 配置 frpc只需要在https上添加transport.proxyProtocolVersion "v2"即…

旅游管理智能化转型:SpringBoot系统设计与实现

第四章 系统设计 4.1系统结构设计 对于本系统的开发设计&#xff0c;先自上向下&#xff0c;将一个完整的系统分解成许多个小系统来进行实现&#xff1b;再自下向上&#xff0c;将所有的“零件”组装成一个大的、完整的系统。因此这里面的许多个小功能块都要对将要实现的功能进…

Pikachu-Sql-Inject - 基于时间的盲注

基于时间的盲注&#xff1a; 就是前端的基于time 的盲注&#xff0c;什么错误信息都看不到&#xff0c;但是还可以通过特定的输入&#xff0c;判断后台的执行时间&#xff0c;从而确定注入。 mysql 里函数sleep() 是延时的意思&#xff0c;sleep(10)就是数据库延时10 秒返回内…

Android Framework AMS(02)AMS启动及相关初始化5-8

该系列文章总纲链接&#xff1a;专题总纲目录 Android Framework 总纲 本章关键点总结 & 说明&#xff1a; 说明&#xff1a;本章节主要涉及systemserver启动AMS及初始化AMS相关操作。同时由于该部分内容过多&#xff0c;因此拆成2个章节&#xff0c;本章节是第二章节&…

18734 拓扑排序

### 思路 1. **建模问题**&#xff1a;将课程和依赖关系建模为有向图&#xff0c;其中课程是节点&#xff0c;依赖关系是有向边。 2. **选择算法**&#xff1a;使用拓扑排序算法来确定课程的学习顺序。由于需要确保输出唯一性&#xff0c;同等条件下编号小的课程排在前面&…

将自己写好的项目部署在自己的云服务器上

准备工作 这里呢我要下载的终端软件是Xshell 如图&#xff1a; 自己准备好服务器&#xff0c;我这里的是阿里云的服务器&#xff0c; 如图&#xff1a; 这两个准备好之后呢&#xff0c;然后对我们的项目进行打包。 如图&#xff1a; 这里双击打包就行了。 找到自己打成jar包…

桌面时钟哪个好?今年最热门的桌面时钟主题

桌面时钟可以让我们更方便的知道当前的时间&#xff0c;日期&#xff0c;因为它非常直观的展示在桌面上&#xff0c;当我们需要看时间的时候&#xff0c;一眼就可以看到了&#xff0c;这是一个非常便捷的功能&#xff0c;我们一起来看下《芝麻时钟》&#xff08;下载地址&#…

停车位识别数据集 图片数量12416张YOLO,xml和txt标签都有; 2类类别:space-empty,space-occupied;

YOLO停车位识别 图片数量12416张&#xff0c;xml和txt标签都有&#xff1b; 2类类别&#xff1a;space-empty&#xff0c;space-occupied&#xff1b; 用于yolo&#xff0c;Python&#xff0c;目标检测&#xff0c;机器学习&#xff0c;人工智能&#xff0c;深度学习&#xff0…

vSAN06:ESA与OSA对比、ESA安装、新架构、工作方式、自动策略管理、原生快照、数据压缩、故障处理

目录 vSAN ESAvSAN ESA 安装ESA新架构ESA工作方式ESA自动策略管理自适应RAID5策略 原生快照支持数据压缩的改进ESA故障处理 vSAN ESA vSAN ESA 安装 流程和OSA完全一致&#xff0c;但要注意要勾选启用vSAN ESA ESA和OSA的底层架构不一样&#xff0c;但是UI上是一致的。 生产环…

【2024最新】华为HCIE认证考试流程

HCIE是华为认证体系中最高级别的ICT技术认证&#xff0c;表示通过认证的人具有ICT领域专业知识和丰富实践经验。 HCIE认证方向&#xff1a;最高认证级别HCIE的技术方向有13个 下面以HCIE-Datacom为例给大家介绍一下&#xff1a; HCIE-Datacom认证考试流程&#xff1a; 1.笔试…

Hive3.x版本调优总结

文章目录 第 1 章 Explain 查看执行计划&#xff08;重点&#xff09;1.1 创建测试用表1&#xff09;建大表、小表和 JOIN 后表的语句2&#xff09;分别向大表和小表中导入数据 1.2 基本语法1.3 案例实操 第 2 章 Hive 建表优化2.1 分区表2.1.1 分区表基本操作2.1.2 二级分区2.…