论文阅读——Flamingo

论文阅读——Flamingo

news/2025/10/27 1:02:10/文章来源:https://blog.csdn.net/weixin_43575791/article/details/135159876

Flamingo: a Visual Language Model for Few-Shot Learning

模型建模了给定交织的图片或支=视频的条件下文本y的最大似然：

1 Visual processing and the Perceiver Resampler

Vision Encoder：from pixels to features。

预训练并且冻结的NFNet，在我们的数据集上使用文本图片对的对比损失训练，然后把提取的特征打成向量。

Perceiver Resampler：from varying-size large feature maps to few visual tokens。

连接vision encoder 和 frozen language model。Vision Encoder得到的特征数量不一样，这部分处理成一样的。学习了预定义数量的潜在输入查询，这些查询被送到Transformer并交叉关注视觉特征。

2 Conditioning frozen language models on visual representations

在Perceiver Resampler产生的视觉表示的条件下，文本生成由Transformer解码器执行。

冻结LM blocks，在原始层之间插入gated cross-attention dense blocks。

tanh-gating mechanism：新加层的输出在将其从残差连接添加到输入表示之前乘以tanh(𝛼)。

3 训练时的一些说明

1）Multi-visual input support: per-image/video attention masking

通过掩蔽全文到图像的交叉注意力矩阵，该矩阵限制了模型在每个文本标记处看到的视觉标记。在给定的文本标记下，模型关注交错序列中出现在其之前的图像的视觉标记，而不是所有先前的图像。尽管模型一次只直接关注单个图像，但对所有先前图像的依赖性仍通过LM中的自我关注保持。重要的是，这种单图像交叉注意力方案允许模型无缝地推广到任何数量的视觉输入，无论在训练期间使用多少。特别是，当在交错数据集上进行训练时，我们每个序列最多只使用5个图像，但我们的模型能够在评估过程中受益于多达32对（或“镜头”）图像/视频和相应文本的序列。

2）Training on a mixture of vision and language datasets

三类数据集训练

M3W: Interleaved image and text dataset

Pairs of image/video and text

3）Multi-objective training and optimisation strategy：

在给定视觉输入的情况下，我们通过最小化每个数据集预期的文本负对数可能性的加权和来训练我们的模型：

4 附录一些内容：

原文内容还有很多细节。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/238878.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Hive Serde

Hive Serde

Hive Serde 目的： Hive Serde用来做序列化和反序列化，构建在数据存储和执行引擎之间，对两者实现解耦。应用场景： 1、hive主要用来存储结构化数据，如果结构化数据存储的格式嵌套比较复杂的时候，可…

阅读更多...

C++的面向对象学习(4)：对象的重要特性:构造函数与析构函数

C++的面向对象学习(4)：对象的重要特性:构造函数与析构函数

文章目录前言：将定义的类放在不同文件夹供主文件调用的方法一、构造函数与析构函数1.什么是构造函数和析构函数？2.构造函数和析构函数的语法3.构造函数的具体分类和调用方法①总的来说，构造函数分类为：默认无参构造、有参构造、拷…

阅读更多...

【RocketMQ每日一问】rocketmq事务消息原理？

【RocketMQ每日一问】rocketmq事务消息原理？

rocketmq事务消息原理？ RocketMQ的事务消息主要由三部分组成：半消息（Half Message）、执行本地事务和事务补偿机制。下面详细介绍这三部分： 半消息（Half Message）用户向RocketMQ发送半消息&…

阅读更多...

多臂老虎机算法步骤

多臂老虎机算法步骤

内容导航类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统…

阅读更多...

文件上传存储工具

文件上传存储工具

x-file-storage x-file-storage: 一行代码将文件存储到本地、FTP、SFTP、WebDAV、谷歌云、阿里云OSS、华为云OBS、七牛云Kodo、腾讯云COS、百度云 BOS、又拍云USS、MinIO、 AWS S3、金山云 KS3、美团云 MSS、京东云 OSS、天翼云 OOS、移动云 EOS、沃云 OSS、网易数帆 NOS、U…

阅读更多...

JavaScript中concat函数和“+”的区别

JavaScript中concat函数和“+”的区别

concat方法用于连接两个字符串，返回一个新字符串，不改变原字符串 var s1 abola; var s2 ABOLA;s1.concat(s2) // s1 // 该方法可以接受多个参数 ，如果参数不是字符串，concat方法会将其先转为字符串，然后再连接 …

阅读更多...

antdv中的slider组件会默认将min值传递给value

antdv中的slider组件会默认将min值传递给value

如果是使用响应式变量，会将min的值传递到v-model对应的变量里

阅读更多...

最大化控制资源成本 - 华为OD统一考试

最大化控制资源成本 - 华为OD统一考试

OD统一考试题解： Java / Python / C++ 题目描述公司创新实验室正在研究如何最小化资源成本，最大化资源利用率，请你设计算法帮他们解决一个任务分布问题:有taskNum项任务，每人任务有开始时间(startTime) ，结更时间(endTme) 并行度(paralelism) 三个属性，并行度是指这个…

阅读更多...

vivado 主时钟分析

vivado 主时钟分析

主时钟主时钟是通过输入端口或千兆位进入设计的板时钟收发器输出引脚（例如恢复的时钟）。主时钟只能由create_clock命令定义。主时钟必须附加到网表对象。此网表对象表示中的点所有时钟边沿源自其并在时钟树上向下游传播的设计。换句话说，主…

阅读更多...

Android Realm数据库使用

Android Realm数据库使用

当我们的app有数据需要保存到本地缓存时，可以使用file，sharedpreferences，还有sqlite。 sharedpreferences其实使用xml的方式，以键值对形式存储基本数据类型的数据。对于有复杂筛选查询的操作，file和sharedpreference…

阅读更多...

[Angular] 笔记 7：模块

[Angular] 笔记 7：模块

Angular 中的模块(modules) 是代码在逻辑上的最大划分，它类似于C, C# 中的名字空间： module 可分为如下几种不同的类型： 使用模块的第一个原因是要对代码进行逻辑上的划分，第二个非常重要的原因是为了实现懒惰加载(lazy loading)&…

阅读更多...

位运算：消失的两个数字

位运算：消失的两个数字

题目描述： 给定一个数组，包含从 1 到 N 所有的整数，但其中缺了两个数字。你能在 O(N) 时间内只用 O(1) 的空间找到它们吗？ 以任意顺序返回这两个数字均可。示例 1: 输入: [1] 输出: [2,3] 示例 2: 输入: [2,3] 输出: [1,4]…

阅读更多...

面试每日三题

面试每日三题

MySQL篇 MySQL为什么使用B树索引 B树每个节点可以包含关键字和对应的指针，即B树的每个节点都会存储数据，随机访问比较友好，B树的叶子节点之间是无指针相连接的 B树所有关键字都存储在叶子节点上，非叶子节点只存储索引列和指向子…

阅读更多...

计算机网络应用层上 | 域名解析系统DNS 文件传输协议FTP,NFS 万维网URL HTTP HTML

计算机网络应用层上 | 域名解析系统DNS 文件传输协议FTP,NFS 万维网URL HTTP HTML

文章目录 1 域名系统DNS1.1 域名vsIP？1.2 域名结构1.3 域名到IP的解析过程域名服务器类型 2 文件传送协议2.1 FTP 文件传输协议2.2 NFS 协议2.3 简单文件传送协议 TFTP 3 万维网WWW3.1 统一资源定位符URL3.2 超文本传送协议HTTP3.2.1 HTTP工作流程3.2.2 HTTP报文结构…

阅读更多...

真实进行软件测试面试中，自动化测试面试到底会问那些?

真实进行软件测试面试中，自动化测试面试到底会问那些?

作者：川石信息链接：https://www.zhihu.com/question/342170872/answer/813076226 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。自动化测试面试1： 1、使用什么测试框架做的上…

阅读更多...

linux环境下从一个服务器复制文件到另一个服务器

linux环境下从一个服务器复制文件到另一个服务器

在Linux中使用scp命令可以将文件或目录从一台服务器复制到另外一台服务器。 # 从源服务器复制文件到目标服务器 scp /path/to/source_file usernamedestination:/path/to/destination_directory # 从源服务器复制目录及其内容到目标服务器 scp -r /path/to/source_directory us…

阅读更多...

基于LightGBM的肺癌分类模型：从预测到个体化治疗

基于LightGBM的肺癌分类模型：从预测到个体化治疗

一、引言肺癌作为全球范围内主要死因之一，对人类健康产生了巨大威胁。准确的肺癌分类是制定有效治疗和预后评估的基础。传统的肺癌分类方法，如组织学类型和分期，虽然在临床实践中被广泛应用，但存在着诊断标准不一致、主观性强以及…

阅读更多...

7.串口通信uart编写思路及自定义协议

7.串口通信uart编写思路及自定义协议

前言： 串口是很重要的，有许多模块通信接口就是串口，例如gps模块，蓝牙模块，wifi模块还有一些精度比较高的陀螺仪模块等等，所以学会了串口之后，这些听起来很牛批的模块都能够用起来了。此外&#…

阅读更多...

MySQL 8.0 InnoDB Tablespaces之File-per-table tablespaces（单独表空间）

MySQL 8.0 InnoDB Tablespaces之File-per-table tablespaces（单独表空间）

文章目录 MySQL 8.0 InnoDB Tablespaces之File-per-table tablespaces（单独表空间）File-per-table tablespaces（单独表空间）相关变量：innodb_file_per_table使用TABLESPACE子句指定表空间变量innodb_file_per_table设置…

阅读更多...

Git系统有哪些优势

Git系统有哪些优势

在现在的这个软件开发领域，版本控制是一项非常重要的工作。Git作为比较流行的分布式版本控制系统，他有着独特的优势成为了很多开发者们的首选。那Git系统都有哪些优势呢，下面我以自己的理解简单的介绍一下。分布式版本控制的优势 Git用的是…

阅读更多...

最新文章