论文阅读——Flamingo

Flamingo: a Visual Language Model for Few-Shot Learning

模型建模了给定交织的图片或支=视频的条件下文本y的最大似然:

1 Visual processing and the Perceiver Resampler

Vision Encoder:from pixels to features。

预训练并且冻结的NFNet,在我们的数据集上使用文本图片对的对比损失训练,然后把提取的特征打成向量。

Perceiver Resampler:from varying-size large feature maps to few visual tokens。 

连接vision encoder 和 frozen language model。Vision Encoder得到的特征数量不一样,这部分处理成一样的。学习了预定义数量的潜在输入查询,这些查询被送到Transformer并交叉关注视觉特征。

2 Conditioning frozen language models on visual representations

在Perceiver Resampler产生的视觉表示的条件下,文本生成由Transformer解码器执行。

冻结LM blocks,在原始层之间插入gated cross-attention dense blocks。     

tanh-gating mechanism:新加层的输出在将其从残差连接添加到输入表示之前乘以tanh(𝛼)。

3 训练时的一些说明

1)Multi-visual input support: per-image/video attention masking

通过掩蔽全文到图像的交叉注意力矩阵,该矩阵限制了模型在每个文本标记处看到的视觉标记。在给定的文本标记下,模型关注交错序列中出现在其之前的图像的视觉标记,而不是所有先前的图像。尽管模型一次只直接关注单个图像,但对所有先前图像的依赖性仍通过LM中的自我关注保持。重要的是,这种单图像交叉注意力方案允许模型无缝地推广到任何数量的视觉输入,无论在训练期间使用多少。特别是,当在交错数据集上进行训练时,我们每个序列最多只使用5个图像,但我们的模型能够在评估过程中受益于多达32对(或“镜头”)图像/视频和相应文本的序列。

2)Training on a mixture of vision and language datasets

三类数据集训练

M3W: Interleaved image and text dataset

Pairs of image/video and text

3)Multi-objective training and optimisation strategy:

在给定视觉输入的情况下,我们通过最小化每个数据集预期的文本负对数可能性的加权和来训练我们的模型:

4 附录一些内容:

原文内容还有很多细节。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/238878.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++的面向对象学习(4):对象的重要特性:构造函数与析构函数

文章目录 前言:将定义的类放在不同文件夹供主文件调用的方法一、构造函数与析构函数1.什么是构造函数和析构函数?2.构造函数和析构函数的语法3.构造函数的具体分类和调用方法①总的来说,构造函数分类为:默认无参构造、有参构造、拷…

【RocketMQ每日一问】rocketmq事务消息原理?

rocketmq事务消息原理? RocketMQ的事务消息主要由三部分组成:半消息(Half Message)、执行本地事务和事务补偿机制。下面详细介绍这三部分: 半消息(Half Message)用户向RocketMQ发送半消息&…

多臂老虎机算法步骤

内容导航 类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统…

antdv中的slider组件会默认将min值传递给value

如果是使用响应式变量,会将min的值传递到v-model对应的变量里

最大化控制资源成本 - 华为OD统一考试

OD统一考试 题解: Java / Python / C++ 题目描述 公司创新实验室正在研究如何最小化资源成本,最大化资源利用率,请你设计算法帮他们解决一个任务分布问题:有taskNum项任务,每人任务有开始时间(startTime) ,结更时间(endTme) 并行度(paralelism) 三个属性,并行度是指这个…

vivado 主时钟分析

主时钟 主时钟是通过输入端口或千兆位进入设计的板时钟收发器输出引脚(例如恢复的时钟)。主时钟只能由create_clock命令定义。主时钟必须附加到网表对象。此网表对象表示中的点所有时钟边沿源自其并在时钟树上向下游传播的设计。换句话说,主…

Android Realm数据库使用

当我们的app有数据需要保存到本地缓存时,可以使用file,sharedpreferences,还有sqlite。 sharedpreferences其实使用xml的方式,以键值对形式存储基本数据类型的数据。对于有复杂筛选查询的操作,file和sharedpreference…

[Angular] 笔记 7:模块

Angular 中的模块(modules) 是代码在逻辑上的最大划分,它类似于C, C# 中的名字空间: module 可分为如下几种不同的类型: 使用模块的第一个原因是要对代码进行逻辑上的划分,第二个非常重要的原因是为了实现懒惰加载(lazy loading)&…

面试每日三题

MySQL篇 MySQL为什么使用B树索引 B树每个节点可以包含关键字和对应的指针,即B树的每个节点都会存储数据,随机访问比较友好,B树的叶子节点之间是无指针相连接的 B树所有关键字都存储在叶子节点上,非叶子节点只存储索引列和指向子…

计算机网络 应用层上 | 域名解析系统DNS 文件传输协议FTP,NFS 万维网URL HTTP HTML

文章目录 1 域名系统DNS1.1 域名vsIP?1.2 域名结构1.3 域名到IP的解析过程域名服务器类型 2 文件传送协议2.1 FTP 文件传输协议2.2 NFS 协议2.3 简单文件传送协议 TFTP 3 万维网WWW3.1 统一资源定位符URL3.2 超文本传送协议HTTP3.2.1 HTTP工作流程3.2.2 HTTP报文结构…

真实进行软件测试面试中,自动化测试面试到底会问那些?

作者:川石信息 链接:https://www.zhihu.com/question/342170872/answer/813076226 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 自动化测试面试1: 1、使用什么测试框架做的上…

7.串口通信uart编写思路及自定义协议

前言: 串口是很重要的,有许多模块通信接口就是串口,例如gps模块,蓝牙模块,wifi模块还有一些精度比较高的陀螺仪模块等等,所以学会了串口之后,这些听起来很牛批的模块都能够用起来了。此外&#…

MySQL 8.0 InnoDB Tablespaces之File-per-table tablespaces(单独表空间)

文章目录 MySQL 8.0 InnoDB Tablespaces之File-per-table tablespaces(单独表空间)File-per-table tablespaces(单独表空间)相关变量:innodb_file_per_table使用TABLESPACE子句指定表空间变量innodb_file_per_table设置…

Git系统有哪些优势

在现在的这个软件开发领域,版本控制是一项非常重要的工作。Git作为比较流行的分布式版本控制系统,他有着独特的优势成为了很多开发者们的首选。那Git系统都有哪些优势呢,下面我以自己的理解简单的介绍一下。 分布式版本控制的优势 Git用的是…

标准地址门牌管理系统:提升地址管理效率与准确性的关键

在信息化社会的今天,地址管理的重要性日益凸显。无论是商业活动、物流配送,还是公共安全,都需要精确、高效的地址管理。然而,传统地址管理方式往往存在地址不规范、信息不全等问题,这无疑增加了管理难度和工作量。为此…

linux 中 C++的环境搭建以及测试工具的简单介绍

文章目录 makefleCMakegdb调试 与 coredumpValgrind 内存检测gtest 单元测试 makefile 介绍 安装 : sudo apt install make makefile 的规则: 举例说明 包括:目标文件 、 依赖文件 、 生成规则 使用 : make make clean CMake : CMake是一个…

046.Python包和模块_导入相关

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉&…

『番外篇五』SwiftUI 进阶之如何动态获取任意视图的 tag 和 id 值

概览 在某些场景下,我们需要用代码动态去探查 SwiftUI 视图的信息。比如任意视图的 id 或 tag 值: 如上图所示:我们通过动态探查技术在运行时将 SwiftUI 特定视图的 tag 和 id 值显示在了屏幕上。 这是如何做到的呢? 在本篇博文,您将学到如下内容: 概览1. “如意如意,…

手敲MyBatis(十三章)-返回Insert操作自增索引值

1.目的 这一章的目的主要是插入语句以后返回插入记录的id,因为插入语句可分为要返回记录id,不要返回记录id的以及不同数据源类型执行的时机也不同(如:oracle不支持主键,需要先插入序列再增加,Mysql支持主键…

SQL指南:掌握日期函数来查询和管理数据

文章目录 1. 引言2. 建立数据库表2.1 建表语句2.2 数据插入 查询案例3.1 查询当前日期的订单3.2 查询过去一周内的订单3.3 查询明天的日期3.4 查询今年的订单3.5 查询特定月份的订单 总结 1. 引言 在数据库管理中,处理日期和时间是一项基本但重要的任务。本指南将通…