Retrieval-Augmented Multimodal Language Modeling

本文是LLM系列文章,针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。

检索增强的多模态语言建模

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 定性结果
  • 6 结论

摘要

最近的多模态模型,如DALL-E和CM3,在文本到图像和图像到文本生成方面取得了显著进展。然而,这些模型将其所有知识(例如,埃菲尔铁塔的外观)存储在模型参数中,需要越来越大的模型和训练数据来获取更多的知识。为了以更具可扩展性和模块化的方式集成知识,我们提出了一种检索增强的多模态模型,该模型使基础多模态模型(生成器)能够引用检索器从外部存储器(例如,网络上的文档)中提取的相关文本和图像。具体来说,对于检索器,我们使用预训练的CLIP,对于生成器,我们在LAION数据集上训练CM3 Transformer。我们得到的模型名为Retrieval Augmented CM3(RA-CM3),是第一个可以检索和生成文本和图像的多模态模型。我们发现,RA-CM3在图像和字幕生成任务上显著优于基线多模态模型,如DALL-E和CM3(MS-COCO的12个FID和17个CIDEr改进),同时训练所需的计算量要少得多(<DALLE的30%)。此外,我们发现RA-CM3表现出了新的能力,如忠实的图像生成和多模态上下文学习(例如,从演示中生成图像)

1 引言

2 相关工作

3 方法

4 实验

5 定性结果

6 结论

我们提出了一种检索增强的多模态模型,该模型可以检索和引用用于生成图像和文本的外部存储器。具体来说,我们使用预训练的CLIP实现了一个多模态检索器,并使用CM3架构设计了一个检索增强生成器。我们得到的模型名为RA-CM3,在图像和字幕生成任务上都优于现有的多模态模型,同时需要更少的训练计算。此外,RA-CM3表现出新的能力,如知识密集型图像生成和多模态上下文学习。
这项工作旨在为多模态模型提供一个通用的模块化检索增强框架。我们相信这开辟了各种令人兴奋的研究途径,例如改进多模态检索器和生成器,将模态扩展到图像和文本之外,以及进一步研究多模态提示和上下文学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/47144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型一、大语言模型的背景和发展

文章目录 背景模型1 文本LLM模型ChatGLMChatGLM2-6BChinese-LLaMA-Alpaca&#xff1a;Chinese-LLaMA-Alpaca-2&#xff1a;Chinese-LlaMA2&#xff1a;Llama2-Chinese&#xff1a;OpenChineseLLaMA&#xff1a;BELLE&#xff1a;Panda&#xff1a;Robin (罗宾):Fengshenbang-LM…

双亲委派机制

概念 按照类加载器的层级关系逐层进行委派&#xff0c;比如说当我们需要加载一个class文件的时候&#xff0c;首先会去把这个class文件的查询和加载委派给父加载器去执行&#xff0c;如果父加载器都无法加载&#xff0c;那么再尝试自己来加载这样一个class。 好处 安全性&…

【HCIP】生成树--STP

一、STP 1.产生背景 在星状拓扑或者树形拓扑中&#xff0c;当某个设备或者某条链路出现故障&#xff0c;就会导致数据不能正常转发&#xff0c;出现单点故障的问题。 为了防止出现单点故障&#xff0c;一般需要环形拓扑来保证链路的冗余性&#xff0c;当某条链路出现故障&…

Wlan安全——认证与加密方式(WPA/WPA2)

目录 终端认证技术 WEP认证 PSK认证 802.1x认证与MAC认证 Portal认证 数据加密技术 WEP加密 TKIP加密 CCMP加密 TKIP和CCMP生成密钥所需要的密钥信息 802.11安全标准 WEP共享密钥认证、加密工作原理 WEP共享密钥认证 WEP加解密过程 PSK认证以及生成动态密钥的工…

CentOS系统环境搭建(十四)——CentOS7.9安装elasticsearch-head

centos系统环境搭建专栏&#x1f517;点击跳转 关于node的安装请看上一篇CentOS系统环境搭建&#xff08;十三&#xff09;——CentOS7安装nvm&#xff0c;&#x1f517;点击跳转。 CentOS7.9安装elasticsearch-head 文章目录 CentOS7.9安装elasticsearch-head1.下载2.解压3.修…

【Git游戏】通过游戏重新学习Git

在提交树上移动 HEAD HEAD:一个标志符号&#xff08;通常情况下指向当前分支&#xff0c;间接指向当前最新的提交记录&#xff09; 可以通过git checkout commitID从而指向提交记录 commitID 本身是一串哈希值&#xff08;基于 SHA-1&#xff0c;共 40 位&#xff09; 我们在…

npm/Node.js介绍及快速安装 - Linux CentOS

1.npm介绍 npm&#xff08;Node Package Manager&#xff09;是 Node.js 的包管理器。它是一个用于安装、管理和发布 JavaScript 包的工具。npm 使开发者能够轻松地查找和安装现有的 JavaScript 模块&#xff0c;以及创建和共享自己的模块。 以下是 npm 的一些主要功能和概念…

在thinkphp6.0框架下通过什么命令可以生成index控制器和user模拟器?

在ThinkPHP 6.0框架下&#xff0c;可以使用命令行工具生成控制器和模型。以下是生成Index控制器和User模型的命令示例&#xff1a; 生成Index控制器&#xff1a; php think make:controller Index 以上命令会在app目录下的controller文件夹中生成一个名为Index.php的控制器文件…

【广州华锐互动】3D空间编辑器:一款简洁易用的VR/3D在线编辑工具

随着虚拟现实技术的不断发展&#xff0c;数字孪生技术的应用已经被广泛应用于产品设计和制作中&#xff0c;能充分发挥企业应用3D建模的优势&#xff0c;凸显了三维设计的价值&#xff0c;在生产阶段也能够充分发挥3D模型的作用。 如今&#xff0c;广州华锐互动开发的3D空间编辑…

MySQL——基础——自连接

一、自连接 自连接查询语法&#xff1a; SELECT 字段列表 FROM 表A 别名A JOIN 表A 别名B ON 条件...; 自连接查询,可以是内连接查询,也可以是外连接查询 二、自连接演示 1.查询员工 及其 所属领导的名字(将一张表看作是两张同样的表,一张是员工信息表,另一张是老板信息表。员…

线程池的实现全过程v1.0版本(手把手创建,看完必掌握!!!)

目录 线程池的实现过程 线程池的创建 添加任务队列 线程进行处理任务 线程池资源释放 线程池完整程序 线程池v1.0版本总结 线程池的实现过程 实现线程池首先要确定线程池有哪些属性 线程池中线程的数量线程池中已工作的线程数量任务队列任务队列的大小任务队列的锁 还…

Android笔记:在原生App中嵌入Flutter

首先有一个可以运行的原生项目 第一步&#xff1a;新建Flutter module Terminal进入到项目根目录&#xff0c;执行flutter create -t module ‘module名字’例如&#xff1a;flutter create -t module flutter-native 执行完毕&#xff0c;就会发现项目目录下生成了一个modu…

Android Drawable转BitmapDrawable再提取Bitmap,Kotlin

Android Drawable转BitmapDrawable再提取Bitmap&#xff0c;Kotlin <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"…

排序算法:插入排序

插入排序的思想非常简单&#xff0c;生活中有一个很常见的场景&#xff1a;在打扑克牌时&#xff0c;我们一边抓牌一边给扑克牌排序&#xff0c;每次摸一张牌&#xff0c;就将它插入手上已有的牌中合适的位置&#xff0c;逐渐完成整个排序。 插入排序有两种写法&#xff1a; 交…

MySQL——基础——内连接

一、内连接查询语法 隐式内连接 SELECT 字段列表 FROM 表1&#xff0c;表2 WHERE 条件...; 显示内连接 SELECT 字段列表 FROM 表1 [INNER] JOIN 表2 ON 连接条件...; 内连接查询的是两张表交集的部分 二、内连接演示 1.查询每一个员工的姓名&#xff0c;及关联的部门的名称…

mysql 数据库定义语言(DDL)

目录 库的操作 数据库创建 数据库编码集 数据库删除 数据库修改 数据库查询 数据库备份 表的操作 表的创建 查询表 删除表 修改表 库的操作 这里先声明一下&#xff0c;这篇文章主要是讲数据库表的定义操作&#xff0c;也就是 DDL&#xff0c;只要是对数据库以及表…

【Leetcode】116.填充每个节点的下一个右侧节点指针

一、题目 1、题目描述 给定一个 完美二叉树 ,其所有叶子节点都在同一层,每个父节点都有两个子节点。二叉树定义如下: struct Node {int val;Node *left;Node *right;Node *next; }填充它的每个 next 指针,让这个指针指向其下一个右侧节点。如果找不到下一个右侧节点,则…

Linux学习之ftp安装、vsftpd安装和使用

ftp需要两个端口&#xff1a; 数据端口 命令端口 ftp有两种模式&#xff1a; 被动模式&#xff1a;建立命令连接之后&#xff0c;服务器等待客户端发起请求。 主动模式&#xff1a;建立命令连接之后&#xff0c;服务器主动向客户端发起数据连接&#xff0c;因为客户端可能有防火…

Java中的装箱和拆箱以及经典的面试题:1.三元运行符是一个整体,精度自动转换,if_else是单独的。2.自动装箱和拆箱的底层源码

1.在JDK1.5之前是手动装箱和手动拆箱的 手动装箱的2种实现方式&#xff1a; &#xff08;1&#xff09;Integer.valueOf(n) &#xff08;2&#xff09;new Integer(n) 手动拆箱的实现方法&#xff1a;integer.intValue() 2.在JDK1.5以后(包含1.5)是自动装箱和自动拆箱的 自动装…

12312321312

目录 层次分析法(AHP) 基本步骤 建立层次模型 构造判断矩阵 一致性检验 求得权重 填表得结果 一点补充 详细做法补充 特征向量含义思考 一些问题 优劣解距离法(TOPSIS) 基本思想 模型步骤 数据处理 指标正向化 标准化处理 计算得分 *结果处理 熵权法 模型思…