MiniGPT-5: 通过生成性视觉标记实现交错式视觉与语言生成

MiniGPT-5: Interleaved Vision-And-Language Generation via Generative Vokens

摘要

近年来,大型语言模型(LLM)在自然语言处理(NLP)领域的突破性进展引起了全球AI开发者的关注。这些模型在文本生成和理解方面设定了新的基准。然而,尽管在文本生成方面取得了进步,但生成与文本叙述连贯匹配的图像仍然具有挑战性。为了解决这一问题,开发者引入了一种基于“生成性vokens”的创新视觉和语言生成方法,弥合了文本-图像输出的鸿沟。

MiniGPT-5的基础是一种两阶段训练策略,重点在于无需描述的多模态数据生成,其中训练数据不需要任何全面的图像描述。此外,为了提高模型的完整性,模型还采用了无分类器指导系统,以提高voken对图像生成的有效性。在初始阶段,MiniGPT-5框架在MMDialog数据集上训练的基线Divter模型上表现出强大的性能和实质性的改进,并在VIST数据集上的人为评估中不断展示出其能够提供可比较甚至更优的多模态输出的能力,进一步突显了其在各种基准测试中的性能和效率。

MiniGPT5简介

随着LLM框架的最新发展,以及基于这些LLM框架的应用,多媒体特征集成领域已经见证了其受欢迎程度的提升,它也被证明是推动从最先进的内容创作工具到最先进的多模态对话代理的广泛应用的关键进步。随着持续的研究和开发,语言和视觉模型已经发展到可以无缝生成文本和视觉数据的阶段。LLM生成多模态数据的能力将有助于增强电子商务、媒体和虚拟现实等不同领域的交互。最终目标是使模型能够使用文本和视觉模态以一致和逻辑的方式合成、识别和响应,从而在信息流和创建逻辑一致的故事中发挥关键作用。实现文本和视觉模态的融合主要是由LLM中更流畅、集成和交互式多模态交互的需求驱动的,最终实现交替的语言和视觉生成。然而,在LLM中实现集成和交互式多模态交互是一项复杂的任务,充满了许多挑战,包括:

尽管当前的LLM在文本生成和处理文本-图像对方面非常高效和有能力,但它们在生成图像方面的表现并不令人满意。

这些视觉和语言模型的发展严重依赖于以主题为中心的数据,这使得模型难以将生成的文本与其对应的图像对齐。

最后,需要提出更有效的策略,因为随着其能力的提高,LLM在执行下游任务时的内存需求也在增加。

MiniGPT-5框架是一种交错语言和视觉生成算法技术,引入了“生成性vokens”的概念,试图解决上述挑战。MiniGPT-5框架提出了一种新的多模态数据生成方法,通过将大型语言模型与稳定扩散技术相结合,并使用特殊的视觉标记。MiniGPT-5框架所采用的两阶段训练方法强调了基础阶段无需描述的重要性,并准备使模型即使在数据有限的情况下也能提供高效的性能。

方法、架构和框架

为了使大型语言模型具有多模态数据生成能力,MiniGPT-5模型引入了一个框架,旨在整合文本到图像生成模型和预训练的多模态大型语言模型。MiniGPT-5框架进一步引入了“生成性vokens”,这是一种特殊的视觉标记,允许开发人员直接在原始图像上进行训练,以解决不同领域出现的差异。为了进一步提高LLM生成的多模态数据的质量,MiniGPT-5框架引入了无分类器策略,并结合了先进的两阶段训练方法。

多模态输入阶段

LLM的最新发展已经使LLM具有了多模态理解能力,能够将图像作为顺序输入进行处理。MiniGPT-5框架使用专门设计的生成性vokens来输出视觉特征,试图扩展LLM的多模态理解能力到多模态数据生成。此外,MiniGPT-5框架使用参数高效和前沿的微调技术,在LLM框架中进行多模态输出学习。

多模态编码

MiniGPT-5框架中的预训练视觉编码器将每个输入图像转换为一个特征,每个文本标记都被嵌入为一个向量,当这些嵌入被连接在一起时,输入提示特征就会被生成。

在大型语言模型中添加Vokens

传统上,大型语言模型的词汇表只包含文本标记,这就是为什么MiniGPT-5框架的开发人员必须弥合生成性和传统LLM之间的差距。MiniGPT-5框架向LLM的词汇表中引入了一组特殊的标记作为生成性标记。然后,该框架利用LLM的这些特殊vokens的隐藏输出状态进行后续的图像生成,插入交错图像由vokens的位置表示。

参数高效微调(PEFT)

参数高效微调(PEFT)是训练LLM的一个关键概念,然而,PEFT在多模态设置中的应用在很大程度上仍未被探索。MiniGPT-5框架使用参数高效微调对MiniGPT-4框架的编码器进行训练,以便使模型更好地理解提示或指令,甚至提高模型在零样本或新环境中的整体性能。

多模态输出生成

为了准确地将生成模型与生成性标记对齐,MiniGPT-5框架制定了一个紧凑的映射模块来匹配维度,并纳入了监督损失,包括潜在扩散模型损失和文本空间损失。潜在扩散监督损失直接将适当的视觉特征与标记对齐,而文本空间损失帮助模型学习标记的正确位置。由于MiniGPT-5框架中的生成性vokens直接由图像引导,因此MiniGPT-5框架不需要图像具有全面的描述,从而实现了无需描述的学习。

文本空间生成

MiniGPT-5框架遵循随意语言建模方法,在文本空间中联合生成vokens和文本,在训练阶段,开发人员将vokens附加到地面真实图像的位置,并训练模型在文本生成中预测vokens。

映射Voken特征进行图像生成

在生成文本空间后,框架将隐藏输出状态与文本到图像生成模型的文本条件特征空间对齐。该框架还支持一个特征映射器模块,包括一个双层的MLP模型,一个可学习的解码器特征序列,以及一个四层的编码器-解码器转换器模型。

使用LDM或潜在扩散模型进行图像生成

为了在去噪过程中生成所需的图像,该框架使用映射特征作为条件输入。该框架还使用LDM或潜在扩散模型进行指导,在训练阶段,首先使用预训练的VAE将地面真实图像转换为潜在特征,然后开发人员通过添加一些噪声来获得潜在噪声特征。

MiniGPT-5框架的全面方法使开发人员能够对视觉和文本元素进行连贯的理解和生成,使用专门的标记,利用预训练模型的能力,并使用创新的训练技术。

训练和结果

在开发MiniGPT-5框架时,开发人员观察到,直接在有限的交错文本-图像数据集上进行训练可能会导致图像质量降低,并且由于图像和文本域之间的显著域偏移,导致图像与文本不对齐。为了缓解这一问题,开发人员采用了两种不同的训练策略,

  1. 采用无分类器指导技术,在扩散过程中提高生成性标记的有效性。
  2. 第二种策略进一步分为两个阶段
    • 初始预训练阶段,主要关注对齐粗略特征。
    • 微调阶段,促进特征学习。

无分类器指导(CFG)

首先利用CFG进行多模态生成的想法是为了增强生成图像和文本之间的一致性和逻辑性,CFG是在文本到图像扩散过程中引入的。这种方法观察到,通过在无条件生成和条件生成下进行训练,并使用条件丢弃,生成模型可以实现增强的条件结果。

两阶段训练策略

鉴于文本-图像生成与纯文本生成之间存在显著的域偏移,MiniGPT-5框架使用了两阶段策略进行训练

  • 单模态对齐阶段(UAS)
  • 多模态学习阶段(MLS)
    在初始阶段,该框架将图像生成特征与voken特征在单文本-图像对数据集中对齐,其中每个数据样本只包含一个文本和一个图像,文本通常是图像的标题。在这个阶段,该框架允许LLM通过使用标题作为LLM输入来生成vokens。

一旦UAS成功执行,该模型可以为单个文本描述生成图像,但在交错语言和视觉生成方面存在困难,包括文本-图像对和复杂的推理,需要生成图像和文本。为了克服这个障碍,开发人员进一步使用PEFT参数对MiniGPT-5框架进行了微调,使用像VIST这样的交错视觉-语言数据集。在这个阶段,该框架从数据集中构建了三个不同的任务

  • 仅文本生成:根据下一个图像生成相关文本。
  • 仅图像生成:根据下一个文本生成相关图像。
  • 多模态生成:使用给定上下文生成文本图像对。

基准测试和结果

为了全面评估其在多模态生成方面的性能,MiniGPT-5开发团队将其性能与其他几个突出的基准模型进行了比较,包括Divter、GILL和微调的单模态生成模型,比较结果如下表所示。

MiniGPT-5框架理解到,多模态输出可能根据上下文有意义,但它可能与现实世界不同,这是MiniGPT-5框架还纳入人类输入来评估和评估模型性能的主要原因。总的来说,MiniGPT-5框架在多模态任务中的有效性是从三个角度衡量的。

  • 语言连续性:评估生成的内

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/752056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS NEXT应用开发—发布图片评论

介绍 本示例将通过发布图片评论场景,介绍如何使用startAbilityForResult接口拉起相机拍照,并获取相机返回的数据。 效果图预览 使用说明 通过startAbilityForResult接口拉起相机,拍照后获取图片地址。 实现思路 创建CommentData类&#…

Linux TCP参数——tcp_abort_on_overflow

tcp_abort_on_overflow 英文翻译理解:溢出中止 所以,溢出指的是什么溢出? Linux中会维护socket全连接队列,所以这里的溢出指的是全连接队列的溢出。 全连接队列是什么? 全连接队列指的就是TCP三次握手中的第三次握手…

腾讯云轻量应用服务器2核4G5M代表什么意思?

腾讯云服务器2核4G5M带宽配置是代表什么?代表2核CPU、4G内存、5M公网带宽,这是一款轻量应用服务器,系统盘为60GB SSD云硬盘,活动页面 txybk.com/go/txy 活动打开如下图: 腾讯云2核4G5M服务器 如上图所示,这…

sqllab第29-33通关笔记

29关知识点: 单引号闭合绕过联合注入 payload:id0%27unionselect1,2,database()%271报错注入 id1%27andextractvalue(1,concat(0x7e,database(),0x7e))%271下面就不演示了,上面给出了payload,感觉没有任何过滤信息,那个waf应该是…

嵌入式系统架构设计

本博客地址:https://security.blog.csdn.net/article/details/136745118 一. 嵌入式系统硬件 1、传统嵌入式系统主要硬件包括: ● 微处理器:微控制器(MCU),微处理器(MPU) ● 存储器…

HCIA——TCP协议详解

目录 1、TCP概念及协议头部格式 1.1TCP特点 1.2TCP协议协议头部格式 1.3字段进行介绍 1.3.1源端口和目的端口 1.3.2序号(seq) 1.3.3确认序号(ack) 1.3.4数据偏移 1.3.5标志位 1.3.6窗口 1.3.7校验和 1.3.8紧急指针 2、TCP的可靠性 2.1 TCP可靠性的保障 2.2排序机…

Android Studio实现内容丰富的安卓博客发布平台

获取源码请点击文章末尾QQ名片联系,源码不免费,尊重创作,尊重劳动 项目编号078 1.开发环境android stuido jdk1.8 eclipse mysql tomcat 2.功能介绍 安卓端: 1.注册登录 2.查看博客列表 3.查看博客详情 4.评论博客, 5.…

Winform编程详解十:ListBox 列表框

一、属性介绍 1. (Name) 控件的对象标识符ID 2. Items 控件的数据集合 3. BackColor 控件的背景颜色 4. BorderStyle 控件的边框样式 5. Cursor 鼠标移过该控件显示的光标样式 6. Font 控件的字体样式 7. ForeColor 控件的文本颜色 8. UseWaitCursor 使用鼠标的等待光…

Llama 2: 深入探讨ChatGPT的开源挑战者

Llama 2:开源挑战者深度解析 摘要 本文深入探讨了Llama 2的能力,并提供了在Google Colab上通过Hugging Face和T4 GPU设置这个高性能大型语言模型的详细指南。Llama 2是由Meta与Microsoft合作开发的开源大型语言模型,旨在重新定义生成式人工…

HBase在表操作--显示中文

启动HBase后,Master和RegionServer两个服务器,分别对应进程为HMaster和HRegionServe。(可通过jps查看) 1.进入表操作 hbase shell 2.查看当前库中存在的表 list 3.查看表中数据(注:学习期间可用&#…

RUST egui部署到github

Dist 接上文,当用trunk serve编译部署后,工程目录下就会有一个dist目录,这个目录就是用来部署用的。 :) Github repo 创建一个github repo,这个repo的名称有固定格式要求,就是你自己的用户名…

将FastSAM中的TextPrompt迁移到MobileSAM中

本博文简单介绍了SAM、FastSAM与MobileSAM,主要关注于TextPrompt功能的使用。从性能上看MobileSAM是最实用的,但其没有提供TextPrompt功能,故而参考FastSAM中的实现,在MobileSAM中嵌入TextPrompt类。并将TextPrompt能力嵌入到MobileSAM官方项目提供的gradio.py部署代码中,…

【JVM】生产内存占用异常优化 (一)

记录一次 - 内存占用优化 某个导出,导出数据量过大总是导致OOM,但是根据需求,导出数据大小并没有那么大 按照导出数据的查询来看 SELECTg.inventory_code,g.visit_record_code,g.recovery_price AS transactionAmount FROM crm_goods g ...…

「Linux系列」Linux 文件与目录管理

文章目录 一、Linux 文件与目录管理案例 1: 创建文件和目录案例 2: 移动和重命名文件案例 3: 复制文件和目录案例 4: 删除文件和目录案例 5: 查看文件和目录信息案例 6: 更改文件权限案例 7: 创建符号链接案例 8: 查找文件案例 9: 使用通配符创建和删除文件案例 10: 创建具有特…

小迪安全41WEB 攻防-通用漏洞XMLXXE无回显DTD 实体伪协议代码审计

#知识点: 1、XML&XXE-原理&发现&利用&修复等 2、XML&XXE-黑盒模式下的发现与利用 3、XML&XXE-白盒模式下的审计与利用 4、XML&XXE-无回显&伪协议&产生层面 #思路点: 参考:https://www.cnblo…

Linux 块设备驱动

Linux 三大驱动分别是:字符设备驱动、块设备驱动、网络设备驱动。 块设备是针对存储设备的,比如 SD 卡、EMMC、NAND Flash、Nor Flash、SPI Flash、机械硬盘、固态硬盘等。因此块设备驱动其实就是这些存储设备驱动,块设备驱动相比字符设备驱…

CentOS 7 编译安装 Git

CentOS 7 编译安装 Git 背景来源删除旧版本 Git安装依赖包下载 Git 源代码检验相关依赖,设置安装路径编译安装添加 Git 环境变量重新加载配置文件查看版本号参考文献 背景来源 为什么要安装新版本呢? 因为无聊,哈哈哈,其实也不是…

Linux下进程的调度与切换

🌎进程的调度与切换 文章目录: 进程的调度与切换 进程切换 进程调度       活动状态进程队列       位图判断       过期队列 总结 前言: 在Linux操作系统中,进程的调度与切换是操作系统核心功能之一&#xff…

RabbitMq——direct交换器、fanout交换器、 topic交换器

direct交换器: @Configuration =发送= @Bean protected Queue queue(){ Queue queue = new Queue(“myQueue”) return queue; } amqpTemplate.convertAndSend("myQueue","这是发送的内容"); 发送RabbitMq 发送成功 =接收=消费者(新项目)…

【JACS】:用于稳定单原子分散的催化剂架构可对吸附到 Pt 原子、氧化 Pt 簇和 TiO2上金属 Pt 簇的 CO 进行特定位点光谱和反应性测量

摘要:氧化物负载的贵金属纳米粒子是广泛使用的工业催化剂。由于费用和稀有性,开发降低贵金属纳米颗粒尺寸并稳定分散物质的合成方案至关重要。负载型原子分散的单贵金属原子代表了最有效的金属利用几何结构,尽管由于合成均匀且稳定的单原子分…