多模态生成发文量大涨!最新成果统一Transformer和Diffusion,含金量超高

最近多模态生成领域也在“神仙打架”,比如Meta的全新训练方法Transfusion,用单个模型就能同时生成文本和图像!

还有之前华为、清华提出的个性化多模态内容生成技术PMG,生成的内容可“量身定制”,更能满足偏好。

这些效果炸裂的新成果证明了多模态生成一直是研究热门,更实际点的证明还有:

  • 从学术角度来看,今年CVPR等顶会的收录论文中,多模态生成是最热门的研究主题之一。

  • 从就业角度来看,多模态生成的人才需求也比较大,很多公司都有相应的岗位,比较好拿offer。

因此多模态生成依旧是我们非常好的选择,想抓紧投中顶会给自己加码的同学可以考虑。这里为了帮助各位快速了解这个方向目前的最新动态,我整理好了10篇多模态生成今年最新的论文给各位作参考,代码基本都有。

论文原文+开源代码需要的同学看文末

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

方法:论文一个多模态模型训练的配方Transfusion,可以处理离散数据(如文本或代码)和连续数据(例如图像、音频和视频数据)。Transfusion结合了语言建模损失函数(下一个词预测)和扩散模型,通过单一的transformer来训练混合模态序列,使其能够无缝地生成离散和连续的模态,例如同时生成文本和图像。

创新点:

  • Transfusion是一个统一的多模态模型,可以同时生成文本和图像,不需要信息的丢失。

  • 在文本到图像生成和图像到文本生成任务中,Transfusion模型在FID和CLIP得分方面表现优于Chameleon模型,且在相同的计算复杂度下,Transfusion模型的FID得分约为Chameleon模型的一半。

  • Transfusion模型在学习文本到文本预测任务上的效率也更高,达到了Chameleon模型计算复杂度的50%到60%的困惑度。

PMG: Personalized Multimodal Generation with Large Language Models

方法:论文提出了一种基于大语言模型(LLMs)的个性化多模态生成方法(PMG),首先将用户行为转化为自然语言,以便LLM能够理解并提取用户的偏好。然后,将用户偏好输入生成器(如多模态LLM或扩散模型)以生成个性化内容。

创新点:

  • 提出了一种个性化多模态生成方法(PMG),首次将LLMs应用于个性化多模态生成任务,实现了一系列应用场景的个性化生成。

  • 引入了基于用户行为的用户偏好表示方法,结合显式关键词和隐式嵌入,有效地捕捉用户的偏好信息,用于生成过程的条件。

  • 使用加权求和的方式平衡准确性得分和个性化得分,实现了生成内容在准确性和个性化之间的良好平衡。

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

方法:ANOLE是一个开源的多模态模型,专注于交错图像-文本生成。它基于Meta AI的Chameleon模型,通过高效微调少量参数来增强图像和多模态生成能力,而无需依赖扩散模型。

创新点:

  • ANOLE采用自回归方法进行图像和文本的生成,这使得它能够产生连贯且高质量的交错图像-文本序列。

  • ANOLE通过微调不到40M的参数,使用大约6000个样本,有效地实现了视觉和多模态生成能力,体现了它在大型多模态模型中引入复杂功能时的高数据和参数效率。

  • 提供了一个用于自回归多模态模型的训练和推理的统一框架,降低了开发和实验的门槛。

Generative Multimodal Models are In-Context Learners

方法:论文介绍了一个名为 Emu2 的大型多模态生成模型,它通过大规模多模态序列的训练,具备了强大的多模态上下文学习能力。Emu2 能够处理包括文本、图像-文本对和交错的图像-文本-视频等在内的多种数据类型,并且在少量样本或简单指令的情况下解决多模态任务。

创新点:

  • Emu2通过大规模多模态序列的统一自回归目标进行预训练,能够预测下一个多模态元素(无论是视觉嵌入还是文本标记)。

  • 在少量样本或简单指令的情况下,Emu2展现出解决多模态任务的能力,包括需要即时推理的视觉提示和基于对象的生成任务。

  • 通过对Emu2进行指令微调,模型能够在遵循特定指令的情况下,在大型多模态模型的问答基准测试和开放式主题驱动生成等具有挑战性的任务上实现新的最佳状态。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态生成”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/53206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Blender云渲染的好处是什么?

​Blender是一款功能强大的开源3D创作软件,用于包括建模、动画、仿真、渲染、合成和视频编辑在内的多种应用。然而,Blender的渲染过程有时可能非常耗费资源,特别是处理复杂的3D场景时。作为CG行业不可或缺的一部分,云渲染通过使用…

sqlite3的db.wait方法:等待所有查询完成

Node.js中sqlite3的db.wait方法深入解析 在Node.js环境中,sqlite3库为开发者提供了一个与SQLite数据库进行交互的简洁API。在处理数据库操作时,有时需要等待直到所有的查询都完成,这时db.wait方法就显得尤为重要。本文将深入解析sqlite3库中…

shell脚本1----编程规范与变量

shell脚本 shell的功能 Shell(壳程序)是一个特殊的应用程序,它介于操作系统内核与用户之间,充当了一个“命令解释器”的角色,负责接收用户输入的操作指令(命令)并进行解释,将需要执…

【大数据】kafka与Zookeeper不得不说的关系!

文章目录 一、开场白:大数据时代的“黄金搭档”二、正文1. Kafka与ZooKeeper的那些事儿2. ZooKeeper的选举:一场“王位争夺战”3. Kafka的“备胎”计划:告别ZooKeeper的日子4. 源码揭秘:一探究竟的“八卦之旅” 三、结尾&#xff…

深入了解linux下TCP并发服务器和IO模型的实现

一、整体框架 在网络编程中,服务器的架构可以根据需求不同而有所不同。主要有以下几种框架: 1. 单循环服务器:同一时刻只处理一个客户端的请求,通常使用传统的阻塞式编程模型。这种模型简单易实现,但处理能力有限&am…

.NetCore发布到IIS

一:安装sdk(下载 .NET 8.0 SDK (v8.0.302) - Windows x64 Installer) 与donet Runtime(.NET Downloads (Linux, macOS, and Windows))选择对应的版本下载 二:解决问题:HTTP 错误 500.19 - Internal Server Error 无法访问请求的页面&#x…

【C++11(一)之入门基础)】

文章目录 C简介统一的列表初始化{}初始化 std::initializer_liststd::initializer_list是什么类型:std::initializer_list使用场景: 声明autodecltypenullptr STL中一些变化 C简介 在2003年C标准委员会曾经提交了一份技术勘误表(…

大数据新视界--大数据大厂之MySQL 数据库课程设计:数据安全深度剖析与未来展望

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

一种误差较小的轮廓面积计算算法

1.背景 基于微分思想的轮廓面积计算方法之一是将多边形轮廓边与X轴会Y轴进行围合,形成一个个梯形,每个梯形的面积有符号,累计求和即得到多边形轮廓的面积。详见博主之前的文章, 记录导致计算轮廓面积出错的一个坑点-CSDN博客文章…

C++ Qt进程间通信机制之QRO、QRemoteObjectHost

文章目录 QRO_serverQRO_client深入浅出C++ Qt开发技术专栏:https://blog.csdn.net/yao_hou/category_9276099.html Qt高级开发视频教程 https://edu.csdn.net/course/detail/37447?spm=1001.2014.3001.5507 C++零基础入门视频教程 https://edu.csdn.net/course/detail/379…

Rust 学习笔记 3:一般性编程概念

上一篇:Rust 学习笔记 2:猜数字游戏 文章目录 1. 前言2. 背景3. Rust 中的一般性编程概念3.1 变量及其可变性(Mutability)3.1.1 变量定义3.1.2 常量3.1.3 变量隐藏(Shadowing) 3.2 基本类型3.2.1 标量(scalar)类型3.2.1.1 整型(Integer Types)3.2.1.2 浮…

项目拆解:短视频冷门赛道—ai绘画+温馨小屋,引流变现全攻略

在这个快节奏的时代,工作、学习、家庭的重担仿佛三座大山,让人喘不过气,心情时常跌入谷底。就像蜗牛遇到威胁会缩进壳里,我们也会在疲惫和忧虑时,渴望一个属于自己的温暖小窝,来安放疲惫的心灵。而自媒体平…

Flink 1.14.* Flink窗口创建和窗口计算源码

解析Flink如何创建的窗口,和以聚合函数为例,窗口如何计算聚合函数 一、构建不同窗口的build类1、全局窗口2、创建按键分流后的窗口 二、在使用窗口处理数据流时,不同窗口创建的都是窗口算子WindowOperator1、聚合函数实现2、创建全局窗口(入参…

SpringFrameWork学习笔记

本笔记基于【尚硅谷新版SSM框架全套视频教程,Spring6SpringBoot3最新SSM企业级开发】https://www.bilibili.com/video/BV1AP411s7D7?vd_sourcea91dafe0f846ad7bd19625e392cf76d8 总结 资料获取网址:https://www.wolai.com/v5Kuct5ZtPeVBk4NBUGBWF 技术…

Java项目: 基于SpringBoot+mysql房产销售系统 (含源码+数据库+开题报告+答辩PPT+毕业论文)

一、项目简介 本项目是一套基于SpringBootmysql房产销售系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、功能齐…

数学基础 -- 线性代数之LU分解

LU分解 LU分解(LU Decomposition)是线性代数中非常重要的一种矩阵分解方法。它将一个方阵分解为一个下三角矩阵(L矩阵)和一个上三角矩阵(U矩阵)的乘积。在数值线性代数中,LU分解广泛用于求解线…

Halcon基于灰度值的模板匹配

Halcon基于灰度值的模板匹配 基于灰度值的模板匹配是最经典的模板匹配算法,也是最早提出来的模板匹配算法。这种算法的根本思想是,计算模板图像与检测图像之间的像素灰度差值的绝对值总和(SAD方法)或者平方差总和(SSD…

Spring解析

目录 容器与 bean 1) 容器接口 演示1 - BeanFactory 与 ApplicationContext 的区别 代码参考 收获💡 演示2 - 国际化 2) 容器实现 演示1 - DefaultListableBeanFactory 代码参考 收获💡 演示2 - 常见 ApplicationContext 实现 代码参考 收获…

ico格式怎么转换?5个软件让你轻松转换文件格式

ico格式怎么转换?5个软件让你轻松转换文件格式 ICO格式是常用于网站图标和应用程序图标的文件格式,虽然它很常见,但并非所有图像编辑软件都支持直接保存为ICO格式。如果你需要将其他格式的图片(如PNG、JPG等)转换为IC…

读书学习笔记入门 # Datawhale X 李宏毅苹果书 AI夏令营

文章目录 学习目标:学习内容:Task 1 通过案例了解机器学习机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)的基本概念什么是回归(regression)什么…