9款最新文生图模型汇总!含华为、谷歌、Stability AI等大厂创新模型(附论文和代码)

2023年真是文生图大放异彩的一年,给数字艺术界和创意圈注入了新鲜血液。从起初的基础图像创作跃进到现在的超逼真效果,这些先进的模型彻底变革了我们制作和享受数字作品的途径。

最近,一些大公司比如华为、谷歌、还有Stability AI等人工智能巨头也没闲着,纷纷推出了自己的最新文生图模型。

今天就给大家盘点一下近期新推出的文生图模型,为了让各位更全面地理解这些技术,我还特别准备了相关的研究论文和代码分享!

1、PanGu-Draw(华为)

论文:PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

PanGu-Draw:通过时间解耦训练和可重用 Coop-Diffusion 推进资源节约型文本到图像合成

简述:本文提出了PanGu-Draw,一种高效的文本到图像潜在扩散模型,能适应多控制信号。该模型采用时间解耦训练策略,分为结构器和纹理器,大幅提升数据和计算效率。同时,研究人员引入Coop-Diffusion算法,允许不同潜在空间和分辨率的模型协同工作,无需额外数据或重新训练。PanGu-Draw在文本到图像和多控制图像生成上表现出色,指向了训练效率和生成多功能性的新方向。

图片

2、Imagen & Imagen 2(谷歌)

论文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

具有深度语言理解的逼真文本到图像扩散模型

简述:本文提出了Imagen,一款新型的文本到图像扩散模型,实现了极高的真实感和深度语言理解。该模型结合了大型Transformer语言模型和扩散模型的技术,优化了语言模型的大小以提高图像质量和文本对齐。在COCO数据集上,Imagen取得了领先的FID分数,且其样本的图像-文本对齐得到了人类评分者的好评。研究人员还引入了DrawBench基准测试,比较了Imagen与其他最新方法,发现其在样本质量和图像文本对齐方面更优秀。

图片

3、SDXL Turbo(Stability AI

论文:Adversarial Diffusion Distillation

对抗性扩散蒸馏

简述:本文提出了SDXL Turbo,它在 SDXL 1.0 的基础上进行迭代,并为文本到图像模型实现了一种新的蒸馏技术:对抗扩散蒸馏(ADD),能够高效地从大规模基础图像扩散模型中采样,同时保持高质量图像。该模型在一步中明显优于现有几步方法,并在四步内达到最先进扩散模型的性能。ADD 是首个使用基础模型实现单步实时图像合成的方法。

图片

4、CM3Leon(Meta)

论文:Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

扩展自回归多模态模型:预训练和指令调优

简述:本文提出了CM3Leon,一种多模态语言模型,擅长生成和填充文本和图像。它是首个采用纯文本语言模型训练方法的多模态模型,包括大规模检索增强预训练和多任务监督微调阶段。CM3Leon在文本到图像生成上实现了领先性能,计算量比同类方法少5倍。此外,CM3Leon在图像编辑和控制生成等任务中展现出前所未有的可控性。

图片

5、PixArt-α(华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等机构)

论文:PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

PixArt-α:快速训练扩散变压器,实现逼真的文本到图像合成

简述:本文提出了PixArt-α,一种高效的基于Transformer的文本转图像模型,它能以较少的训练资源生成与最先进模型相媲美的商业级图像。PixArt-α采用三种策略:优化的训练步骤、高效的Transformer架构和增强的数据处理,实现了快速、低成本且环保的训练过程。实验结果显示,PixArt-α在多个方面表现出色,为AIGC领域提供了新的创新方向。

图片

6、Kandinsky 3.0(俄罗斯AI Forever研究团队

论文:Kandinsky 3.0 Technical Report

Kandinsky 3.0 技术报告

简述:本文提出了Kandinsky 3.0,一个基于潜在扩散的大规模文本到图像生成模型,旨在提高图像生成的质量和真实性。该模型通过使用更大的U-Net主干网和文本编码器以及去除扩散映射进行改进。文中详细介绍了模型的架构、训练过程和生产系统,并强调了关键组件对提升模型质量的重要性。实验表明,Kandinsky 3.0在文本理解和特定领域表现上有所提升。

图片

7、DreamBooth(谷歌)

论文:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth:微调文本到图像扩散模型,用于主题驱动的生成

简述:本文提出了DreamBooth,一种个性化文生图模型,它通过微调预训练的文生图模型,如Imagen,将一个独特的标识符与某个物体绑定,这样模型就可以在含有该标识符的prompt下,在不同场景中生成包含该物体的新颖图片。这种技术利用模型的语义先验和新的特定类先验保留损失,实现了在多样化条件下合成主体的能力。研究人员将此技术应用于多种任务,并提出了新的数据集和评估标准,以推动主题驱动的图像生成的发展。

图片

8、GigaGAN(POSTECH、卡内基梅隆大学和 Adobe 研究院的研究人员)

论文:Scaling up GANs for Text-to-Image Synthesis

扩展 GAN 以进行文本到图像合成

简述:本文提出了GigaGAN,一种改进的 GAN 架构,它被设计用于提高文本到图像合成的效率和质量,它具有三大优势:首先,它在推理时间快几个数量级,合成 512px 的图像只需 0.13 秒;其次,它可以合成高分辨率图像,例如,在 16 秒内合成 3.66 像素的图像;最后,GigaGAN支持各种潜在空间编辑应用,如潜在插值、样式混合和向量算术运算。

图片

9、LCM (清华大学交叉信息研究院的研究者们)

论文:Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

潜在一致性模型:通过少步推理合成高分辨率图像

简述:本文提出了LCM,一种在预训练LDM上快速推理的新模型,通过预测常微分方程的解减少迭代,实现快速、高保真的图像采样。LCM在预训练的无分类器引导扩散模型上表现出色,只需少量步骤即可生成高质量的图像,训练仅需少量计算资源。研究人员还提出了LCF,用于在自定义图像数据集上微调LCM。在LAION-5B-Aesthetics数据集上的评估显示,LCM实现了最先进的文本到图像生成性能。

图片

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【文生图模型】获取完整论文和代码

👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/642726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】Linux进程信号(上)

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:Linux 🎯长路漫漫浩浩,万事皆有期待 上一篇博客:【Linux】…

【新加坡机器人学会支持】第三届工程管理与信息科学国际学术会议 (EMIS 2024)

第三届工程管理与信息科学国际学术会议 (EMIS 2024) 2024 3rd International Conference on Engineering Management and Information Science 【国际高级别专家出席/新加坡机器人学会支持】 第三届工程管理与信息科学国际学术会议 (EMIS 2024)将于2024年4月12-14日在中国洛…

算法(4)——前缀和

目录 一、前缀和的定义 二、一维前缀和 三、一维前缀和OJ题 3.1、前缀和 3.2、寻找数组中心下标 3.3、除自身以外数组的乘积 3.4、和为K的数组 3.5、和可被K整除的子数组 3.6、连续数组 四、二位前缀和 4.1、二维前缀和 4.2、矩阵区域和 一、前缀和的定义 对于一个…

40. 组合总和 II - 力扣(LeetCode)

题目描述 给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次 。 注意:解集不能包含重复的组合。 输入示例 candidates [10,1,2,7,…

Oracle Apps文件系统和数据库的维护工作ADADMIN

ADADMIN主要用于Oracle Apps文件系统和数据库的维护工作,是Apps DBA常用的工具。其一级菜单的具体功能介绍如下: AD Administration Main Menu: Generate Applications Files:如果系统用户无法访问Message、Form或者Report&#…

开始学习vue2(Vue方法)

一、过滤器 过滤器(Filters)是 vue 为开发者提供的功能,常用于文本的格式 化。过滤器可以用在两个地方:插值表达式 和 v-bind 属性绑定。 过滤器应该被添加在 JavaScript 表达式的尾部,由“管道符 ”进行 调用&#…

【Leetcode 144.二叉树的前序遍历】将二叉树每个节点的值以前序遍历的顺序存入数组中

int* preorderTraversal( struct TreeNode*root, int* returnSize) { }解答代码: int TreeSize(struct TreeNode*root){return rootNULL?0:TreeSize(root->left)TreeSize(root->right)1;}void Prevorder(struct TreeNode*root,int*a,int*pi){if(rootNULL)re…

理解反向代理

反向代理是一个不可或缺的组件。 它在客户端和服务器之间充当中介,提高了安全性、负载平衡和应用性能。 一、反向代理简介 反向代理是一种服务器,它位于客户端和后端服务器之间。与常见的(正向)代理不同,反向代理代表…

宝塔面板部署MySQL并结合内网穿透实现公网远程访问本地数据库

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.2 创建HTTP隧道 4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性,使得运维难度降低,简化了Linux命令行进行繁琐的配置,下面简单几步,通过宝塔面板cp…

【C++】list的使用

目录 1 构造1.1 无参构造1.2 构造的list中包含n个值为val的元素1.3 用[first, last)区间中的元素构造list1.4 拷贝构造 2 迭代器的使用2.1 begin end2.2 rbegin rend 3 容量操作3.1 empty size 4 获取元素4.1 front back 5 插入、删除、修改5.1 头插-push_front和尾插-push…

oracle 19c rac集群管理 ------ 日志管理

oracle 19C rac 数据库的目录结构及日志路径 在Oracle 19c RAC(Real Application Clusters)集群中,有多个组件和层级生成的日志文件,记录着集群的活动、事件和错误信息,用于故障诊断、性能优化和集群管理。以下是常见…

ubuntu 20.04 更新 autoconf 版本

前言 由于最近打算交叉编译 python,依赖 libffi 库,而交叉编译 libffi 库,由于使用的是 github 上的 libffi,又提示 autoconf 版本太低了,所以,先更新 autoconf 的版本 当前 ubuntu 20.04 上安装的 autuco…

工作三年的我在思考,前端还值得学习吗

一、聊这个话题的背景 最近准备换工作,准备了一段时间的简历后,偶然看到群里面有人发了张图片。 虽然颇有调侃的意味,但是联想起过往在公司的工作,项目架构设计向来由后端主管,领导们也基本都是后端,自己日…

消息队列RabbitMQ.02.交换机的讲解与使用

目录 RabbitMQ中交换机的基本概念与作用解析 交换机的作用: 交换机的类型: 直连交换机(Direct Exchange): 将消息路由到与消息中的路由键(Routing Key)完全匹配的队列。 主题交换机&#x…

利用Python与Flet写一个图片无损放大软件

一、前言: 将上传的图片无损放大2倍、4倍、8倍 二、利用Flet写个前端页面: 三、前端页面代码: page.title "图片无所放大"page.vertical_alignment "center"page.window_width 500 # windows width is 200 pxpage…

《小学生作文辅导》期刊投稿邮箱

《小学生作文辅导》是国家新闻出版总署批准的正规教育类期刊,适用于全国各小学语文老师事业单位及个人,具有原创性的学术理论、工作实践、科研成果和科研课题及相关领域等人员评高级职称时的论文发表(单位有特殊要求除外)。 栏目…

VMware workstation平台下配置Fedora-Server-39-1.5虚拟机网络

VMware workstation平台下配置Fedora-Server-39-1.5虚拟机网络 Fedora包含的软件以自由及开放源码许可来发布,并旨在成为该技术领域的领先者。Fedora在专注创新、抢先集成新技术、与上游Linux社区紧密工作方面拥有良好名声。该文档适用于在VMware workstation平台下…

小土堆pytorch学习笔记001

1、Pytorch环境的配置与安装。 (1)建议安装:Anaconda (2)检查显卡:GPU (3)管理环境(不同版本的pytorch 版本不同): conda create -n pytorch…

Android单元测试(五):网络接口测试

温馨提示:如果你不太熟悉单元测试,可以先看下之前四篇基础框架使用。便于你更好的理解下面的内容。 在平日的开发中,我们用后台写好给我们接口去获取数据。虽然我们有一些请求接口的工具,可以快速的拿到返回数据。但是在一些异常情…

xxe漏洞之scms靶场漏洞

xxe-scms 代码审核 (1)全局搜索simplexml_load_string simplexml_load_string--将XML字符串解释为对象 (2)查看源代码 ID1 $GLOBALS[HTTP_RAW_POST_DATA]就相当于file_get_contents("php://input"); 因此这里就存…