英伟达推出免训练,可生成连贯图片的文生图模型

目前,多数文生图模型皆使用的是随机采样模式,使得每次生成的图像效果皆不同,在生成连贯的图像方面非常差。

例如,想通过AI生成一套图像连环画,即便使用同类的提示词也很难实现。虽然DALL·E 3和Midjourney可以对图像实现连贯的生成控制,但这两个产品都是闭源的。

因此,英伟达和特拉维夫大学的研究人员开发了免训练一致性连贯文生图模型——ConsiStory。(即将开源)

论文地址:https://arxiv.org/abs/2402.03286

图片

目前,文生图模型在生成内容一致性方面比较差的原因主要有两个:1)无法识别和定位图像中的共同主体,文生图像模型没有内置的对象检测或分割模块,很难自动识别不同图像中的相同主体;

2)无法在不同图像中保持主体的视觉一致性,即使定位到主体,也很难使不同步骤中独立生成的主体在细节上保持高度相似。

主流解决这两种难题的方法是,基于个性化和编码器的优化方法。但这两类方法都需要额外的训练流程,例如,针对特定主体微调模型参数,或使用目标图像训练编码器作为条件。

即便使用了这种优化方法,训练周期较长难以扩展到多个主体,且容易与原始模型分布偏离。

而ConsiStory提出了一种全新的方法,通过共享和调整模型内部表示,可以在无需任何训练或调优的情况下实现主体的一致性

值得一提的是,ConsiStory可以作为一种插件,帮助其他扩散模型提升文生图的一致性和连贯性。

主体驱动自注意力(SDSA)

SDSA是ConsiStory的核心模块之一,可以在生成的图像批次中共享主体相关的视觉信息,使不同图像中的主体保持一致的外观。

SDSA主要扩大了扩散模型中自注意力层,允许一个图像中的“提示词”不仅可以关注自己图像的输出结果,还可以关注批次中其他图像的主体区域的输出结果

这样主体的视觉特征就可以在整个批次中共享,不同图像中的主体互相"对齐"。

图片

为了防止背景区域之间的敏感信息泄露,该模块使用主体分割蒙版来进行遮蔽——每个图像只能关注批次中其他图像主体区域的输出结果。

图片

主体蒙版是通过扩散模型本身的交叉注意力特征自动提取。

特征注入

为了进一步增强主体不同图像之间细节层面的一致性,“特征注入”基于扩散特征空间建立的密集对应图,可以在图像之间共享自注意力输出特征。

同时图像中一些相似的优化地方之间共享自注意力特征,这可以有效确保主体相关的纹理、颜色等细节特征在整个批次中互相"对齐"

图片

特征注入也使用主体蒙版进行遮蔽,只在主体区域执行特征共享。同时还设置相似度阈值,只在足够相似的优化之间执行。

锚图像和可重用主体

ConsiStory中的锚图像提供了主题信息的参考功能,主要用于引导图像生成过程,确保生成的图像在主题上保持一致。

锚图像可以是用户提供的图像,也可以是从其他来源获取的相关图像。在生成过程中,模型会参考锚图像的特征和结构,并尽可能地生成与一致性的图像。

图片

可重用主体是通过共享预训练模型的内部激活,来实现主题一致性的方法。在图像生成过程中,模型会利用预训练模型的内部特征表示来对生成的图像进行对齐,而无需进一步对齐外部来源的图像。

图片

也就是说生成的图像可以相互关注、共享特征,这使得ConsiStory实现了0训练成本,避免了传统方法中需要针对每个主题进行训练的难题。

本文素材来源ConsiStory论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/698283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux0.11 源码阅读 head.s setup.s bootsect.s加载位置

从github上下载linux0.11源码 linux0.11源码 将0x10000处的代码往下复制到0开始的地址处。 移动后的内存布局如下 setup中存在gdt和idt的相关数据。此时需要用gdtr和idtr寄存器指向对应的数据。 实模式下,访问内存方式。最多访问1M内存。

有哪些适合程序员的副业?

如果你经常玩知乎、看公众号(软件、工具、互联网这几类的)你就会发现,好多资源连接都变成了夸克网盘、迅雷网盘的资源链接。 例如:天涯神贴,基本上全是夸克、UC、迅雷网盘的资源链接。 有资源的前提下,迅雷…

人工智能 — 图像滤波器

目录 一、图像噪声1、高斯噪声2、椒盐噪声3、泊松噪声4、乘性噪声5、瑞利噪声6、伽马噪声 二、图像滤波三、各种滤波器1、均值滤波2、中值滤波3、最大最小值滤波4、引导滤波 四、图像增强1、点处理1、线性变换2、分段线性变换3、对数变换4、幂律变换/伽马变换 2、领域处理3、图…

IP设置教程

Win 7 固定Ip设定 https://jingyan.baidu.com/article/4b07be3cbc8e7348b380f31d.html Win 10 固定Ip设定 Win10 固定IP地址方法_win10设置固定ip地址怎么设置-CSDN博客 Win 11 固定Ip设定 https://jingyan.baidu.com/article/cb5d6105be5354415c2fe0d3.html TP-LINK…

LightGBM中的特征选择与重要性评估

导言 在机器学习任务中,特征选择是提高模型性能和减少过拟合的重要步骤之一。LightGBM作为一种高效的梯度提升决策树算法,提供了内置的特征重要性评估功能,帮助用户选择最重要的特征进行模型训练。本教程将详细介绍如何在Python中使用LightG…

图表征学习——Graph Embedding

图表征学习的目的是将图中的节点嵌入低维的表征,并有效地保留图的结构信息。 Graph Embedding是实现图表征学习的方法,即Graph Embedding的目的也是将图结构转换为节点的低维嵌入表示,在这个过程中,保留图的拓扑结构信息尤为重要。…

2006-2021年地级市资本存量数据(含原始数据+计算过程+计算结果)(以2006年为基期)

2006-2021年地级市资本存量数据(含原始数据计算过程计算结果)(以2006年为基期) 1、时间:2006-2021年 2、来源:城市年鉴、统计年鉴、各省年鉴、各市年鉴和公报、2017-2021年利用固定资产投资增速计算获取 …

【C语言】内存操作,内存函数篇---memcpy,memmove,memset和memcmp内存函数的使用和模拟实现【图文详解】

欢迎来CILMY23的博客喔,本篇为​【C语言】内存操作,内存函数篇---memcpy,memmove,memset和memcmp内存函数的使用和模拟实现【图文详解】,图文讲解四种内存函数,带大家更深刻理解C语言中内存函数的操作&…

体育赛事直播系统软件开发

体育赛事直播系统的软件开发是一个复杂的项目,需要多个方面的准备和工作。以下是开发这样一个系统可能涉及的主要步骤和考虑因素: 需求分析和规划:首先需要明确系统的功能需求,包括直播视频的流媒体处理、用户管理、直播赛事安排…

WooCommerce商品采集与发布插件

如何采集商品或产品信息,并自动发布到Wordpress系统的WooCommerce商品? 推荐使用简数采集器,操作简单方便,且无缝衔接WooCommerce插件,快速完成商品的采集与发布。 简数采集器的智能自动生成采集规则和可视化操作功能…

Pytorch学习(杂知识)

Mini-batch Mii-batch是一种在机器学习中常用的训练算法。它是将大的数据集分成一些小的数据集,每次只用一个小的数据集来训练模型。通常情况下,训练数据集中的数据越多,训练出的模型越准确,但是如果数据集太大,就会导…

【EI会议征稿通知】第四届生物医学与生物信息工程国际学术会议(ICBBE 2024)

第四届生物医学与生物信息工程国际学术会议(ICBBE 2024) The 4th International Conference on Biomedicine and Bioinformatics Engineering 由河南大学主办,中州实验室、河南大学基础医学院、河南大学郑州校区学术发展部共同承办的第四届生…

微信小程序 --- 微信原生 API

微信原生 API 1. API 基础 小程序开发框架提供丰富的微信原生 API,可以方便的调起微信提供的能力,如获取用户信息,本地存储,支付功能等,几乎所有小程序的 API 都挂载在 wx 对象底下,例如:wx.c…

宏观视角下的浏览器

宏观视角下的浏览器 Chrome架构线程 VS 进程进程架构 TCP协议IP:把数据包送达目的主机UDP:把数据包送达应用程序TCP:把数据完整地送达应用程序 HTTP请求流程构建请求查找缓存准备IP地址和端口等待TCP队列建立TCP连接发送HTTP请求 服务器端处理…

算法刷题:水果成篮

水果成篮 .题目链接题目详情题目解析算法原理滑动窗口定义指针及变量进窗口判断出窗口更新结果 我的答案 . 题目链接 水果成篮 题目详情 题目解析 这道题的意思是,在一个数组中,找到一个最长的连续的子数组,并且其中包含的水果种类不超过两个 left和right刚开始都指向数组首…

【Vuforia+Unity】AR05-实物3D模型识别功能实现(ModelTarget )

不管是什么类型的识别Vuforia的步骤基本都是: 把被识别的物体转成图、立体图、柱形图,3D模型、环境模型,然后模型生成Vuforia数据库-导入Unity-参考模型位置开始摆放数字内容,然后参考模型自动隐藏-发布APP-识别生活中实物-数字内…

ZooKeeper注册中心:分布式系统的协调大师与服务注册利器(一)

本系列文章简介: 本系列文章将会深入探讨ZooKeeper的各个方面,从基本概念到实际应用,从架构原理到开发实践,帮助读者全面了解和掌握这个强大的注册中心。我们会通过丰富的实例和案例,帮助读者理解和应用ZooKeeper的各种…

SQL面试题及答案

介绍 在快节奏的数据管理和信息技术世界中,导航和操作结构化数据的能力是一项非常重要的技能。SQL,即结构化查询语言,是关系数据库的基石,掌握这种语言的专业人员的需求量很大。SQL 面试在科技行业很常见,潜在的候选人会接受测试以展示他们的知识和解决问题的能力。为了帮…

嵌入式Linux中apt、apt-get命令用法汇总

在Linux环境开发过程中接触ubuntu虚拟机时,在安装软件或者更新软件时apt和apt-get命令使用相对较频繁,下面对这两个命令的用法进行汇总。 apt(Advanced Package Tool)和 apt-get 是用于在基于 Debian 的 Linux 发行版中进行软件包…

Echarts与后台(mongoose)交互

Echarts引入地址可参考 echarts组件引入 <template><div><div id"main" style"width: 600px;height:400px;"></div></div> </template><script setup> import { onMounted, ref } from vue; import * as echa…