港中文斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!

又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。 PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。

PCM主要改善了三个LCM原有的问题:

  • LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。

  • LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。

  • LCM 的损失项无法实现分布一致性,在低推理步骤下会产生质量较差的结果。

相关链接

论文:https://arxiv.org/abs/2405.18407

视频:https://www.youtube.com/watch?v=B4ieLnS4MTY

代码:https://github.com/G-U-N/Phased-Consistency-Model

论文阅读

阶段性一致性模型:朝着稳定、快速的图像和视频生成方向发展

动机

一致性模型(CM)是一种具有高质量和快速生成特性的新型生成模型。潜在一致性模型(LCM)试图将其扩展到文本条件下的高分辨率生成的潜在空间。然而,其结果并不令人愉快。在这项工作中,我们表明了当前LCM的设计在三个方面存在缺陷。

我们提出了相位一致性模型~(PCM),推广了LCM的设计空间,很好地解决了这些局限性。在训练和推理两方面提出了创新策略,以提高生成质量。包括1步、2步、4步、8步、16步在内的大量实验结果以及广泛应用的稳定扩散和稳定扩散XL基础模型验证了PCM的进步。

潜在一致性模型有三个主要的局限性。

  • LCM只接受CFG小于2的标度。较大的值会导致过度曝光。LCM对负提示不敏感。

  • LCM在不同的推理步骤下不能得到一致的结果。当步长过大或过小时,其结果是模糊的。

  • LCM的损失项不能达到分布一致性,在低阶跃状态下产生较差的结果。

在这项工作中,我们调查了这些限制背后的原因,并提出了PCM,它很好地解决了所有这些限制。

PCM与以往方法质量比较

由PCM一步生成的图像

SD1.5+PCM

由PCM一步生成的图像

SDXL+PCM

文字转视频

与AnimateLCM在低步进模式下的视频生成质量比较。模型可以在两个步骤中生成高质量的视频。

结论

尽管可以在几个步骤中生成高质量的图像和视频,但我们发现当步数很低,特别是只有一步,生成质量不稳定。模型可能产生结构错误或图像模糊。

幸运的是,我们发现这种现象可以通过多步细化来缓解。总之,在本文中,我们观察到了缺陷 在文本条件控制下使用一致性模型生成高分辨率潜在空间。本文从三个层面对这些缺陷进行了总结,分析了缺陷产生的原因,并概括了缺陷的设计框架来解决这些缺陷。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/23729.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端面试题日常练-day56 【面试题】

题目 希望这些选择题能够帮助您进行前端面试的准备,答案在文末 1. PHP中的预定义变量$_SERVER用于存储什么类型的数据? a) 用户的输入数据 b) 浏览器发送的请求信息 c) 服务器的配置信息 d) PHP脚本中定义的变量 2. 在PHP中,以下哪个函数…

LeetCode 热题 100 第56.合并区间

思路&#xff1a; class Solution {public int[][] merge(int[][] intervals) {if(intervals.length < 1) return intervals;List<int[]> res new ArrayList<>();Arrays.sort(intervals, (o1,o2) -> o1[0] - o2[0]);for(int[] interval : intervals){if(res…

C# —— List数组

int[] a new int[] { 1, 2, 3 };//array静态数组 ArrayList aa new ArrayList();// d动态数组 List 集合和ArrayList基本一样,只不过List是C#2.0版本新加入的泛型类型。List也可以通过索引操作里面的元素,也有对List记性增删改查操作 List构建List var list new List<i…

UML交互图-序列图

概述 序列图又称为时序图、活动序列图&#xff0c;它是一种详细表示对象之间及对象与参与者实例之间交互的图,它由一组协作的对象(或参与者实例)及它们之间可发送的消息组成&#xff0c;它强调消息之间的时间顺序。 序列图主要用于按照交互发生的一系列顺序&#xff0c;显示对…

【Java】static 修饰变量

static 一种java内置关键字&#xff0c;静态关键字&#xff0c;可以修饰成员变量、成员方法。 static 成员变量 1.static 成员变量2.类变量图解3.类变量的访问4.类变量的内存原理5.类变量的应用 1.static 成员变量 成员变量按照有无static修饰&#xff0c;可以分为 类变量…

体验SmartEDA:颠覆传统,设计流程更流畅,超越Multisim与Proteus!

在电子设计自动化&#xff08;EDA&#xff09;领域&#xff0c;传统软件如Multisim和Proteus一直是工程师们的得力助手。然而&#xff0c;随着科技的飞速发展和用户需求的不断升级&#xff0c;一个全新的EDA平台——SmartEDA正崭露头角&#xff0c;凭借其更为流畅的设计流程&am…

vue3 + vite px转rem

下载自动转换插件 $ npm install postcss postcss-pxtorem --save-dev 下载可伸缩布局方案 npm i -S amfe-flexible 在vite.config.js中添加代码 import postCssPxToRem from postcss-pxtorem;export default defineConfig({//...其他配置代码css: {postcss: {plugins: [postC…

使python技能飙升的5个实用F-String技巧

前言 python中存在着一些奇奇怪怪的语法&#xff0c;了解这些语法可以使我们在编写程序时事半功倍&#xff0c;不了解的则会使我们产生疑惑。今天&#xff0c;我们来了解一下python中关于f-string的5个实用的小技巧。 技巧一:数字分隔 num 1000000000 print(-*20)print(f{n…

性能测试中如何设计真实的负载呢?

引言&#xff1a; 性能测试是一项关键的软件开发活动&#xff0c;它可以帮助我们评估系统在不同负载下的响应能力&#xff0c;并找出系统的瓶颈。然而&#xff0c;要确保我们的性能测试结果真实可靠&#xff0c;我们需要设计一个真实的负载。本文将从零开始&#xff0c;详细介…

基于System-Verilog实现DE2-115开发板驱动HC_SR04超声波测距

目录 前言 一、SystemVerilog——下一代硬件设计语言 与Verilog关系 与SystemC关系 二、实验原理 2.1 传感器概述&#xff1a; 2.2 传感器引脚 2.3 传感器工作原理 2.4 整体测距原理及编写思路 三、System-Verilog文件 3.1 时钟分频 3.2 超声波测距 3.3 数码管驱动…

spring boot 之 整合 knife4j 在线接口文档

pom依赖 <!--knife4j--> <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId><version>3.0.3</version> </dependency>application.yml knife4j:# 开启增强功能…

zs6d配置-1

// 由于本人对zero-shot比较敏感&#xff0c;于是看见了这个字眼后就去找了篇文章打算试试这东西能不能行 https://github.com/PhilippAuss/ZS6DC14 error: Microsoft Visual C 14.0 or greater is required. Get it with “Microsoft C Build Tools“就按他说的&#xff0c;…

共享购模式:数据驱动的消费增值新体验

共享购模式是一种创新的消费增值系统&#xff0c;它通过整合商家资源&#xff0c;实现商家让利和消费者增值的双重目标。以下是该模式的详细收益分析&#xff1a; 商家让利机制&#xff1a;商家入驻平台需持有价值500元的共享积分作为保证金&#xff0c;确保交易的诚信与质量。…

LabVIEW液压伺服压力机控制系统与控制频率选择

液压伺服压力机的控制频率是一个重要的参数&#xff0c;它直接影响系统的响应速度、稳定性和控制精度。具体选择的控制频率取决于多种因素&#xff0c;包括系统的动态特性、控制目标、硬件性能以及应用场景。以下是一些常见的指导原则和考量因素&#xff1a; 常见的控制频率范…

【介绍下Spark MLlib机器学习】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

Java实现经纬度坐标转换

一、坐标系统简介 坐标系统&#xff0c;是描述物质存在的空间位置&#xff08;坐标&#xff09;的参照系&#xff0c;通过定义特定基准及其参数形式来实现。 坐标是描述位置的一组数值&#xff0c;按坐标的维度一般分为一维坐标&#xff08;公路里程碑&#xff09;和二维坐标…

electron录制工具-准备录制mask

要求 在录制之前&#xff0c;有个倒计时的蒙层提示&#xff1b; 效果 electron录制工具-倒计时准备录制效果 实现 1、无边框、透明窗口 2、保持窗口层级为最顶层 3、倒计时效果 4、倒计时结束之后修改系统托盘的状态 代码地址 // 创建 无边框、透明窗口&#xff1b;保持窗…

SpringFramework总结

一.SpringFramework介绍 (一)Spring 广义上的 Spring 泛指以 Spring Framework 为基础的 Spring 技术栈。 Spring 已经不再是一个单纯的应用框架&#xff0c;而是逐渐发展成为一个由多个不同子项目&#xff08;模块&#xff09;组成的成熟技术&#xff0c;例如 Spring Frame…

【机器学习系列】“购物篮分析入门:使用Apyori库进行关联规则挖掘”

目录 一、关联分析介绍 关键概念&#xff1a; 1. 支持度&#xff08;Support&#xff09; 2. 置信度&#xff08;Confidence&#xff09; 3. 提升度&#xff08;Lift&#xff09; 4. 频繁项集 5. 关联规则 应用场景&#xff1a; 实现方法 二、导入数据集 额外介绍一…

实用商务口语:“企业文化”用英语怎么说?柯桥学英语去银泰

企业文化是指企业员工共有的一套观念、信念、价值和价值行为准则&#xff0c;以及由此导致的行为模式。 英文可以说&#xff1a;enterprise / company / corporate culture。 情景对话练习01 A:Your company made a lot of achievements last year; how do you make it? 你们…