InstantStyle-Plus:风格转移与内容保留在文本到图像的生成

在之前的文章中已经和大家介绍过小红书在风格保持方面的优秀工作InstantID和InstantStyle,感兴趣的小伙伴可以点击下面👇链接阅读~

小红书InstantID来了, 一张照片几秒钟就能生成个性化图片, 无缝衔接Stable Diffusion)

InstantID作者新作:InstantStyle风格保持项目发布,一个强化版的IP-Apadter来了!

​如今,小红书团队发布进阶的风格保持项目InstantStyle-Plus。在原来 InstantStyle 的基础上增加了两种方法来保持原图的结构:

  • 用"反向噪声"来初始化图片生成过程,;

  • 用"Tile ControlNet"来控制生成过程。

使用了全局的图像适配器保持语意内容,比如人物的身份、性别、年龄等。

相关链接

论文地址:https://arxiv.org/abs/2407.00788

代码地址: https://github.com/instantX-research/InstantStyle-Plus

试用链接:https://huggingface.co/spaces/InstantX/InstantStyle

论文阅读

摘要

风格迁移是一种创造性的过程,旨在创建一幅既保留原始图像的精髓又包含另一种图像的视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动的应用中表现出令人印象深刻的生成能力,但现有的最先进方法在实现内容保存和风格增强之间的无缝平衡方面仍然遇到困难。例如,放大风格的影响力往往会破坏内容的结构完整性。

为了应对这些挑战,我们将风格迁移任务解构为三个核心元素:

  • 风格,关注图像的美学特征;

  • 空间结构,涉及视觉元素的几何排列和组成;

  • 语义内容,捕捉图像的概念意义。

在这些原则的指导下,我们引入了 InstantStyle-Plus,这是一种优先考虑原始内容完整性同时无缝集成目标风格的方法。具体来说,我们的方法利用尖端的 InstantStyle 框架,通过高效、轻量级的过程实现风格注入。为了加强内容保存,我们使用反转内容潜在噪声和多功能即插即用图块 ControlNet 来启动该过程,以保留原始图像的固有布局。我们还整合了一个全局语义适配器来增强语义内容的保真度。为了防止风格信息的淡化,我们使用了风格提取器作为鉴别器来提供补充风格指导。

方法

在本研究中,我们专注于更实用的应用:保持原始内容完整性的风格转换,而不是增强传统的个性化或风格化的文本到图像合成。我们将此任务分解为三个子任务:风格注入、空间结构保存和语义内容保存。

对于风格融合,我们遵循 InstantStyle 的方法,将风格特征专门注入特定于风格的块中。为了保留内容,我们使用反转的内容噪声进行初始化,并使用预先训练的 Tile ControlNet 来保持空间构图。为了实现语义完整性,为内容图像集成了一个图像适配器。为了协调内容和风格,我们引入了一个风格鉴别器,利用风格损失在整个去噪过程中改进预测的噪声。我们的方法是无需优化的。

效果

与以往方法比较。除了StyleID它已经为内容保存而设计,我们利用其他作品的官方实现,整合ControlNet以达到空间保存的目的。

子模块分析,为了简洁起见使用以下缩写:初始内容潜在(ICL),Canny ControlNet (Canny), Tile ControlNet(Tile)、 语义保存(Sem)和风格指导(SG)。

基于图像的图像风格化结果。给定一个内容图像和样式,对于图像,我们的无需训练的方法可以支持内容保留样式化。对于以人为中心的风格化,为了公平比较,我们不使用任何身份保留模型。

局限性和未来工作

作为一个预实验项目,我们的重点不是深入研究内容和风格之间的相互作用,而是仅评估现有技术在应用中的实际效用。仍有几个挑战有待解决。首先,反演过程被证明非常耗时,这对于较大规模的应用来说可能是一个重要的考虑因素。其次,我们认为 Tile ControlNet 的潜力尚未充分发挥,这表明其功能还有充足的进一步探索空间。第三,虽然风格指导的应用很有效,但由于梯度会在像素空间中积累,因此需要大量的 VRAM。这表明需要一种更复杂的方法来有效地利用风格信号。根据本报告中的一些观察结果,我们正在开发一个更优雅的框架,以在训练阶段注入风格而不损害内容完整性。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国外使用代理IP的安全风险

1. 数据泄露 当使用代理IP时,用户的真实IP地址被隐藏,但仍然存在数据泄露的风险。如果代理服务器没有进行恰当的安全措施,用户的个人信息和访问记录可能会被黑客窃取或监控。 2. 恶意软件 在使用代理IP时,用户可能会在代理服务器…

关于 Mac 系统 .DS_store 文件的起源

原文:Arno - 2006.10.01 (前排提醒:可以在 .gitignore 中添加 .DS_Store,否则 git 仓库会存储这个和项目无关的文件。) 如果你是 Mac 用户,曾经将文件从 Mac 传输到 Windows,那么可能对 .DS_S…

c++ word转换为pdf

在windows系统下,使用QAxObject效果是最好的 转60多兆的文件速度还是可以的,不建议使用多线程,因为多线程会多次调用转换函数,导致程序一直运行,只有全部转换完成后,程序才能继续向下运行,但是c…

SketchUp + Enscape+ HTC Focus3 VR

1. 硬件: 设备连接 2. 软件: 安装steam steamVR Vive Business streaming 3. 操作: 双方登录steam 账号,然后带上头盔,用手柄在HTC Focus3 安装 串流软件,选择串流软件,在Enscape中选择 VR 模式即可 4.最终效果: SketchUp Enscape HTC Focus 3 VR 实时预览_哔哩哔哩_bi…

云微客短视频矩阵全域营销,更高效的获客引流方式!

在抖音这样一个拥有海量用户和内容的短视频平台上,单一账号往往难以覆盖我们的客户群体,甚至于每天发布四五条视频,所引发的流量也是微乎其微的。在竞争如此激烈的市场环境中,商家企业无不想方设法追求更高效的获客引流方式&#…

SQL Server 查询死锁以及解决死锁的基本知识(图文)

目录 1. 基本知识2. 查看和解锁被锁的表3. 查看和处理数据库堵塞 1. 基本知识 在 SQL Server 中,死锁是指两个或多个进程互相等待对方持有的资源,从而无法继续执行的现象 要解决死锁问题,首先需要识别并分析死锁的发生原因,然后…

Floyd判圈算法——环形链表(C++)

Floyd判圈算法(Floyd Cycle Detection Algorithm),又称龟兔赛跑算法(Tortoise and Hare Algorithm),是一个可以在有限状态机、迭代函数或者链表上判断是否存在环,求出该环的起点与长度的算法。 …

什么是断路器模式?Hystrix在其中扮演什么角色?

断路器模式(Circuit Breaker Pattern) 断路器模式是一种设计模式,它用于在分布式系统中防止级联失败的发生。类比于电路中的断路器,该模式的核心思想是当系统检测到一些调用或响应出现问题(如超时、异常等&#xff09…

科研绘图系列:R语言箱线图(boxplot)

介绍 使用 ggplot2 包画箱线图通常使用 geom_boxplot() 函数。箱线图(Boxplot)是一种用于展示一组数据分布特征的图形,它能够提供以下信息: 中位数:箱线图中的中位线表示数据的中位数。四分位数:箱线图的箱子部分表示数据的四分位数范围,即25%和75%分位数,这可以展示数…

SQL面试题练习 —— 各用户最长的连续登录天数-可间断

目录 1 题目2 建表语句3 题解 1 题目 现有各用户的登录记录表t_login_events如下,表中每行数据表达的信息是一个用户何时登录了平台。现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录&#xf…

NVM 设置系统/终端默认(default)NODE 版本

NVM 设置系统/终端默认(default)NODE 版本 nvm alias default node版本查看当前 default 指向的 node 版本为 v16.17.1 nvm alias default 切换系统默认版本 查看当前 default 指向新版本

使用POI实现Excel文件的读取(超详细)

目录 一 导入poi相关的maven坐标 二 实现创建并且写入文件 2.1实现步骤 2.2实现代码 2.3效果展示 ​编辑 2.4注意 三 实现从Excel文件中读取数据 3.1实现步骤 3.2实现代码 3.3结果展示 一 导入poi相关的maven坐标 <!-- Apache poi --><dependency><gro…

【机器学习】机器学习与自然语言处理的融合应用与性能优化新探索

引言 自然语言处理&#xff08;NLP&#xff09;是计算机科学中的一个重要领域&#xff0c;旨在通过计算机对人类语言进行理解、生成和分析。随着深度学习和大数据技术的发展&#xff0c;机器学习在自然语言处理中的应用越来越广泛&#xff0c;从文本分类、情感分析到机器翻译和…

MySQL集群如何在主节点查询从节点的IP信息

在MySQL集群环境中&#xff0c;要查询从节点&#xff08;也称为复制从库&#xff09;的IP信息&#xff0c;你可以通过在主节点上执行相关的SQL查询来获取。这里提供了一些可能的方法&#xff1a; 方法一&#xff1a;SHOW SLAVE HOSTS命令&#xff08;适用于MySQL复制环境&…

1990-2021年297个地级市RD内部经费支出数据

地级市内部经费支出数据为研究者提供了了解地方政府在科研活动上的投入情况的重要视角。以下是对297个地级市R&D内部经费支出数据的介绍&#xff1a; 数据简介 定义&#xff1a;地级市内部经费支出是指地级市政府在一定时期内用于科研活动的经费支出。用途&#xff1a;这…

C语言 | Leetcode C语言题解之第217题存在重复元素

题目&#xff1a; 题解&#xff1a; struct hashTable {int key;UT_hash_handle hh; };bool containsDuplicate(int* nums, int numsSize) {struct hashTable* set NULL;for (int i 0; i < numsSize; i) {struct hashTable* tmp;HASH_FIND_INT(set, nums i, tmp);if (tm…

SQL 汇总各个部门当前员工的title类型的分配数目

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 描述 有一个部门表…

Sharding-JDBC

一、概念&#xff1a; Sharding-JDBC是一个在客户端的分库分表工具。它是一个轻量级Java框架&#xff0c;在Java的JDBC层提供的额外服务。 ShardingSphere提供标准化的数据分片、分布式事务和数据治理功能。 二、架构图&#xff1a; ShardingRuleConfiguration 可以包含多个 T…

2813. 子序列最大优雅度

2813. 子序列最大优雅度 题目链接&#xff1a;2813. 子序列最大优雅度 代码如下&#xff1a; //参考:https://leetcode.cn/problems/maximum-elegance-of-a-k-length-subsequence/solutions/2375128/fan-hui-tan-xin-pythonjavacgo-by-endless-v2w1 class Solution { public…

Redis基础教程(七):redis列表(List)

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…