InstantStyle-Plus:风格转移与内容保留在文本到图像的生成

在之前的文章中已经和大家介绍过小红书在风格保持方面的优秀工作InstantID和InstantStyle,感兴趣的小伙伴可以点击下面👇链接阅读~

小红书InstantID来了, 一张照片几秒钟就能生成个性化图片, 无缝衔接Stable Diffusion)

InstantID作者新作:InstantStyle风格保持项目发布,一个强化版的IP-Apadter来了!

​如今,小红书团队发布进阶的风格保持项目InstantStyle-Plus。在原来 InstantStyle 的基础上增加了两种方法来保持原图的结构:

  • 用"反向噪声"来初始化图片生成过程,;

  • 用"Tile ControlNet"来控制生成过程。

使用了全局的图像适配器保持语意内容,比如人物的身份、性别、年龄等。

相关链接

论文地址:https://arxiv.org/abs/2407.00788

代码地址: https://github.com/instantX-research/InstantStyle-Plus

试用链接:https://huggingface.co/spaces/InstantX/InstantStyle

论文阅读

摘要

风格迁移是一种创造性的过程,旨在创建一幅既保留原始图像的精髓又包含另一种图像的视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动的应用中表现出令人印象深刻的生成能力,但现有的最先进方法在实现内容保存和风格增强之间的无缝平衡方面仍然遇到困难。例如,放大风格的影响力往往会破坏内容的结构完整性。

为了应对这些挑战,我们将风格迁移任务解构为三个核心元素:

  • 风格,关注图像的美学特征;

  • 空间结构,涉及视觉元素的几何排列和组成;

  • 语义内容,捕捉图像的概念意义。

在这些原则的指导下,我们引入了 InstantStyle-Plus,这是一种优先考虑原始内容完整性同时无缝集成目标风格的方法。具体来说,我们的方法利用尖端的 InstantStyle 框架,通过高效、轻量级的过程实现风格注入。为了加强内容保存,我们使用反转内容潜在噪声和多功能即插即用图块 ControlNet 来启动该过程,以保留原始图像的固有布局。我们还整合了一个全局语义适配器来增强语义内容的保真度。为了防止风格信息的淡化,我们使用了风格提取器作为鉴别器来提供补充风格指导。

方法

在本研究中,我们专注于更实用的应用:保持原始内容完整性的风格转换,而不是增强传统的个性化或风格化的文本到图像合成。我们将此任务分解为三个子任务:风格注入、空间结构保存和语义内容保存。

对于风格融合,我们遵循 InstantStyle 的方法,将风格特征专门注入特定于风格的块中。为了保留内容,我们使用反转的内容噪声进行初始化,并使用预先训练的 Tile ControlNet 来保持空间构图。为了实现语义完整性,为内容图像集成了一个图像适配器。为了协调内容和风格,我们引入了一个风格鉴别器,利用风格损失在整个去噪过程中改进预测的噪声。我们的方法是无需优化的。

效果

与以往方法比较。除了StyleID它已经为内容保存而设计,我们利用其他作品的官方实现,整合ControlNet以达到空间保存的目的。

子模块分析,为了简洁起见使用以下缩写:初始内容潜在(ICL),Canny ControlNet (Canny), Tile ControlNet(Tile)、 语义保存(Sem)和风格指导(SG)。

基于图像的图像风格化结果。给定一个内容图像和样式,对于图像,我们的无需训练的方法可以支持内容保留样式化。对于以人为中心的风格化,为了公平比较,我们不使用任何身份保留模型。

局限性和未来工作

作为一个预实验项目,我们的重点不是深入研究内容和风格之间的相互作用,而是仅评估现有技术在应用中的实际效用。仍有几个挑战有待解决。首先,反演过程被证明非常耗时,这对于较大规模的应用来说可能是一个重要的考虑因素。其次,我们认为 Tile ControlNet 的潜力尚未充分发挥,这表明其功能还有充足的进一步探索空间。第三,虽然风格指导的应用很有效,但由于梯度会在像素空间中积累,因此需要大量的 VRAM。这表明需要一种更复杂的方法来有效地利用风格信号。根据本报告中的一些观察结果,我们正在开发一个更优雅的框架,以在训练阶段注入风格而不损害内容完整性。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于 Mac 系统 .DS_store 文件的起源

原文:Arno - 2006.10.01 (前排提醒:可以在 .gitignore 中添加 .DS_Store,否则 git 仓库会存储这个和项目无关的文件。) 如果你是 Mac 用户,曾经将文件从 Mac 传输到 Windows,那么可能对 .DS_S…

c++ word转换为pdf

在windows系统下,使用QAxObject效果是最好的 转60多兆的文件速度还是可以的,不建议使用多线程,因为多线程会多次调用转换函数,导致程序一直运行,只有全部转换完成后,程序才能继续向下运行,但是c…

云微客短视频矩阵全域营销,更高效的获客引流方式!

在抖音这样一个拥有海量用户和内容的短视频平台上,单一账号往往难以覆盖我们的客户群体,甚至于每天发布四五条视频,所引发的流量也是微乎其微的。在竞争如此激烈的市场环境中,商家企业无不想方设法追求更高效的获客引流方式&#…

SQL Server 查询死锁以及解决死锁的基本知识(图文)

目录 1. 基本知识2. 查看和解锁被锁的表3. 查看和处理数据库堵塞 1. 基本知识 在 SQL Server 中,死锁是指两个或多个进程互相等待对方持有的资源,从而无法继续执行的现象 要解决死锁问题,首先需要识别并分析死锁的发生原因,然后…

Floyd判圈算法——环形链表(C++)

Floyd判圈算法(Floyd Cycle Detection Algorithm),又称龟兔赛跑算法(Tortoise and Hare Algorithm),是一个可以在有限状态机、迭代函数或者链表上判断是否存在环,求出该环的起点与长度的算法。 …

NVM 设置系统/终端默认(default)NODE 版本

NVM 设置系统/终端默认(default)NODE 版本 nvm alias default node版本查看当前 default 指向的 node 版本为 v16.17.1 nvm alias default 切换系统默认版本 查看当前 default 指向新版本

使用POI实现Excel文件的读取(超详细)

目录 一 导入poi相关的maven坐标 二 实现创建并且写入文件 2.1实现步骤 2.2实现代码 2.3效果展示 ​编辑 2.4注意 三 实现从Excel文件中读取数据 3.1实现步骤 3.2实现代码 3.3结果展示 一 导入poi相关的maven坐标 <!-- Apache poi --><dependency><gro…

【机器学习】机器学习与自然语言处理的融合应用与性能优化新探索

引言 自然语言处理&#xff08;NLP&#xff09;是计算机科学中的一个重要领域&#xff0c;旨在通过计算机对人类语言进行理解、生成和分析。随着深度学习和大数据技术的发展&#xff0c;机器学习在自然语言处理中的应用越来越广泛&#xff0c;从文本分类、情感分析到机器翻译和…

1990-2021年297个地级市RD内部经费支出数据

地级市内部经费支出数据为研究者提供了了解地方政府在科研活动上的投入情况的重要视角。以下是对297个地级市R&D内部经费支出数据的介绍&#xff1a; 数据简介 定义&#xff1a;地级市内部经费支出是指地级市政府在一定时期内用于科研活动的经费支出。用途&#xff1a;这…

C语言 | Leetcode C语言题解之第217题存在重复元素

题目&#xff1a; 题解&#xff1a; struct hashTable {int key;UT_hash_handle hh; };bool containsDuplicate(int* nums, int numsSize) {struct hashTable* set NULL;for (int i 0; i < numsSize; i) {struct hashTable* tmp;HASH_FIND_INT(set, nums i, tmp);if (tm…

SQL 汇总各个部门当前员工的title类型的分配数目

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 描述 有一个部门表…

Sharding-JDBC

一、概念&#xff1a; Sharding-JDBC是一个在客户端的分库分表工具。它是一个轻量级Java框架&#xff0c;在Java的JDBC层提供的额外服务。 ShardingSphere提供标准化的数据分片、分布式事务和数据治理功能。 二、架构图&#xff1a; ShardingRuleConfiguration 可以包含多个 T…

Redis基础教程(七):redis列表(List)

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…

Python酷库之旅-第三方库Pandas(005)

目录 一、用法精讲 7、pandas.read_clipboard函数 7-1、语法 7-2、参数 7-3、功能 7-4、返回值 7-5、说明 7-6、用法 7-6-1、代码示例 7-6-2、结果输出 8、pandas.DataFrame.to_clipboard函数 8-1、语法 8-2、参数 8-3、功能 8-4、返回值 8-5、说明 8-6、用法…

TF-IDF计算过程一步步推导详解含代码演示

相关概念 TF-IDF TF-IDF&#xff08;Term Frequency–Inverse Document Frequency&#xff09;是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法&#xff0c;用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在…

数据分析:基于STAR+FeatureCounts的RNA-seq分析全流程流程

流程主要包含两部分组成&#xff1a; 第一部分&#xff1a;二代测序数据的Raw data的fastq文件转换成Gene Count或者Features Counts表&#xff08;行是Features&#xff0c;列是样本名&#xff09;&#xff1b;第二部分&#xff1a;对counts 表进行统计分析&#xff0c;并对其…

云计算渲染时代:选择Blender或KeyShot进行高效渲染

在云渲染技术日益成熟的背景下&#xff0c;挑选一款贴合项目需求的3D渲染软件显得尤为关键。当前&#xff0c;Blender与KeyShot作为业界领先的全能渲染解决方案&#xff0c;广受推崇。它们虽皆能创造出令人信服的逼真视觉效果&#xff0c;但在特色功能上各有所长。本篇文章旨在…

装机选单条内存还是两条内存组建双通道?有什么区别差异?

单通道和双通道内存&#xff0c;单通道仅为一根内存&#xff0c;例如主板上仅插一条8G或16G&#xff0c;甚至是32G内存。 而双通道内存一般需要主板上插上两根或以上数量的内存&#xff0c;例如双8G、双16G、双32G内存。 装机建议上两条内存组建双通道&#xff0c;可以提供双倍…

LT8711UXE2 国产芯片 Type-C with 2lane@8.1Gbps/lane 4K60 USB3.0 在线提供软硬件技术支持服务

2.一般说明 LT8711UXE2是一款高性能的Type-C/DP1.4到HDMI2.0转换器&#xff0c;设计用于将USBType-C源或DP1.4源连接到HDMI2.0收发器。该LT8711UXE2集成了一个符合DP1.4标准的接收器和一个符合HDMI2.0标准的发射器。此外&#xff0c;还包括用于CC通信的两个CC控制器&#xff0c…

乐鑫ESPRESSIF芯片开发简介

乐鑫科技&#xff08;Espressif Systems&#xff0c;通常简称乐鑫或ESPRESSIF&#xff09;是一家全球化的无晶圆厂半导体公司&#xff0c;专注于研发无线通信微控制器单元&#xff08;MCU&#xff09;芯片&#xff0c;特别在物联网&#xff08;IoT&#xff09;领域有着显著的影…