小红书新ID保持项目StoryMaker,面部特征、服装、发型和身体特征都能保持一致!(已开源)

继之前和大家介绍的小红书在ID保持以及风格转换方面相关的优秀工作,感兴趣的小伙伴可以点击以下链接阅读~

近期,小红书又新开源了一款文生图身份保持项目:StoryMaker,是一种个性化解决方案,它不仅保留了面部的一致性,还保留了多个角色场景中的服装、发型和身体的一致性,从而有可能制作由一系列图像组成的故事。

StoryMaker通过其强大的特性,彻底改变了多角色叙事创作的方式。它不仅能帮助创作者快速生成高质量的连续图像,还能确保每个角色的特征始终保持一致,无需反复进行人工调整。

下图是由StoryMaker 生成的图像。前三行讲述了"上班族"一天的生活故事,后两行讲述了一部电影《爱在黎明破晓前》的故事。

相关链接

项目地址:https://github.com/RedAIGC/StoryMaker 论文地址:https://arxiv.org/pdf/2409.12576 模型地址:https://huggingface.co/RED-AIGC/StoryMaker

论文阅读

StoryMaker:在文本到图像生成中实现一致的人物形象

摘要

无需调整的个性化图像生成方法在保持面部一致性(即身份)方面取得了重大成功,即使有多个角色也是如此。然而,在有多个角色的场景中缺乏整体一致性,阻碍了这些方法创建连贯叙事的能力。

本文介绍的StoryMaker是一种个性化解决方案,它不仅保留了面部一致性,还保留了服装、发型和身体一致性,从而通过一系列图像促进故事的创作。StoryMaker 结合了基于面部身份和裁剪角色图像的条件,包括服装、发型和身体。

具体来说,使用位置感知感知器重采样器 (PPR) 将面部身份信息与裁剪角色图像相结合,以获得不同的角色特征。为了防止多个角色和背景混合,使用带分割蒙版的 MSE 损失分别约束不同角色和背景的交叉注意力影响区域。此外训练以姿势为条件的生成网络以促进与姿势的解耦。还采用了 LoRA 来提高保真度和质量。实验证明了该方法的有效性。StoryMaker 支持众多应用程序,并与其他插件兼容

方法

StoryMaker 的模型架构。 面部图像和角色图像分别使用面部编码器和图像编码器进行嵌入,并通过提出的位置感知感知器重采样器模块进行细化。使用与 LoRA 解耦的交叉注意力将这些嵌入注入扩散模型。在底部用分割掩码说明了交叉注意力图上的注意力损失。右侧还描绘了 PPR 模块的核心。

给定一张包含一两个角色的参考图像,StoryMaker 会尝试生成一系列具有相同角色的新图像,这些新图像不仅保留相同的面孔(即身份),还保留他们的衣着、发型和身体。然后,可以根据文本提示通过改变背景、角色的姿势和风格来创建叙事。

具体来说,首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器提取其衣着、发型和身体的细节。然后使用所提出的位置感知感知器重采样器来细化这些信息。

  • 为了控制主干生成网络,将细化的信息注入 IP-Adapter 提出的解耦交叉注意模块。

  • 为了防止多个角色和背景交错,分别限制了不同角色和背景的交叉注意的影响区域。此外,还使用了 ID 损失来维护角色的身份。

  • 为了将姿势信息与参考图像分离,以 ControlNet检测到的姿势为条件训练网络。

  • 为了提高保真度和质量,还使用 LoRA 训练 U-Net。

训练完成后,可以丢弃整个 ControlNet 并通过文本提示控制角色的姿势,或者在推理过程中使用新姿势指导图像生成。

实验

两幅肖像合成

双字符图像生成的可视化。前两列显示两个不同的参考字符图像。中间的四列说明了StoryMaker实现现实合成的能力。最后四列展示了风格化合成的结果,其中字符嵌入被设置为零。

多样性应用

StoryMaker的各种应用。

单个字符条件生成的视觉对比。

结论

本文给大家介绍了 StoryMaker,这是一种新颖的个性化图像生成方法,它不仅在面部身份方面保持了一致性,而且在多个角色场景中的服装、发型和身体方面也保持了一致性。

该方法通过文本提示允许背景、姿势和风格变化,从而增强了叙事创作,实现了多样化和连贯的故事讲述。StoryMaker 利用位置感知感知器重采样器,通过融合从面部图像和裁剪的角色图像中提取的特征来获得不同的角色嵌入。为了防止多个角色和背景混合,使用 MSE 损失和分割蒙版分别限制不同角色和背景的交叉注意力影响区域。通过结合 ControlNet 的姿势解耦和 LoRA 的保真度增强,StoryMaker 可以持续生成具有匹配身份和视觉一致性的高质量图像。广泛的实验证明了 StoryMaker 在保持角色身份和一致性方面的卓越性能,尤其是在多角色场景中,优于现有的无调整模型。

该模型的多功能性通过各种应用得到进一步凸显,例如换装、角色插值以及与其他生成插件的集成。StoryMaker 为个性化图像生成做出了巨大贡献,并为数字故事讲述、漫画和其他领域的广泛应用开辟了可能性,在这些领域中,个性和叙事连贯性至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/56178.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能交通与车联网:未来出行的创新变革

随着全球城市化进程的加速和交通需求的不断增加,传统的交通管理方式已经无法满足日益复杂的交通问题。智能交通(Intelligent Transportation System, ITS)和车联网(Internet of Vehicles, IoV)作为现代科技与交通行业深…

云手机:社交平台运营的热门工具

随着互联网的飞速发展,社交平台已经成为企业推广和营销的核心渠道。传统的运营方式已经无法满足高效运营的需求,而云手机作为新兴工具,逐渐成为社交平台运营的前沿趋势。本文将深入分析云手机如何优化社交平台的运营流程,助力企业…

outlook 添加企业邮箱账号出现 553 authentication is required 错误解决

系统报错如下 问题原因 发件服务器身份验证设置错误,或者未勾选发送服务器验证的选项。 解决方案 Outlook客户端 本文以Outlook 2016为例,具体操如下: 1、在Outlook客户端的电子邮件设置窗口中,单击其他设置; 2、…

【ICPC】The 2021 ICPC Asia Shanghai Regional Programming Contest H

Life is a Game #最小生成树 #重构树 #图论 #贪心 题目描述 A good problem should have a concise statement. You are given an array a a a of length n n n, initially filled with zeros, and another array b b b of length n n n. Your goal is to transform arr…

Pandas处理时间序列之光谱分析与聚类

import matplotlib.pylab as plt %matplotlib inline import numpy as np from numpy import fft import pandas as pd 一、光谱分析 • 将时间序列分解为许多正弦或余弦函数的总和 • 这些函数的系数应该具有不相关的值 • 对正弦函数进行回归 光谱分析应用场景 基于光谱的…

集师知识付费小程序:打造培训机构在线教育的金字招牌 集师知识付费系统 集师知识付费小程序 集师知识服务系统 集师线上培训系统 集师线上卖课小程序

在数字化浪潮的推动下,在线教育已成为教育领域的热门话题。而在众多在线教育平台中,集师知识付费小程序凭借其独特的定位和创新的模式,成功为培训机构打造了一张闪亮的在线教育金字招牌。 集师知识付费小程序,是一个集课程展示、…

哪款宠物空气净化器性价比高?希喂、米家和范罗士哪款更好?

这次我真的不是很想抱怨,是我男朋友真的很过分!真的很过分,差点让我们两个分道扬镳。先听我说,这不是我和他都嫌家里太安静了吗,每天下班后两个人吃完饭就各玩各的手机,生活太无趣了,加上这几年…

软件功能测试重点和流程有哪些?专业软件测评服务公司推荐

软件功能测试就是对产品的各功能进行验证,根据功能测试用例,逐项测试,检查产品是否达到用户要求的功能。功能测试也叫黑盒测试或数据驱动测试,只需考虑需要测试的各个功能,不需要考虑整个软件的内部结构及代码.一般从软…

windows 安装 ElasticSearch

1、下载安装包 下载地址:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.14.3-windows-x86_64.zip ElasticSearch 目录结构如下: 2、配置JDK环境 ES比较耗内存,建议虚拟机4G或以上内存,jvm1g以上的内存分…

告别信息过载!NotebookLM:你的AI学习与研究助手

在信息爆炸的时代,我们每天都面临着海量的信息,如何高效地处理和理解这些信息,成为了许多人面临的挑战。 Google 推出的 NotebookLM,或许能成为你的答案。这款结合了大语言模型 (LLM) 与用户笔记的 AI 笔记本,正在重新…

【网络安全】一篇文章带你了解CTF那些事儿

文章目录 一、什么是CTF?二、CTF需要学习那些知识?新书推荐适合新手自学的网络安全基础技能“蓝宝书”:《CTF那些事儿》内容简介读者对象专家推荐三、网络安全学习路线四、网络安全学习资料 一、什么是CTF? CTF(Captu…

vue+element的confirm提示消息文字变色和换行

效果: 思路: 可以考虑采用模板字符串的思路实现 代码: this.confirm(您确定要<b style"Color: red">${text}</b>的数据项&#xff1f;<br/>单位名称: ${row.companyName} <br/>属性: ${row.attributeName}).then(() > {console.log(确定…

深入理解Java并发读写锁——ReentrantReadWriteLock

ReentrantReadWriteLock使用场景 ReentrantReadWriteLock 是 Java 的一种读写锁&#xff0c;它允许多个读线程同时访问&#xff0c;但只允许一个写线程访问&#xff08;会阻塞所有的读写线程&#xff09;。这种锁的设计可以提高性能&#xff0c;特别是在读操作的数量远远超过写…

预算不变,数据安全大升级!揭秘TRAID+的神奇之处

假期过后&#xff0c;公司弥漫着一股低沉的气息&#xff0c;公司的CTO&#xff0c;小威&#xff0c;正面对着一个令人头疼的问题——如何在不增加预算的情况下&#xff0c;提高公司的数据安全性。 如今各种勒索病毒层出不穷&#xff0c;或是因为硬盘的损坏或者员工的马虎使数据…

通信工程学习:什么是UART通用异步收发器

UART&#xff1a;通用异步收发器 UART&#xff0c;全称Universal Asynchronous Receiver/Transmitter&#xff0c;即通用异步收发传输器&#xff0c;是一种广泛应用于嵌入式领域的串行、异步、全双工通信协议。以下是关于UART的详细介绍&#xff1a; 一、定义与特点 定义&…

Docker安装ActiveMQ镜像以及通过Java生产消费activemq示例

拉取镜像 docker pull docker.io/webcenter/activemq 启动容器 docker run -d --name myactivemq -p 61616:61616 -p 8162:8161 docker.io/webcenter/activemq:latest 这样就代表启动成功了 浏览器访问 http://localhost:8162/ admin admin 开启验证 修改配置文件/opt/ac…

【工具推荐】Hikvision - 一款海康威视综合漏洞利用工具,适用于漏洞挖掘、SRC漏洞挖掘、护网红队、渗透测试,支持一键获取 shell。

0x00 工具介绍 Hikvision 是一款海康威视综合漏洞利用工具。 0x01 下载链接 Hikvision 下载链接: Hikvision下载 0x02 功能介绍 Hikvision 摄像头未授权访问漏洞Hikvision 远程代码执行漏洞Hikvision iVMS 综合安防系统任意文件上传漏洞Hikvision 综合安防管理平台 isecur…

三款GIS工具多角度对比:免费的倾斜摄影OSGB/3Dtiles编辑转换发布平台

GIS数据处理工具在现代技术与应用中扮演着至关重要的角色&#xff0c;它们不仅是连接原始地理信息与可分析、可视化数据的桥梁&#xff0c;更是推动地理信息系统&#xff08;GIS&#xff09;在各个行业领域深入发展与应用不可或缺的关键工具。选择一款合适的工具直接关系到数据…

CentOS 7 安装并部署 Mysql

安装 Mysql 下载并添加库&#xff08;自动安装&#xff09; sudo yum localinstall https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm安装 Mysql 包&#xff08;一路键入y即可&#xff09; yum -y install mysql mysql-server --nogpgcheck- -nogpgc…

SpringBoot教程(二十四) | SpringBoot实现分布式定时任务之Quartz(多数据源配置)

SpringBoot教程&#xff08;二十四&#xff09; | SpringBoot实现分布式定时任务之Quartz&#xff08;多数据源配置&#xff09; 前言多数据源配置引入aop依赖1. properties配置多数据源2. 创建数据源枚举类3. 线程参数配置类4. 数据源动态切换类5. 多数据源配置类HikariCP 版本…