OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

之前的文章中和大家介绍过Flux团队开源了一系列工具套件,感兴趣的小伙伴可以点击下面链接阅读~

AI图像编辑重大升级!FLUX.1 Tools发布,为创作者提供了更强大的控制能力。

OminiControl 也开源了其可控生成模型。OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。或者实现将图片中的物品放到生成图片的指定位置。 主要有以下特点:

  • 通用控制:支持主题驱动控制和空间控制(例如边缘引导和绘画生成)的统一控制框架。

  • 极简设计:在保留原始模型结构的同时注入控制信号。仅向基础模型引入 0.1% 的额外参数。

相关链接

论文:https://arxiv.org/pdf/2411.15098

模型:https://huggingface.co/Yuanshi/OminiControl

试用:https://huggingface.co/spaces/Yuanshi/OminiControl

论文阅读

摘要

本文介绍了 OminiControl,这是一个高度通用且参数高效的框架,它将图像条件集成到预先训练的扩散变换器 (DiT) 模型中。OminiControl 的核心是利用参数重用机制,使 DiT 能够使用自身作为强大的主干对图像条件进行编码,并使用其灵活的多模态注意处理器对其进行处理。与现有方法不同,这些方法严重依赖具有复杂架构的附加编码器模块,OminiControl有以下特点:

  1. 有效且高效地结合了注入的图像条件,仅需 0.1% 的附加参数。

  2. 以统一的方式处理广泛的图像调节任务,包括主题驱动生成和空间对齐条件,例如边缘、深度等。

这些功能是通过对 DiT 本身生成的图像进行训练来实现的,这对主题驱动生成特别有益。广泛的评估表明,OminiControl 在主题驱动和空间对齐条件生成方面均优于现有的基于 UNet 和 DiT 的模型。此外,论文还发布了训练数据集 Subjects200K,这是一个包含超过 200,000 张身份一致图像的多样化集合,以及一条高效的数据合成管道,以推进主题一致生成的研究。

方法

扩散变压器 (DiT) 架构和图像调节的集成方法概述。 OminiControl利用了一个参数复用机制,使DiT能够使用自身作为强大的后端来编码图像条件,并通过其灵活的多模态注意力处理器处理这些条件。与现有依赖于具有复杂架构的额外编码模块的方法不同,OminiControl以仅0.1%的额外参数有效且高效地整合了注入的图像条件,并以统一的方式解决了包括主题驱动生成和空间对齐条件(如边缘、深度等)在内的广泛图像条件控制生成任务。

两种方法整合图像条件的结果比较。与直接添加相比,多模态方法表现出更好的条件跟踪效果。

来自Subjects200K 数据集的示例。每对图像显示同一物体在不同位置、角度和光照条件下的状态。该数据集包括各种物体,例如衣服、家具、车辆和动物,共计超过 200,000张图像。该数据集以及生成管道将公开发布。

结果

主题驱动生成

文字提示
  • 提示 1:此物品的近距离视图。它放在一张木桌上。背景是一个黑暗的房间,电视开着,屏幕上正在播放烹饪节目。屏幕上的文字写着“Omini Control!”。

  • 提示 2:电影风格的镜头。在月球上,这个物品驶过月球表面。上面有一面旗帜,上面写着“Omini”。背景是地球在前景中若隐若现。

  • 提示3:在一个包豪斯风格的房间里,这件物品被放置在一张闪亮的玻璃桌上,旁边放着一瓶鲜花。在午后的阳光下,百叶窗的阴影投射在墙上。

  • 提示 4:“在海滩上,一位女士坐在一把写着‘Omini’的沙滩伞下。她穿着这件衬衫,脸上挂着灿烂的笑容,身后背着冲浪板。背景是夕阳西下。天空呈现出美丽的橙色和紫色。”

试穿效果

场景变化

Dreambooth数据集

空间对齐控制

图像修复(左:原始图像;中:蒙版图像;右:填充图像)

  • 提示:蒙娜丽莎戴着一个白色的 VR 耳机,上面写着“Omini”。

  • 提示:一本黄色的书,封面上用大号字体写着“OMINI”。底部写着“for FLUX”的字样。

限制

  • 由于训练中缺乏人类数据,该模型的主体驱动生成主要针对物体而不是人类主体。

  • 主题驱动的生成模型可能不太适合FLUX.1-dev。

  • 发布的型号目前仅支持512x512的分辨率。

待办事项

  • 发布更高分辨率(1024x1024)的模型。

  • 发布训练代码。

结论

OminiControl 使用统一的 token 方法,为跨不同任务的 Diffusion Transformers 提供参数高效的图像调节控制,无需额外的模块。该方法优于传统方法,而新的 Subjects200K 数据集(包含超过 200,000 张高质量、主题一致的图像)支持主题一致生成的进步。结果证实了 OminiControl 在扩散模型中的可扩展性和有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/61171.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用R的数据包快速获取、调用各种地理数据

数据一直是科学研究绕不开的话题,为了方便快捷的获取各种地理数据,许多R包被开发出来,今天介绍一些方便快捷的数据R包。 rnaturalearth 包使 Natural Earth 数据可用。自然地球特征包括 1:10m、1:50m 和 1&#xff1a…

如何让控件始终处于父容器的居中位置(父容器可任意改变大小)

1、改变父容器大小前 父容器是一个panel,控件是一个按钮button1 1)刚开始让button1的左边距离panel的左边缘和button1的右边距离panel的右边缘两个距离相等; 2)将button1的Anchor属性设置为None 2、改变父容器大小后 直接改变…

数据类型.

数据类型分类 数值类型 tinyint类型 以tinyint为例所有数值类型默认都是有符号的,无符号的需要在后面加unsignedtinyint的范围在-128~127之间无符号的范围在0~255之间(类比char) create database test_db; use test_db;建表时一定要跟着写上属性 mysql> creat…

[极客大挑战 2019]HardSQL--详细解析

信息搜集 登录系统,有两个可能的注入点: 随便输一下看看传参类型: 都是GET型。 SQL注入 传参 usernameadmin’&password123 传参 usernameadmin&password123’ username和password传参,四种闭合方式只有单引号报错&a…

美国发布《联邦风险和授权管理计划 (FedRAMP) 路线图 (2024-2025)》

文章目录 前言一、战略目标实施背景2010年12月,《改革联邦信息技术管理的25点实施计划》2011年2月,《联邦云计算战略》2011年12月,《关于“云计算环境中的信息系统安全授权”的首席信息官备忘录》2022年12月,《FedRAMP 授权法案》…

【经典论文阅读】Transformer(多头注意力 编码器-解码器)

Transformer attention is all you need 摘要 完全舍弃循环 recurrence 和卷积 convolutions 只依赖于attention mechanisms 【1】Introduction 完全通过注意力机制,draw global dependencies between input and output 【2】Background 1:self-…

python+django自动化平台(一键执行sql) 前端vue-element展示

一、开发环境搭建和配置 pip install mysql-connector-pythonpip install PyMySQL二、django模块目录 dbOperations ├── __init__.py ├── __pycache__ │ ├── __init__.cpython-313.pyc │ ├── admin.cpython-313.pyc │ ├── apps.cpython-313.pyc │ …

[高阶数据结构五] 图的遍历和最小生成树

1.前言 本篇文章是在认识图的基础上进行叙述的,如果你还不知道什么是图,图的存储结构。那么请你先阅读以下文章。 [高阶数据结构四] 初始图论-CSDN博客 本章重点: 本篇主要讲解及模拟实现图的遍历算法--DFS和BFS,以及最小生成树…

快速排序hoare版本和挖坑法(代码注释版)

hoare版本 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h>// 交换函数 void Swap(int* p1, int* p2) {int tmp *p1;*p1 *p2;*p2 tmp; }// 打印数组 void _printf(int* a, int n) {for (int i 0; i < n; i) {printf("%d ", a[i]);}printf("…

ROS VSCode调试方法

VSCode 调试 Ros文档 1.编译参数设置 cd catkin_ws catkin_make -DCMAKE_BUILD_TYPEDebug2.vscode 调试插件安装 可在扩展中安装(Ctrl Shift X): 1.ROS 2.C/C 3.C Intelliense 4.Msg Language Support 5.Txt Syntax 3.导入已有或者新建ROS工作空间 3.1 导入工作…

Java 基础面试 题(Java Basic Interview Questions)

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 本人主要分享计算机核心技…

【排序算法】之快速排序篇

思想&#xff1a; 分而治之&#xff0c;通过选定某一个元素作为基准值&#xff0c;将序列分为两部分&#xff0c;左边的序列小于基准值&#xff0c;右边的序列大于基准值&#xff0c; 然后再分别将左序列和右序列进行递归排序&#xff0c;直至每部分有序。 性质&#xff1a;这…

【数据结构】ArrayList与顺序表

ArrayList与顺序表 1.线性表2.顺序表2.1 接口的实现 3. ArrayList简介4. ArrayList使用4.2 ArrayList常见操作4.3 ArrayList的遍历4.4 ArrayList的扩容机制 5. ArrayList的具体使用5.1 杨辉三角5.2 简单的洗牌算法 6. ArrayList的问题及思考 【本节目标】 线性表顺序表ArrayLis…

基于RNNs+Attention的红点位置检测(pytorch)

文章目录 1 项目背景2 数据集3 思路3.1 一些小实验Ⅰ 多通道输入Ⅱ 位置编码Ⅲ 实验结果 3.2 AttentionⅠ Additive AttentionⅡ Dot-Product AttentionⅢ Scaled Dot-Product AttentionⅣ Multi-Head Attention (self-attention)Ⅴ Criss-Cross AttentionⅥ Result 4 代码 1 项…

RTSP摄像头、播放器为什么需要支持H.265?

H.264还是H.265&#xff1f; 好多开发者在做选RTSP播放器的时候&#xff0c;经常问我们的问题是&#xff0c;用H.264好还是H.265好&#xff1f;本文我们就H.264 和 H.265的主要区别和适用场景&#xff0c;做个大概的交流。 一、压缩效率 H.265 更高的压缩比 H.265 在相同视频…

Qt桌面应用开发 第八天(读写文件 文件编码 文件流)

目录 1.读文件 2.写文件及编码格式 2.1写文件 2.2编码格式 3.文件信息读取 4.文件流 4.1QTextStream 4.2QDataStream 1.读文件 需求&#xff1a;一个pushButton&#xff0c;点击之后可以选择一个txt文件的路径&#xff0c;路径会显示在lineEdit上&#xff0c;txt文件的…

chrome允许http网站打开摄像头和麦克风

第一步 chrome://flags/#unsafely-treat-insecure-origin-as-secure 第二步 填入网址&#xff0c;点击启用 第三步 重启 Chrome&#xff1a;设置完成后&#xff0c;点击页面底部的 “Relaunch” 按钮&#xff0c;重新启动 Chrome 浏览器&#xff0c;使更改生效。

IntelliJ IDEA(2024版) 的安装、配置与使用教程:常用配置、创建工程等操作(很详细,你想要的都在这里)

IDEA的安装、配置与使用&#xff1a; Ⅰ、IDEA 的安装&#xff1a;1、IDEA 的下载地址(官网)&#xff1a;2、IDEA 分为两个版本&#xff1a;旗舰版 (Ultimate) 和 社区版 (Community)其一、两个不同版本的安装文件&#xff1a;其二、两个不同版本的详细对比&#xff1a; 3、IDE…

AI前景分析展望——GPTo1 SoraAI

引言 人工智能&#xff08;AI&#xff09;领域的飞速发展已不仅仅局限于学术研究&#xff0c;它已渗透到各个行业&#xff0c;影响着从生产制造到创意产业的方方面面。在这场技术革新的浪潮中&#xff0c;一些领先的AI模型&#xff0c;像Sora和OpenAI的O1&#xff0c;凭借其强大…

基于SpringBoot实现的民宿管理系统(代码+论文)

&#x1f389;博主介绍&#xff1a;Java领域优质创作者&#xff0c;阿里云博客专家&#xff0c;计算机毕设实战导师。专注Java项目实战、毕设定制/协助 &#x1f4e2;主要服务内容&#xff1a;选题定题、开题报告、任务书、程序开发、项目定制、论文辅导 &#x1f496;精彩专栏…