Lumina-T2X 一个使用 DiT 架构的内容生成模型,可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

Lumina-T2X 是一个新的内容生成系列模型,统一使用 DiT 架构。通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

可以在大幅提高生成质量的前提下大幅减少训练成本,而且同一个架构支持不同的内容生成。图像质量相当不错。

由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类 6 亿参数模型的 35%。

目前放出了 Lumina-T2I 图像生成模型,模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。

相关链接

论文链接:https://arxiv.org/pdf/2405.05945 模型下载:https://huggingface.co/Alpha-VLLM/Lumina-T2I

论文阅读

摘要

Sora揭示了缩放扩散变压器(DIT)的潜力 以任意分辨率,宽高比和持续时间为单位的影像图像和视频,但仍然缺乏足够的实施细节。

在这份技术报告中,我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器(FLAG-DIT),作为一个统一的框架,旨在将噪声转换为图像,视频,多视图 3D对象和音频剪辑以文本说明为条件。

通过对潜在的时空空间进行象征,并结合了[Nextline]和[NextFrame]令牌等可学习的占位符,Lumina-T2X无缝地统一了各种时空分辨率的不同方式的表示。这种统一的方法可以在单个框架内培训不同方式,并可以在任何分辨率,宽高比和推理期间的长度下灵活地生成多模式数据。诸如绳索,rmsnorm和流匹配之类的高级技术增强了旗帜dit的稳定性,灵活性和可扩展性,使Lumina-T2X的模型可扩展到高达70亿个参数,并将上下文窗口扩展到128K tokens。

带有Lumina-T2I型号和Lumina-T2V型号的长720p视频的图像对于创建超高定义特别有益。值得注意的是,由50亿参数的旗帜驱动的Lumina-T2i仅需要6亿参数NAIVE DIT(PIXART-α)的训练计算成本的35%,这表明参数数量显着增加 加速生成模型的收敛性而不损害视觉质量。我们进一步的全面分析强调了Lumina-T2X在分辨率外推,高分辨率编辑,生成一致的3D视图以及具有无缝过渡的综合视频方面的初步能力。

方法

Flag-dit与标签和文本条件的比较。(左)Flag-dit与标签调节。(右)具有零初始化注意机制的文本条件反射。

我们的Lumina-T2X框架由四个组件组成:逐帧编码,输入和基于Flag-DiT的目标构建、文本编码和预测。

Lumina-T2I是一个统一的和免训练的框架,支持文本到图像的生成,分辨率外推,风格一致生成,合成生成和高分辨率编辑。

实验

Lumina-T2I能够生成任意宽高比的图像,提供优越的分辨率视觉质量和保真度,同时严格遵守给定的文本说明。

Lumina-T2I的分辨率外推样本。无需任何额外的训练,LuminaT2I能够直接生成从512512到17921792的各种分辨率的图像。

由Lumina-T2I生成的风格一致的图像生成样本。给定一个共享样式描述,Lumina-T2I可以生成一批具有不同风格一致内容的图像。

Lumina-T2I的成分生成样本。我们的Lumina-T2I框架可以生成高质量的图像与复杂区域组成基于提示和指定的组合。

演示高分辨率图像的样式编辑和主题编辑教练免费的方式。

Lumina-T2I与PixArt-α在图像生成中的定性比较 多个决议。来自Lumina-T2I的样本显示了与给定文本更好的对齐与PixArt-α相比,在所有分辨率下都具有卓越的视觉质量。

结论

在本文中,我们提出了Lumina-T2X,这是一个统一的框架,旨在将文本说明转换为任意分辨率和持续时间的任何模式,包括图像,视频,3D对象的多视图以及语音。 Lumina-T2X的核心是一系列基于流动的大扩散变压器(FLAG-DIT),精心设计用于可扩展的条件生成。配备了关键修改,包括绳索,RNSNORM,KQ-NORM和零定位的注意体系结构,[NextLine]和[NextFrame]令牌用于数据表示形式,以及与原点扩散变压器相比,我们的旗帜位从扩散到流匹配公式的转换为稳定性,灵活性和可扩展性的大大提高。我们首先验证了Imagenet基准上标志dit的生成能力,该功能表现出卓越的性能和 与扩展模型参数一致的更快收敛。

鉴于这些有前途的发现,我们以各种方式实例化旗杆,并为文本对图像,视频,视频提供统一的食谱 多文章和语音产生。我们证明,该框架不仅可以在任意分辨率下生成逼真的图像或视频任务,例如以无训练的方式推断出外推,高分辨率编辑和组成生成。

总体而言,我们希望我们的尝试,发现和开源的Lumina-T2X可以帮助阐明生成AI的路线图,并成为进一步研究开发有效大型多模式生成模型的新起点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/12090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

structured concurrency

1. 基于 c executions的异步实现 - 从理论到实践 - 知乎 (zhihu.com)

kubeadm部署k8s v1.30

k8s 1.30主要新功能 kubelet 重启后稳健的 VolumeManager 重建(SIG Storage) 防止在卷还原过程中未经授权的卷模式转换(SIG Storage) Pod 调度可用性(SIG Scheduling) PodTopologySpread 中的最小域数&a…

VitePress变成可视化了

VitePressSimple 非技术人员搭建博客的门槛又降低了,这个开源项目把VitePress变成可视化了。 要搭建博客、教程网站,VitePress是门槛最低的方案之一,唯一和技术有关的就是会用到编辑器来操作。 现在好了,VitePressSimple直接把Vit…

Java 枚举的使用与反射应用

文章目录 一、定义方式1.1 简单定义1.2 带参数定义 二、反射应用1. 反射获取枚举常量2. 反射获取枚举属性3. 动态调用枚举方法4. 动态设置枚举属性5. 判断枚举类型6. 反射获取枚举信息 单例模式:枚举类型是一种有限实例的类,枚举常量在定义时就被限定为一…

解决在云服务器上无法使用QQ邮箱发送邮件的问题

最近在做测试demo的时候发现,在本地可以使用qq邮箱的服务来进行邮件的发送,但是把项目部署到云服务器上就没办法发送邮件,并且报错是连接超时: 向xxxxxqq.com用户发送绑定邮箱验证码异常:Mail server connection fail…

leetcode234-Palindrome Linked List

题目 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表 。如果是,返回 true ;否则,返回 false 。 示例 1: 输入:head [1,2,2,1] 输出:true 分析 可以用快慢指针的方式找到链表的…

自用代码生成器代码

代码生成器 pom.xml文件中 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.ap…

【软件测试】自动化测试 Selenium 篇(一)

一、什么是自动化测试 1、自动化测试介绍 自动化测试指软件测试的自动化&#xff0c;在预设状态下运行应用程序或者系统&#xff0c;预设条件包括正常和异常&#xff0c;最后评估运行结果。将人为驱动的测试行为转化为机器执行的过程。 自动化就相当于将人工测试手段进行转换…

【激活函数--下】非线性函数与ReLU函数

文章目录 一、非线性函数在神经网络中的重要性二、ReLU函数介绍及其实现2.1 ReLU函数概述2.2 ReLU函数的Python实现及可视化 一、非线性函数在神经网络中的重要性 在神经网络中&#xff0c;激活函数的选择对于网络的性能和能力至关重要。阶跃函数和Sigmoid函数除了是激活函数的…

数据可视化-课堂记录

week02 # 数据可视化的发展历史 作用 格式塔原则 # 数据可视化的流程# 数据分析 指标体系建设 确定一个行业指标体系实现报表&#xff08;power bi python matplotlib seaborn pyecharts echarts&#xff09; # 数据分析面试 技术&#xff1a;sqlexcelpythonpowerbispss …

JS 实现冒泡排序

冒泡排序原理&#xff1a; 升序冒泡&#xff1a;两次循环&#xff0c;相邻元素两两比较&#xff0c;如果前面的大于后面的&#xff0c;就交互位置&#xff1b; 降序冒泡&#xff1a;两次循环&#xff0c;相邻元素两两比较&#xff0c;如果前面的小于后面的&#xff0c;就交互…

stable-diffusion-webui配置

源码地址 https://github.com/AUTOMATIC1111/stable-diffusion-webui.git报错Fresh install fail to load AttributeError: NoneType object has no attribute _id pydantic降级 pip uninstall pydantic pip install pydantic1.10.11记得要把clip-vit-large-patch14放在opena…

业务逻辑攻击是什么,如何有效进行防护

想象一下&#xff1a;您的开发团队刚推出了一款令人惊叹的全新应用程序&#xff0c;它具有顶级的API安全性&#xff0c;通过客户端保护对其进行了强化&#xff0c;甚至还设置了针对机器人攻击的防御措施。你感到这款产品很有安全保障&#xff0c;自己的团队出色地完成了工作。 …

解决Java Web应用中下载文件无法打开的问题

在Java Web应用中&#xff0c;文件下载是一个常见的功能。但有时候&#xff0c;即使代码看起来正确&#xff0c;下载的文件却无法正确打开。 问题描述 假设我们有以下代码用于下载文件&#xff1a; response.addHeader("Content-Disposition", "attachment;fi…

服务器通的远程桌面连接不上,关于服务器通畅但远程桌面连接不上问题的专业分析

在日常的企业IT管理中&#xff0c;服务器远程桌面连接是一个重要的操作功能。然而&#xff0c;有时会出现服务器网络通畅&#xff0c;但远程桌面无法连接的情况。 问题分析 1. 防火墙或安全组设置问题&#xff1a;服务器的防火墙或安全组可能阻止了远程桌面连接的端口&#xf…

adobe安装“Error:SyntaxError:JSON Parse error:Unexpec

mac电脑安装Adobe时&#xff0c;会提示错误“Error:SyntaxError:JSON Parse error:Unexpected EOF”&#xff0c;这是怎么回事儿的&#xff0c;不管您是安装AI、PS、PR还是LR&#xff0c;如果也遇到相同的问题&#xff0c;可以参考一下方法解决&#xff1a; 「adobe安装提示错误…

Java RMI反序列化总结篇-01

1.java rmi反序列化 RMI 允许一个应用程序访问另外一个服务器或虚拟机上的对象&#xff0c;方法和服务&#xff0c;它使远程方法调用就像在本地调用一样简单。它为用户屏蔽了底层的网络传输细节&#xff0c;使用的时候只需适当处理异常即可。所以 RMI 是非常容易使用的&#x…

Kubernetes集群安装

Kubernetes集群安装 环境准备 192.168.1.53 k8s-master 192.168.1.52 k8s-node-1 192.168.1.51 k8s-node-2 设置三台机器的主机名&#xff1a; Master上执行&#xff1a; [rootlocalhost ~]# hostnamectl --static set-hostname k8s-masterNode1上执行&#xff1a; [ro…

vue3+vite项目部署服务器,选择非根目录访问

背景 vue3vite项目&#xff0c;需要部署服务器。 但是根目录已经部署了另外一个项目A了&#xff0c;这个时候要在部署另外一个项目B。 问题 比如你的地址是http://test.com 之前直接输入http://test.com即可访问A项目 如果B项目也这么干的话就冲突了 访问A&#xff1a;http…

哪款骨传导耳机最值得入手?精选5款顶尖配置的骨传导耳机,闭眼入也不踩雷!

作为一名有着多年工作经验的数码博主&#xff0c;我见证了无数因盲目追求新颖而引发的听力问题。在此&#xff0c;我必须郑重提醒大家&#xff0c;虽然市面上充斥着众多声称能提供卓越音质和佩戴舒适度的骨传导耳机品牌&#xff0c;但它们之间存在大量劣质产品&#xff0c;这类…