2023 Unite 大会关于“Muse“ AI 大模型训练

Unity Muse 借助强大的 AI 能力帮助你探索、构思和迭代,其中包括纹理和精灵两项功能,可将自然语言和视觉输入转化为可用资产。

将 AI 引入 Unity Editor 中的 Muse 提供了更快将想法转化为实物的选项。您可以调整并使用文本提示、图案、颜色和草图,将其转化为真实且项目准备就绪的输出。

为了提供有用、负责任和尊重其他创作者版权的输出,我们挑战自己在 Muse 的精灵和纹理生成 AI 模型训练方法上进行创新。

在本文中,我们分享了 Muse 如何生成结果,解构我们的模型训练方法,并介绍我们的两个新基础模型。

训练AI模型

在我们推出Muse的Texture和Sprite功能的同时,我们还创新了两个专有的扩散模型,每个模型都从零开始,在Unity拥有或授权的专用数据上进行训练。

扩展我们的自有内容库

为了增强我们数据集的规模和多样性,我们采用了一种关键技术——数据增强,使我们能够从原始 Unity 拥有的数据样本中产生许多变异。这极大地丰富了我们的训练集,并提高了模型从有限样本中进行泛化的能力。我们还使用了一些技术,如几何变换、色彩空间调整、噪声注入和生成模型(如稳定扩散)的样本变异,以人工扩展我们的数据集。

最近,稳定扩散模型因为最初是在从互联网上抓取的数据上进行训练而引发了伦理担忧。在构建 Muse 的纹理和精灵功能过程中,我们尽量减少对预训练模型的依赖,从零开始在 Unity 拥有并负责任地策展的原始数据集上训练潜在的扩散模型架构。通过将稳定扩散模型作为数据增强技术的一部分,我们能够安全地利用这个模型,将原始的 Unity 拥有的资产库扩展为一个强大且多样化的输出库,这些输出具有独特性、原创性,且不包含任何受版权保护的艺术风格。在此基础上,我们还采取了额外的缓解措施,如下所述。支撑 Muse 纹理和精灵功能的潜在扩散模型的训练数据集并未包含从互联网上抓取的任何数据。

以下是一些通过上述增强技术扩展的内容示例。

一个原始数据样本(左上角)以及通过混合多种增强技术获得的结果合成变异,包括基于扰动的技术(从上到下:色彩空间调整)和基于生成的技术(从左到右)

在增强现有数据后,我们仍在许多主题上发现了空白,需要填补。为了实现这一目标,我们在自己的内容上训练了稳定扩散模型,直到其行为发生显著变化。然后,我们使用这些派生模型,根据预过滤的主题列表创建了全新的合成数据。这个主题列表经过人类审查和额外的大型语言模型(LLM)自动过滤,以确保我们不会试图创建任何违反我们指导原则和目标的合成图像:一个完全不含可识别的艺术风格、受版权保护的材料和潜在有害内容的数据集。

结果是两个大型数据集,包括增强和完全合成的图像,我们对此有很高的信心,认为这两个数据集中不会包含不想要的概念。然而,尽管我们非常有信心,但我们仍然希望添加更多的过滤以确保模型的安全性。

额外的数据过滤以确保安全且有用的输出

由于我们的主要任务是确保安全、隐私和使我们的工具不会产生负面影响,因此我们开发了四个独立的分类器模型,它们负责对数据集进行额外的过滤。这些模型有助于确保数据集中的所有内容都符合我们的人工智能指导原则,以及对图像质量的额外检查。

这四个评审模型共同负责确定合成图像:

  • 不包含任何可识别的人类特征
  • 不包含任何非通用的艺术风格
  • 不包含任何知识产权的人物或标志
  • 质量可以达到可接受水平

如果一张图像没有通过四个评审模型中的任何一个所要求的高置信度阈值,那么它将被丢弃在我们的数据集中。我们决定采取谨慎的立场,并使我们的模型倾向于拒绝,以便只有具有最高置信度的图像才能通过过滤器并进入最终数据集。

Muse Modle:Photo-Real-Unity-Texture-1 和 Photo-Real-Unity-Sprite-1

在 2023 Unite 活动中,我们宣布了 Muse 的纹理和精灵功能的早期访问。驱动这些工具的第一个模型的内部版本分别称为 Photo-Real-Unity-Texture-1 和 Photo-Real-Unity-Sprite-1。这些模型仅具有基本的装饰理解,主要专注于照片写实风格。

此外,如果您想让模型匹配您项目中现有的风格,可以通过向我们风格训练系统提供少量您自己的参考资产来教导我们的模型以创建特定艺术风格的内容。这将创建一个与主模型协同工作的较小二次模型,以引导其输出。这个小二次模型对于您或您组织来说是私有的,因为它是由训练师训练的,我们永远不会使用这个内容来训练我们的主模型。

由于我们的模型专注于照片写实风格,因此我们无需在无数不同的风格上训练主模型。这种架构使我们在保持对负责任的人工智能承诺的同时,为您提供了深入的艺术控制。

今天,这些模型只是开始。我们期望 Muse 能够继续变得更聪明,并提供更好的输出,我们将通过模型改进路线图来引导这些模型走上这一道路。

Photo-Real-Unity-Texture-1 roadmap

目前,我们的纹理模型在各个方面都非常出色。它掌握了许多概念,您可以在纹理模型中自由混合完全无关的概念,并获得美丽的结果,如“金属史莱姆”或“蓝色水晶玻璃岩石”,如上所示。

尽管模型在当前状态下非常出色,但在学习它对不同提示和输入方式的反应后,我们发现使用单个单词提示可能难以实现高级材料概念。除了基本的提示准确性外,我们还计划通过添加新的指导模型方式来为您提供更多控制。

在未来,我们计划添加颜色选择器、额外的预制指导图案、改进的自定义指导图案创建系统,以及其他新的视觉输入方法,我们目前正在实验。

展望未来,我们 Photo-Real-Unity-Texture-1 的主要关注点是确定任何弱的材料概念,并通过频繁的模型重训练来继续提高整体质量和能力。您通过内置评分系统提供的反馈对于帮助我们构建最好的工具至关重要,因为它可以帮助我们确定模型能力的薄弱环节。结合我们频繁的训练计划,我们正在快速改进模型,使其更易于使用并对材料世界更加了解。

Photo-Real-Unity-Sprite-1 roadmap

类似于 Photo-Real-Unity-Texture-1,我们的基础精灵模型整体上非常出色,并知道许多概念。由于该工具目前尚未具备内置动画功能,我们选择将初期努力集中在最常见静态精灵概念的质量最大化上。您可以在上面的图片中看到基础模型的原始输出。在正常使用中,这些输出将由用户训练的模型引导,以匹配特定的艺术风格。

虽然静态物体已经非常可靠,但我们仍在努力改进动物和人类的解剖学准确性。在这些类型的主题上,您可能会获得很好的结果,但可能会遇到四肢过多或缺失,或者面部扭曲的情况。这是我们对负责任的人工智能的承诺和严格限制可使用数据所导致的结果。我们非常重视隐私和安全,即使这意味着在初期早期访问版本中某些主题的质量会受到影响。

这是我们致力于负责任的人工智能并对可用数据设置严格限制所导致的结果。我们非常重视隐私和安全,即使在初期早期访问版本中某些主题的质量受到影响,也在所不惜。

您可能会遇到生成的Sprite完全空白的情况。这是因为我们的视觉内容审核过滤器。在 Photo-Real-Unity-Sprite-1 的输出过滤方面,我们选择在初期启动时过于谨慎,因此,某些艺术风格可能会引发审核过滤器的误报。我们计划随着时间的推移,在收到您的反馈并改进内容过滤后,放宽限制。

我们期待着在获取反馈并继续负责任地收集更多数据后,所有主题的质量都会迅速提高。我们打算对 Photo-Real-Unity-Sprite-1 进行与 Photo-Real-Unity-Texture-1 类似的严格训练计划。

统一负责任的AI开发之路

Unity Muse 是我们在负责任和尊重的方式下,利用生成式AI为社区带来更大创意控制的第一步。我们以用户为中心打造这个产品,并计划根据您的反馈不断进行改进和优化。

我们认识到生成式AI对创意行业可能产生的影响,并对此非常重视。我们花费了很长时间开发这些工具,以确保我们不是在取代创作者,而是提升他们的能力。我们相信,世界上有越多创作者,世界就会变得越好,而 Unity Muse 和其背后驱动的模型,正是我们支持这一使命的持续努力。

请关注未来关于 Unity Muse 和 AI 开发的更多信息。如果您对这些产品有任何疑问,请查看我们网站上的 FAQ,或访问 Discussions与我们直接交流。

如果您是从 Unite 2023 过来的,我们将在未来几周内分享活动的录像。您可以在这里找到完整的报道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/167060.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【采坑分享】导出文件流responseType:“blob“如何提示报错信息

目录 前言: 采坑之路 总结: 前言: 近日,项目中踩了一个坑分享一下经验,也避免下次遇到方便解决。项目基于vue2axioselement-ui,业务中导出按钮需要直接下载接口中的文件流。正常是没有问题,但…

为什么在Pycharm中使用Pandas画图,却不显示?

问题描述: 在 Pycharm 中使用 Pandas 的 plot() 方法画图,却不显示图像,源代码如下: import pandas as pd import numpy as np# 从文件中读取数据 starbucks pd.read_csv(./file_csv/directory.csv)# 按照国家分组,…

想问问各位大佬,网络安全这个专业普通人学习会有前景吗?

网络安全是一个非常广泛的领域,涉及到许多不同的岗位。这些岗位包括安全服务、安全运维、渗透测试、web安全、安全开发和安全售前等。每个岗位都有自己的要求和特点,您可以根据自己的兴趣和能力来选择最适合您的岗位。 渗透测试/Web安全工程师主要负责模…

对 .NET程序2G虚拟地址紧张崩溃 的最后一次反思

一:背景 1. 讲故事 最近接连遇到了几起 2G 虚拟地址紧张 导致的程序崩溃,基本上 90% 都集中在医疗行业,真的很无语,他们用的都是一些上古的 XP,Windows7 x86,我也知道技术人很难也基本无法推动硬件系统和…

UNETR++:深入研究高效和准确的3D医学图像分割

论文:https://arxiv.org/abs/2212.04497 代码:GitHub - Amshaker/unetr_plus_plus: UNETR: Delving into Efficient and Accurate 3D Medical Image Segmentation 机构:Mohamed Bin Zayed University of Artificial Intelligence1, Univers…

哦?是吗|兜兜转转,最后还是选择了盖雅排班系统

在之前发布的和「人效案例集」中,我们为大家呈现了很多关于人效提升的理论方法,以及各家企业的人效提升提升实践。 回过头来,我们发现:排班管理渗透于人效九宫格之中,也因此成为很多企业人效提升的一个重要中介&#x…

盘点43个Python登录第三方源码Python爱好者不容错过

盘点43个Python登录第三方源码Python爱好者不容错过 学习知识费力气,收集整理更不易。 知识付费甚欢喜,为咱码农谋福利。 项目名称 bnuz中国电信校园网模拟登录,python selenium BNUZ教务系统认证爬虫Python语言实现,你可以用…

NX二次开发UF_CSYS_create_temp_csys 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CSYS_create_temp_csys Defined in: uf_csys.h int UF_CSYS_create_temp_csys(const double csys_origin [ 3 ] , tag_t matrix_id, tag_t * csys_id ) overview 概述 Creates …

win10 tensorrt源码编译onnx

直接利用官方源码,如下图,trtexec源码在TensorRT安装目录下,双击trtexec.sln文件,使用vs2019打开源码工程。 如下图,以yolov8为例子,编译成功项目之后,设置命令行参数: --onnxd:/yo…

便携式工业RFID读写器怎么选?

便携式工业RFID读写器在物流、零售、制造等行业都有着极为广泛的应用。企业利用RFID手持终端设备,可以将采集到的物品信息自动传输到中央信息系统,实现数据的实时交换和共享。目前市面上RFID手持终端品牌、型号众多,ANDEAWELL作为国内物联网产…

案例精选|聚铭网络流量智能分析审计系统加强南京市溧水区人社局信息安全防护能力

一字排开的社保综合服务窗口、实时滚动的数“智”人社大屏、便捷快速的社保卡自助服务机……每位到溧水市民中心人社大厅进行业务办理的市民对高效的社保服务经办效率赞叹不已。 党的二十大报告提出,健全覆盖全民、统筹城乡、公平统一、安全规范、可持续的多层次社…

深入理解数据结构:队列的实现及其应用场景

文章目录 🍂前言🍂队列的基本概念和特性🍂队列的实现方式️🌱顺序队列️🌱链式队列 🍂队列的基本操作及示例代码️🥑创建队列️🥑判空操作️🥑入队操作️🥑出…

GEE:APP中的遥感图像下载接口设计

作者:CSDN @ _养乐多_ 本文将详细介绍如何通过Google Earth Engine(GEE)的用户界面(ui)模块创建一个下载按钮,以触发遥感图像下载的操作。通过按钮的点击事件,我们生成了包含特定参数的图像下载链接,实现了一键式遥感图像下载功能,使整个过程更加智能和直观。 此外,…

java操作富文本插入到word模板

最近项目有个需求,大致流程是前端保存富文本(html的代码)到数据库,后台需要将富文本代码转成带格式的文字,插入到word模板里,然后将word转成pdf,再由前端调用接口下载pdf文件! 1、思…

代码随想录算法训练营第30天|回溯总结 332. 重新安排行程

回溯是递归的副产品,只要有递归就会有回溯,所以回溯法也经常和二叉树遍历,深度优先搜索混在一起,因为这两种方式都是用了递归。 回溯法就是暴力搜索,并不是什么高效的算法,最多再剪枝一下。 回溯算法能解…

从零学算法400

400.给你一个整数 n ,请你在无限的整数序列 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, …] 中找出并返回第 n 位上的数字。 示例 1: 输入:n 3 输出:3 示例 2: 输入:n 11 输出:0 解释:第…

乐得瑞LDR6020 VR串流线方案:实现同时充电传输视频信号

VR(Virtual Reality),俗称虚拟现实技术,是一项具有巨大潜力的技术创新,正在以惊人的速度改变我们的生活方式和体验,利用专门设计的设备,如头戴式显示器(VR头盔)、手柄、定…

三菱PLC定时中断应用编程(计数器+比较器)

三菱PLC如何开启定时中断可以查看下面文章链接: PLC定时中断程序应用注意事项(西门子三菱信捷)_plc设置断点之后会怎样_RXXW_Dor的博客-CSDN博客文章浏览阅读2.5k次,点赞5次,收藏6次。首先我们了解下什么是中断。中断(打断的意思),在PLC执行当前程序时,由于系统出现了…

基于SSM的老年公寓信息管理(有报告)。Javaee项目

演示视频: 基于SSM的老年公寓信息管理(有报告)。Javaee项目 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring SpringMvc …

堆的实现(C语言版)

文章目录 概述堆的实现初始化销毁插入删除取堆顶元素求堆的长度判断堆是否为空 完整代码 概述 如果有一个关键码的集合K {k0,k1,k2…kn-1}&#xff0c;把它的所有元素按完全二叉树的顺序存储方式存储在一个一维数组中&#xff0c;并满足&#xff1a;Ki <K2*i1 且 Ki<K2…