每日AIGC最新进展(10):符号音乐生成SYMPLEX、新型图像编辑数据集ReasonPix2Pix、角色一致性插画生成、高级的风格个性化扩散模型

Diffusion Models专栏文章汇总:入门与实战

SYMPLEX: Controllable Symbolic Music Generation using Simplex Diffusion with Vocabulary Priors

http://arxiv.org/abs/2405.12666v1 

本文介绍了一种新的符号音乐生成方法,名为SYMPLEX,它基于单纯形扩散(Simplex Diffusion,SD)模型,通过操作概率分布而非信号空间来生成音乐。该方法利用词汇表先验(vocabulary priors)来控制音乐的生成过程,允许在不进行任务特定模型调整或应用外部控制的情况下,对时间和音高进行填充、选择乐器等。

SYMPLEX模型采用SSD-LM作为基础,SSD-LM是一种基于窗口的单纯形扩散模型,用于生成任意长度的自然语言序列。与SSD-LM处理序列不同,SYMPLEX操作的是一组包含9个属性的音符事件集合。模型通过训练神经网络从噪声概率中恢复数据样本,并在生成新样本时,从随机初始化的概率开始,逐步迭代细化。此外,通过将词汇表先验与当前概率相乘并重新归一化,可以在不依赖外部模型的情况下控制生成过程。

作者从MetaMIDI数据集中提取了4小节多乐器MIDI循环,并构建了一个包含约25万个循环的数据集。他们使用了一种无序集合表示法来表示MIDI循环,每个音符事件包含9个属性。实验中,SYMPLEX在多个任务上进行了演示,包括无条件生成、有条件生成以及多种编辑任务。作者还讨论了未来工作,包括如何避免根据不同生成场景调整参数设置,以简化工作流程。

ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing

http://arxiv.org/abs/2405.11190v1

本文介绍了一个名为ReasonPix2Pix的新型图像编辑数据集,旨在提升生成模型在遵循人类指令进行图像编辑时的推理能力。现有的图像编辑模型通常只能理解明确具体的指令,但在处理隐含或定义不明确的指令时表现出推理能力的不足。为了解决这一问题,研究者们创建了ReasonPix2Pix,这是一个包含推理指令、更真实图像和输入与编辑图像之间更大变化的数据集

ReasonPix2Pix数据集通过三个部分来增强模型的推理能力:第一部分利用InstructPix2Pix数据集中的图像对,生成推理指令;第二部分和第三部分则通过生成新的编辑图像和指令来提升模型对现实图像的编辑能力。研究者们还结合了多模态大型语言模型(MLLM)和扩散模型来构建一个简单的框架,该框架能够理解指令的明确或隐含意图,并生成符合指令的输出图像。

在实验部分,研究者们使用了GPT-3.5-turbo生成数据集,并采用了Stable Diffusion v1.5和LLaVA-7Bv1.5进行微调。他们将图像大小调整为256×256,并在训练期间使用了基础学习率。通过定性和定量的实验结果,证明了ReasonPix2Pix在不需要推理和需要推理的指令编辑任务中均展现出优越的性能。用户研究也表明,当指令变得更加隐含时,ReasonPix2Pix与先前方法相比具有更大的优势。最后,研究者们讨论了数据集的局限性,并指出了数据集规模因API成本而受限,但提供了清晰的数据生成流程,以便研究人员可以扩展数据集规模。

Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models

http://arxiv.org/abs/2405.11852v1

本文探讨了如何将新角色有效地融入现有叙事中,并保持角色一致性的问题,特别是在数据有限的情况下。作者指出,现有的故事可视化生成模型在整合新角色时存在两大限制缺乏合适的基准测试和新旧角色区分的挑战。为了解决这些问题,作者提出了"NewEpisode"基准测试,包含经过改进的数据集,用于评估生成模型在仅使用单一示例故事生成新故事的能力

作者引入了"EpicEvo"方法,这是一种定制的扩散模型,用于视觉故事生成。"EpicEvo"通过一个新颖的对抗性角色对齐模块扩散过程中逐步对齐生成图像与新角色的示例图像,同时应用知识蒸馏来防止忘记角色和背景细节。这种方法使得模型能够学习如何生成包含现有角色和/或新角色的故事,并且通过对抗性角色对齐模块鼓励模型独特地生成角色,并通过从预训练模型中提取知识来保持模型先验。

为了验证"EpicEvo"的有效性,作者在"NewEpisode"基准测试上进行了定量和定性的研究。实验结果表明,"EpicEvo"在基准测试上的定量表现超过了现有的基线,并且通过质量研究确认了其在扩散模型中定制视觉故事生成的优越性。总结来说,"EpicEvo"提供了一种有效的方法,仅使用一个示例故事就能融入新角色,为诸如连载卡通等应用开辟了新的可能性。

TriLoRA: Integrating SVD for Advanced Style Personalization in Text-to-Image Generation

http://arxiv.org/abs/2405.11236v1

本文提出了一种名为TriLoRA的新方法,旨在改进文本到图像生成模型的微调过程,以实现更高级的风格个性化。现有的深度学习模型,如Stable Diffusion,在视觉艺术创作中应用广泛,但面临过拟合、生成结果不稳定和难以精确捕捉创造者所需特征等挑战。TriLoRA通过将奇异值分解(SVD)整合到低秩适应(LoRA)参数更新策略中,有效降低了过拟合风险,增强了模型输出的稳定性,并更准确地捕捉到创造者所需的微妙特征调整

TriLoRA是在LoRA框架内引入SVD的概念,通过训练两个适配器:一个标准低秩适配器(LoRA)和一个更小的适配器,这两个适配器相对于原始预训练权重并行训练。该方法的创新之处在于使用紧凑奇异值分解(Compact SVD)来确定创造者关注的特定特征数,从而提供更精确的选择空间。在TriLoRA框架中,通过将Compact SVD整合到LoRA中,优化了权重矩阵的更新,使得模型在保持较低参数数量的同时,提高了对新任务的适应性

为了评估TriLoRA和LoRA在特定风格或主题中的适应性,作者构建了两个数据集:一个包含多种幻想生物的Pokemon数据集,另一个是专注于特定风格服装的GAC数据集。实验采用了标准化Fréchet Inception距离(Normalized FID)和CLIP分数作为主要的定量评估指标,并辅以用户研究以提供定性见解。实验结果表明,TriLoRA在多个数据集上的表现优于LoRA,具有更好的模型泛化能力和创造性表达,同时保持了效率和资源限制下的优异性能。用户研究结果也支持了TriLoRA在文本视觉一致性和视觉吸引力方面的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/15124.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pod 库发布脚本

repo_tag.sh 文件 #!/bin/zsh# 私有库名称 #PODNAME${PWD##*/} PODNAME"LBHorizontalCenterLayout"function obtain_git_tag {# 类似 "s.version 0.0.1"VERSION_STRINGgrep -E s.version.* ${PODNAME}.podspecTAGtr -cd "[0-9.]" <<&…

使用 JavaParser 解析代码

[自用] 如何判断出 java 代码文本中一个方法的输入参数个数以及类型。用结构体数组存储遍历信息&#xff0c;最后用一个方法实现打印。可以使用第三方库。 如果是一个语句如何判断这个语句中的局部变量个数和类型。那么该怎么实现呢&#xff1f; 要判断 Java 代码文本中一个方…

【电源专题】什么是层间短路(Rare Short),如何检测?

层间短路发生的原因 一般线圈类制品是以漆包线缠绕导磁材料制造而成,漆包线是指外层披覆一层薄薄绝缘漆的铜线。我们常见的线圈类制品有: 电源变压器、 高压变压器、 Switching Power 变压器、 通讯变压器、 脉冲变压器、 环型变压器、 电力传输变压器、 音频传输变压器、 电…

k8s pvc pending waiting for first consumer to be created before binding

动态创建PV失败且提示waiting for first consumer to be created before binding 问题现象 使用WaitForFirstConsumer的StorageClass创建PV失败&#xff0c;PVC Event提示persistentvolume-controller waiting for first consumer to be created before binding。 问题原因 PV…

c# mysql 加锁解锁

c# mysql 加锁解锁 在C#中操作MySQL实现加锁和解锁&#xff0c;通常是通过执行特定的SQL语句来完成。MySQL支持表级锁定和行级锁定。以下是使用MySQL命令执行加锁和解锁的示例代码&#xff1a; using MySql.Data.MySqlClient;// 连接字符串 string connStr "serverloca…

【QGIS入门实战精品教程】5.3:CGCS2000转Lambert投影

参考阅读: 【GlobalMapper精品教程】081:WGS84/CGCS2000转Lambert投影 文章目录 一、加载实验数据二、投影转换三、批量投影转换一、加载实验数据 加载配套实验数据,如下图所示:图层为长沙市范围、长沙市酒店宾馆分布点位、湖南省酒店分布点位矢量数据。 双击图层,打开信…

网段与广播域

ip地址与子网掩码做与运算得到网络号&#xff0c;得到的网络号相同就是同一个网段&#xff0c;否则不是&#xff0c;跟他们在什么位置没有任何关系 这里面pc3和前两个pc虽然不在同一个网段&#xff0c;但是pc1发广播包的时候&#xff0c;pc3也能收到&#xff0c;因为路由器的所…

Vue 安装vue

1、官网安装下载安装nodejs 2、安装完成后&#xff0c;通过命令查看版本,可以查看到版本 node -v npm -v 3、安装Vue CLi npm install -g vue/cli 4、创建项目,vue create test 如果遇到报错&#xff1a; ERROR Error: spawn yarn ENOENT Error: spawn yarn ENOENT at ChildP…

前端基础入门三大核心之HTML篇:深入理解重绘与重排 —— 概念、区别与实战演练

前端基础入门三大核心之HTML篇&#xff1a;深入理解重绘与重排 —— 概念、区别与实战演练 HTML渲染基础回顾重绘与重排的概念重绘&#xff08;Repaint&#xff09;重排&#xff08;Reflow&#xff09; 区别与影响实战示例&#xff1a;优化策略与代码演示示例1&#xff1a;避免…

Dilworth 定理

这是一个关于偏序集的定理&#xff0c;事实上它也可以扩展到图论&#xff0c;dp等中&#xff0c;是一个很有意思的东西 偏序集 偏序集是由集合 S S S以及其上的一个偏序关系 R R R定义的&#xff0c;记为 ( S , R ) (S,R) (S,R) 偏序关系&#xff1a; 对于一个二元关系 R ⊂…

用 vue3 + phaser 实现经典小游戏:飞机大战

本文字数&#xff1a;7539字 预计阅读时间&#xff1a;30分钟 01 前言 说起小游戏&#xff0c;最经典的莫过于飞机大战了&#xff0c;相信很多同学都玩过。今天我们也来试试开发个有趣的小游戏吧&#xff01;我们将从零开始&#xff0c;看看怎样一步步实现一个H5版的飞机大战&a…

C# 串口通讯之艰难排错之路 —— system.ObjectDisposedException已关闭 Safe handle

今天写了一个串口通讯扫码枪驱动&#xff0c;程序运行后&#xff0c;不出意外的全线崩溃&#xff0c;开始了漫长的排查之旅&#xff0c;具体情况报错如下&#xff1a; 解决未处理 System.ObjectDisposedException Message已关闭 Safe handle Sourcemscorlib ObjectName"&…

【pyspark速成专家】4_Spark之RDD编程2

目录 四&#xff0c;常用PairRDD的转换操作 五&#xff0c;缓存操作 四&#xff0c;常用PairRDD的转换操作 PairRDD指的是数据为长度为2的tuple类似(k,v)结构的数据类型的RDD,其每个数据的第一个元素被当做key&#xff0c;第二个元素被当做value. reduceByKey #reduceByKey…

层次式架构设计理论与实践

层次式体系结构概述 软件体系结构为软件系统提供了结构、行为和属性的高级抽象&#xff0c;由构成系统的元素描述这些元素的相互作用、指导元素集成的模式以及这些模式的约束组成。 层次式体系结构的每一层最多只影响两层&#xff0c;同时只要给相邻层提供相同的接口&#xff…

禁用win10自动更新

services.msc——Windows Update——常规——启动类型——禁用 services.msc——Windows Update——恢复——三个无操作&#xff0c;9999天。 gpedit.msc——计算机配置——管理模板——Windows组件——Windows更新——配置自动更新——已启用——2-通知下载和自动更新 Windows…

如何参与github开源项目并提交PR

&#x1f47d;System.out.println(“&#x1f44b;&#x1f3fc;嗨&#xff0c;大家好&#xff0c;我是代码不会敲的小符&#xff0c;目前工作于上海某电商服务公司…”); &#x1f4da;System.out.println(“&#x1f388;如果文章中有错误的地方&#xff0c;恳请大家指正&…

高速公路定向广播(声光一体) HT-600D

1、产品概述&#xff1a; HT-600D声光一体平面波IP定向广播是北京恒星科通创新性研发产品&#xff0c;采用公司自主研发的平面波传声技术&#xff0c;该产品具有高声压、强指向性、高清晰度等特点&#xff0c;采用定向声传声技术将声音聚集到正前方定向传输,周边声压级明显降低…

BTC系列-系统学习铭文(二)-序数理论

Ordinals的BIP: https://github.com/ordinals/ord/blob/master/bip.mediawiki 序数理论概述 序数是一种比特币的编号方案&#xff0c;允许跟踪和转移单个聪。这些数字被称作序号。比特币是按照它们被挖掘的顺序编号的&#xff0c;并从交易输入转移到交易输出&#xff08;遵循先…

面试题:对已经关闭的channel进行读写

在Go语言中对已经关闭的channel进行读写&#xff0c;结果会有所不同。 读操作 我们可以安全地从一个已经关闭的channel中进行读取数据。如果channel中还有未读取的数据&#xff0c;读操作将成功并返回数据以及一个用于表示数据是否有效的标记(如果channel已经关闭并且该数据有…

YOLOV10实时端到端目标检测

代码地址&#xff1a;GitHub - THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection 论文地址&#xff1a;https://arxiv.org/pdf/2405.14458 本文介绍了YOLO系列目标检测器在实时和高效方面的优势&#xff0c;但是仍然存在一些缺陷&#xff0c;包括依赖非极大值…