【AI视野·今日Sound 声学论文速览第三十八期】Mon, 1 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Mon, 1 Jan 2024
Totally 5 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

The Arrow of Time in Music -- Revisiting the Temporal Structure of Music with Distinguishability and Unique Orientability as the Anchor Point
Authors Qi Xu
在术语“时间之箭”作为一般主题的推动下，本文通过提及哲学认识论和物理热力学术语的词源学起源展开了音乐讨论。文章特别探讨了可区分性和独特定向性这两个具体条件，并从中推导出各自的音乐命题和案例研究。针对区分条件，本文着眼于音乐中的再现，试图从重生的角度解读巴赫的圣诞清唱剧。针对独特的定向性条件，文章讨论了延迟高潮的过程，从而提出AB AAB左复制模型，通过对待音乐的时间结构（例如音乐）来暗示有机主义观点。

Revolutionizing Personalized Voice Synthesis: The Journey towards Emotional and Individual Authenticity with DIVSE (Dynamic Individual Voice Synthesis Engine)
Authors Fan Shi
这篇综合性论文深入探讨了人工智能 AI 中个性化语音合成的前沿，重点介绍了动态个人语音合成引擎 DIVSE。 DIVSE 代表了文本到语音 TTS 技术的突破性飞跃，独特地专注于调整和个性化语音输出以匹配个人声音特征。该研究强调了当前人工智能生成声音的差距，虽然技术先进，但在复制人类语音固有的独特个性和表现力方面存在不足。它概述了个性化语音合成的挑战和进步，强调了情感表达、口音和方言变化的重要性，并捕捉了个人语音特征。 DIVSE的架构非常详细，展示了其三个核心组件语音特征学习模块VCLM、情绪语气和口音适应模块ETAAM以及动态语音合成引擎DSSE。 DIVSE 的创新方法在于其自适应学习能力，该能力会随着时间的推移而不断发展，以根据特定的用户特征定制语音输出。该论文提出了严格的实验设置，利用公认的数据集和个性化指标（例如平均意见得分 MOS 和情感一致性得分）来验证 DIVSE 相对于主流模型的优越性。

Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion
Authors Yun Chen, Lingxiao Yang, Qi Chen, Jian Huang Lai, Xiaohua Xie
情感语音转换旨在根据给定的情感操纵语音，同时保留非情感成分。现有的方法不能很好地表达细粒度的情感属性。在本文中，我们提出了一种基于注意力的交互式 diseNtangling Network AINN，它利用实例明智的情感知识进行语音转换。我们引入了一个两阶段管道来有效地训练我们的网络第一阶段利用语音间对比学习来建模细粒度的情感，并利用语音内解缠学习来更好地分离情感和内容。在第二阶段，我们建议使用多视图一致性机制来规范转换。这项技术可以帮助我们传递细粒度的情感并维持言语内容。

AQUALLM: Audio Question Answering Data Generation Using Large Language Models
Authors Swarup Ranjan Behera, Krishna Mohan Injeti, Jaya Sai Kiran Patibandla, Praveen Kumar Pokala, Balakrishna Reddy Pailla
音频问答 AQA 是一项关键任务，其中机器分析音频信号和自然语言问题以产生精确的自然语言答案。当追求 AQA 系统的精度时，拥有高质量、多样化和广泛的 AQA 数据集的重要性怎么强调也不为过。虽然开发准确、高效的 AQA 模型一直受到人们的关注，但为手头的特定任务创建高质量、多样化和广泛的数据集并没有引起足够的关注。为了应对这一挑战，这项工作做出了多项贡献。我们引入了一个可扩展的 AQA 数据生成管道，称为 AQUALLM 框架，它依赖于大型语言模型 LLM。该框架利用现有的音频字幕注释并结合最先进的法学硕士来生成广泛的高质量 AQA 数据集。此外，我们还提供了三个广泛且高质量的 AQA 基准数据集，为 AQA 研究的进展做出了重大贡献。与现有技术相比，在所提出的数据集上训练的 AQA 模型设定了卓越的基准。此外，与使用人类注释的 AQA 数据训练的模型相比，在我们的数据集上训练的模型表现出增强的通用性。

Single-channel speech enhancement using learnable loss mixup
Authors Oscar Chang, Dung N. Tran, Kazuhito Koishida
泛化仍然是单通道语音增强监督学习中的一个主要问题。在这项工作中，我们提出了可学习损失混合 LLM，这是一种简单且轻松的训练图，以提高基于深度学习的语音增强模型的泛化能力。损失混合（其中可学习损失混合是一种特殊变体）优化随机样本对的损失函数的混合，以在从这些样本对构建的虚拟训练数据上训练模型。在可学习损失混合中，通过对混合数据进行调节，使用通过神经参数化自动学习的非线性混合函数来混合损失函数。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/602327.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！