【AI视野·今日Sound 声学论文速览 第十七期】Tue, 3 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 3 Oct 2023
Totally 15 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
Authors Roi Benita, Michael Elad, Joseph Keshet
最近已证明扩散模型与高质量语音生成相关。大多数工作都集中在生成频谱图,因此,他们进一步需要后续模型将频谱图转换为波形,即声码器。这项工作提出了一种用于生成原始语音波形的扩散概率端到端模型。所提出的模型是自回归的,顺序生成重叠帧,其中每个帧都以先前生成的帧的一部分为条件。因此,我们的模型可以有效地合成无限的语音持续时间,同时保持高保真合成和时间相干性。我们实现了所提出的无条件和条件语音生成模型,其中后者可以由音素、幅度和音调值的输入序列驱动。直接处理波形具有一些经验优势。具体来说,它允许创建局部声学行为,例如声音炸裂,这使得整体波形听起来更自然。此外,所提出的扩散模型是随机的而不是确定性的,因此,每个推论都会生成略有不同的波形变化,从而实现丰富的有效实现。

uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models
Authors Muqiao Yang, Chunlei Zhang, Yong Xu, Zhongweiyang Xu, Heming Wang, Bhiksha Raj, Dong Yu
语音增强旨在提高语音信号的质量和清晰度,而语音编辑是指根据特定用户需求对语音进行编辑的过程。在本文中,我们提出了一种带有条件扩散模型的统一语音增强和编辑 uSee 模型,以生成的方式同时处理各种任务。具体来说,通过向基于分数的扩散模型提供包括自监督学习嵌入和适当的文本提示在内的多种类型的条件,我们可以实现统一语音增强和编辑模型的可控生成,以对源语音执行相应的操作。我们的实验表明,与其他相关的生成语音增强模型相比,我们提出的 uSee 模型可以在语音去噪和去混响方面实现优异的性能,并且可以在给定所需的环境声音文本描述、信噪比 SNR 和房间脉冲响应 RIR 的情况下执行语音编辑。

F0 analysis of Ghanaian pop singing reveals progressive alignment with equal temperament over the past three decades: a case study
Authors Iran R. Roman, Daniel Faronbi, Isabelle Burger Weiser, Leila Adu Gilmore
当代加纳流行歌曲融合了欧洲和加纳传统的影响。我们假设,随着时间的推移,获得嵌入平等律的技术促进了加纳歌唱与平等律音阶的逐步结合。为了验证这一点,我们研究了加纳歌手 Daddy Lumba,他的作品涵盖了从 20 世纪 80 年代末最早的加纳电子风格至今。将一位音乐家作为案例研究可以让我们在不过度解释研究结果的情况下完善我们的分析。我们整理了他的歌曲集,在 1989 年至 2016 年间发行,以从孤立的人声中提取 F0 值。我们使用高斯混合建模 GMM 来近似每首歌曲的音阶,发现音高方差随着时间的推移而减小。我们还确定了 GMM 分量是否遵循等律音阶中观察到的算术关系,并观察到近年来 Daddy Lumba 的演唱更符合等律音阶。总之,结果揭示了暴露于等律音阶的影响,导致伦巴爸爸的歌唱中微音调内容减少。

UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Authors Dongchao Yang, Jinchuan Tian, Xu Tan, Rongjie Huang, Songxiang Liu, Xuankai Chang, Jiatong Shi, Sheng Zhao, Jiang Bian, Xixin Wu, Zhou Zhao, Helen Meng
语言模型 LM 已经展示了处理各种生成任务的能力。本文介绍了 UniAudio 系统,与之前的特定于任务的方法不同,该系统利用 LM 技术在给定的输入条件下生成多种类型的音频,包括语音、声音、音乐和歌唱。 UniAudio 1 首先将所有类型的目标音频以及其他条件模态标记化,2 将源目标对连接为单个序列,3 使用 LM 执行下一个标记预测。此外,还提出了多尺度 Transformer 模型来处理标记化中基于残差矢量量化的神经编解码器引起的过长序列。 UniAudio 的训练扩展到 165K 小时的音频和 1B 参数,基于所有生成任务,旨在获得足够的先验知识,不仅在音频的内在属性上,而且在音频与其他模态之间的相互关系上。因此,经过训练的UniAudio模型有潜力成为通用音频生成的基础模型,它在所有经过训练的任务中表现出强大的能力,并且在简单的微调后可以无缝支持新的音频生成任务。实验表明,UniAudio 在 11 项任务中的大多数任务上都取得了最先进的结果,或者至少取得了有竞争力的结果。

Pianist Identification Using Convolutional Neural Networks
Authors Jingjing Tang, Geraint Wiggins, Gyorgy Fazekas
本文使用卷积神经网络 CNN 和表达特征对富有表现力的钢琴演奏中的自动表演者识别进行了全面的研究。我们的工作解决了识别钢琴演奏家这一具有挑战性的多类别分类任务,这对于构建具有智能和智能音乐系统的动态乐器具有重大意义。结合最新的进展,我们利用了大规模富有表现力的钢琴演奏数据集和深度学习技术。我们通过扩大重复和修饰来改进分数,以实现更准确的特征提取。我们展示了一维 CNN 根据表达特征识别钢琴家的能力,并分析了输入序列长度和不同特征的影响。所提出的模型优于基线,在 6 路识别任务中达到 85.3 的准确率。事实证明,我们精炼的数据集更适合训练强大的钢琴家识别器,为自动演奏者识别领域做出了重大贡献。

Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition
Authors Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
语音情感识别SER因其在人机交互中的应用而受到越来越多的关注。然而,现有的SER方法忽略了预训练语音识别任务和下游SER任务之间的信息差距,导致性能次佳。此外,它们需要大量时间来微调每个特定的语音数据集,从而限制了它们在具有大规模噪声数据的现实场景中的有效性。为了解决这些问题,我们提出了一种基于主动学习 AL 的 SER 微调框架,该框架利用任务适应预训练 TAPT 和 AL 方法来提高性能和效率。具体来说,我们首先使用 TAPT 来最小化预训练和下游任务之间的信息差距。然后,使用 AL 方法迭代选择信息最丰富且多样化的样本子集进行微调,从而减少时间消耗。实验证明仅使用 20 pt。样本提高了 8.45 点。准确率降低 79 分。

GASS: Generalizing Audio Source Separation with Large-scale Data
Authors Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serr
通用源分离的目标是分离任意混合的音频源,消除对语音或音乐等特定领域进行操作的限制。然而,通用源分离的潜力是有限的,因为大多数现有工作都集中于以声音事件为主的混合,并且小型训练数据集也限制了其监督学习的潜力。在这里,我们研究了一个通用音频源分离 GASS 模型,该模型经过训练,可以使用大规模数据集以监督方式分离语音、音乐和声音事件。我们在不同的任务集上评估 GASS 模型。我们强大的分布结果表明了 GASS 模型的可行性,并且在声音事件和语音分离方面的竞争性分布性能显示了其泛化能力。然而,对于 GASS 模型来说,推广分离发行的电影和音乐内容是一项挑战。我们还在每个数据集上微调 GASS 模型,并始终优于未经预训练的模型。

Fewer-token Neural Speech Codec with Time-invariant Codes
Authors Yong Ren, Tao Wang, Jiangyan Yi, Le Xu, Jianhua Tao, Chuyuan Zhang, Junzuo Zhou
基于语言模型的文本转语音 TTS 模型(如 VALL E)因其在零样本场景下出色的上下文学习能力而受到关注。神经语音编解码器是这些模型的关键组件,它可以将语音转换为离散的标记表示。然而,来自编解码器的过多标记序列可能会对预测准确性产生负面影响,并限制基于语言模型的 TTS 模型的进展。为了解决这个问题,本文提出了一种新颖的时不变代码神经语音编解码器,名为 TiCodec。通过将时不变信息编码和量化为单独的代码,TiCodec 可以减少需要编码的帧级信息量,从而有效减少作为语音代码的令牌数量。此外,本文引入了时不变编码一致性损失,以增强话语内时不变代码的一致性,并迫使其捕获更多全局信息,这有利于零样本 TTS 任务。

Scaling Up Music Information Retrieval Training with Semi-Supervised Learning
Authors Yun Ning Hung, Ju Chiang Wang, Minz Won, Duc Le
在数据驱动的音乐信息检索 MIR 时代,标记数据的稀缺性一直是 MIR 任务成功的主要问题之一。在这项工作中,我们利用半监督师生培训方法来改进 MIR 任务。为了进行训练,我们将未标记的音乐数据扩展到 24 万小时,这比任何公共 MIR 数据集都要大得多。我们在嘈杂的师生训练过程中迭代地创建和完善伪标签。还探索了知识扩展,以迭代方式将模型大小从小于 3M 的参数扩展到近 100M 的参数。我们在实验中研究数据大小和模型大小之间的性能相关性。通过扩大模型大小和训练数据,与以监督方式训练或基于自监督预训练模型的模型相比,我们的模型在多个 MIR 任务上取得了最先进的结果。

Towards human-like spoken dialogue generation between AI agents from written dialogue
Authors Kentaro Mitsui, Yukiya Hono, Kei Sawada
大型语言模型法学硕士的出现使得在两个代理之间生成自然的书面对话成为可能。然而,从这些书面对话中生成类似人类的口头对话仍然具有挑战性。口语对话有几个独特的特征,它们经常包括私下谈话和笑声,轮流的流畅程度显着影响对话的流畅性。本研究提出 CHATS CHatty Agents Text to Speech 是一种基于离散令牌的系统,旨在根据书面对话生成口头对话。我们的系统可以同时为说话者侧和听者侧生成语音,仅使用说话者侧的转录,从而消除了对反向通道或笑声转录的需要。此外,CHATS 有助于自然轮流,在没有重叠的情况下,它确定每次话语后适当的沉默持续时间,并且在重叠的情况下,它根据下一个话语的音素序列启动重叠语音的生成。

Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech
Authors Dareen Alharthi, Roshan Sharma, Hira Dhamyal, Soumi Maiti, Bhiksha Raj, Rita Singh
现代语音合成系统已得到显着改进,合成语音与真实语音无法区分。然而,对合成语音的有效和全面的评估仍然是一个重大挑战。使用平均意见分数 MOS 进行人工评估是理想的,但由于成本高而效率低下。因此,研究人员开发了诸如单词错误率 WER 之类的辅助自动指标来衡量清晰度。先前的工作重点是基于预先训练的语音识别模型来评估合成语音,然而,这可能是有限的,因为这种方法主要测量语音清晰度。在本文中,我们提出了一种评估技术,涉及在合成语音上训练 ASR 模型并评估其在真实语音上的性能。我们的主要假设是,通过在合成语音上训练 ASR 模型,真实语音的 WER 反映了分布之间的相似性,这是对超出可理解性的合成语音质量的更广泛的评估。

Music- and Lyrics-driven Dance Synthesis
Authors Wenjie Yin, Qingyuan Yao, Yi Yu, Hang Yin, Danica Kragic, M rten Bj rkman
歌词常常传达超出听觉维度的歌曲信息,丰富动作和音乐主题的语义。这些见解在舞蹈编排领域非常重要。然而,大多数现有的舞蹈合成方法主要关注音乐到舞蹈的生成,而没有考虑语义信息。为了补充它,我们引入了 JustLMD,这是一个包含音乐和歌词的 3D 舞蹈动作的新多模态数据集。据我们所知,这是第一个包含三元组信息的数据集,包括舞蹈动作、音乐和歌词。此外,我们还展示了一个基于跨模式扩散的网络,旨在根据音乐和歌词生成 3D 舞蹈动作。

Time-Variant Overlap-Add in Partitions
Authors Hagen Jaeger, Uwe Simmer, J rg Bitzer, Matthias Blau
虚拟现实和增强现实在建筑、生产、培训和教育、心理治疗、游戏等许多领域日益流行。为了在虚拟和增强环境中呈现令人信服的声音,音频信号必须与从一个时刻到另一个时刻变化的脉冲响应进行实时卷积。实现此类时变实时卷积算法的关键要求是短延迟、适中的计算成本和内存占用以及没有可察觉的切换伪影。在这份工程报告中,我们介绍了一种分区卷积算法,该算法能够在脉冲响应之间快速切换,而不会引入可察觉的伪影,同时保持恒定的计算负载和较低的内存使用量。

SLM: Bridge the thin gap between speech and text foundation models
Authors Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung Cheng Chiu, Yuan Cao, Yongqiang Wang, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul Rubenstein, Lukas Zilka, Dian Yu, Zhong Meng, Golan Pundak, Nikhil Siddhartha, Johan Schalkwyk, Yonghui Wu
我们提出了联合语音和语言模型 SLM,这是一种多任务、多语言和双模态模型,它利用了预训练的基础语音和语言模型。 SLM冻结预训练的基础模型以最大程度地保留其能力,并且仅训练具有仅1 156M基础模型参数的简单适配器。这种适应不仅使 SLM 在语音识别 ASR 和语音翻译 AST 等传统任务上取得了强大的性能,而且还引入了零样本指令跟踪的新颖功能,可以在给定语音输入和文本指令的情况下执行更多样化的任务,SLM 能够执行看不见的生成任务,包括使用实时上下文的上下文偏置 ASR、对话生成、语音延续和问题回答等。我们的方法表明,预训练语音和语言模型之间的表征差距可能比人们预期的要窄,并且可以通过简单的适应机制桥接。

A Novel U-Net Architecture for Denoising of Real-world Noise Corrupted Phonocardiogram Signal
Authors Ayan Mukherjee, Rohan Banerjee, Avik Ghose
心音信号中包含的生物声学信息被世界各地的医生用于听诊目的。然而,心音本质上容易受到噪声污染。各种噪音源,如肺音、咳嗽、打喷嚏和其他背景噪音都与此类污染有关。心音信号的这种损坏常常导致不确定的或错误的诊断。为了解决这个问题,我们在本文中提出了一种基于 U Net 的深度神经网络架构,用于心音图 PCG 信号的去噪。为了设计、开发和验证所提出的架构,提出了一种合成现实世界噪声破坏的 PCG 信号的新方法。为此,使用了开放获取的现实世界噪声样本数据集和开放获取的 PCG 数据集。所提出的去噪方法的性能已在合成的噪声 PCG 数据集上进行了评估。所提出算法的性能与现有最先进的 SoA 去噪算法进行了定性和定量比较。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/94158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mybatis项目启动报错:reader entry: ���� = v

问题再现 解决方案一 由于指定的VFS没有找,mybatis启用了默认的DefaultVFS,然后由于DefaultVFS的内部逻辑,从而导致了reader entry乱码。 去掉mybatis配置文件中关于别名的配置,然后在mapper.xml文件中使用完整的类名。 待删除的…

css自学框架之选项卡

这一节我们学习切换选项卡,两种切换方式,一种是单击切换选项,一种是鼠标滑动切换,通过参数来控制,切换方法。 一、参数 属性默认值描述tabBar.myth-tab-header span鼠标触发区域tabCon.myth-tab-content主体区域cla…

python模拟表格任意输入位置

在表格里输入数值,要任意位置,我找到了好方法: input输入 1. 行 2. 列输入:1 excel每行输入文字input输入位置 3.2 表示输入位置在:3行个列是要实现一个类似于 Excel 表格的输入功能,并且希望能够指定输入…

概率密度函数,概率分布函数

概率密度函数:描述信号的取值在某个确定的取值点附近的概率的函数;概率分布函数的导数。 以幅值大小为横坐标,以每个幅值间隔内出现的概率为纵坐标进行统计分析。反映了信号落在不同幅值强度区域内的概率情况。 直方图:对每个幅…

智能合约漏洞,BEVO 代币损失 4.5 万美元攻击事件分析

智能合约漏洞,BEVO 代币损失 4.5 万美元攻击事件分析 一、事件背景 北京时间 2023 年 1 月 31 日,在 twitter 上看到这样一条消息: BEVO 代币被攻击,总共损失 45000 美元,导致 BEVO 代币的价格下跌了 99%。 有趣的是…

华为云云耀云服务器L实例评测|云耀云服务器L实例部署ZFile在线网盘服务

华为云云耀云服务器L实例评测|云耀云服务器L实例部署ZFile在线网盘服务 一、云耀云服务器L实例介绍1.1 云耀云服务器L实例简介1.2 云耀云服务器L实例特点 二、ZFile介绍2.1 ZFile简介2.2 ZFile特点 三、本次实践介绍3.1 本次实践简介3.2 本次环境规划 四、购买华为云…

【Verilog 教程】6.6Verilog 仿真激励

关键词:testbench,仿真,文件读写 Verilog 代码设计完成后,还需要进行重要的步骤,即逻辑功能仿真。仿真激励文件称之为 testbench,放在各设计模块的顶层,以便对模块进行系统性的例化调用进行仿真…

word已排序好的参考文献,插入新的参考文献,序号更新

原排序好的文献序号。 现在在3号后面插入一个新文献。4,5号应该成为5,6 这时在3号后面,回车,就会自动的增长。如下图: 但是如果手滑,把[4]删除了如何排序?? 如下图: …

怎么将本地代码文件夹通过Git 命令上传到启智平台仓库

在本地创建一个与启智平台仓库同样名字的文件夹 然后在本地文件夹右键–>选择Git Bash Here,就会打开Git命令窗口 初始化本地仓库 git init将项目文件添加到Git git add .提交更改: 使用以下命令提交您的更改,并为提交添加一条描述性的消息&#…

创建线程池

如何创建线程池及处理相应任务 目录 如何创建线程池及处理相应任务线程池定义解决的问题(需求)工作原理实现线程池创建示意图重要构造器创建线程池(ExecutorService)线程池任务处理常用API处理Runnable任务处理Callable任务 使用工具类(Executors)创建线程池常用API应用案例 拓…

极大似然估计概念的理解——统计学习方法

目录 1.最大似然估计的概念的理解1 2.最大似然估计的概念的理解2 3.最大似然估计的概念的理解3 4.例子 1.最大似然估计的概念的理解1 最大似然估计是一种概率论在统计学上的概念,是参数估计的一种方法。给定观测数据来评估模型参数。也就是模型已知,参…

芯驰D9评测(2)--系统环境配置连接

linux开发板的软件开发三件套: 建立连接-->建立交叉编译环境-->建立驱动开发环境。 如果我们不涉及镜像的深度定制,只是平台化应用的话 1. 建立串口连接 查看手册, 获取接口定义说明: 板载一共两个端子,三个…

2023年山东省安全员C证证考试题库及山东省安全员C证试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2023年山东省安全员C证证考试题库及山东省安全员C证试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特种设备作业人员上岗证考试大…

Flutter笔记:手写并发布一个人机滑动验证码插件

Flutter笔记 手写一个人机滑块验证码 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_28550263/article/details/133529459 写 Flut…

备忘录:Docker基础操作与常用命令

文章目录 Docker基础操作1.1 Docker在线安装1.1.1 安装基础软件包1.1.2 安装docker主程序1.1.2.1 设置国内源1.1.2.2 安装docker 1.2 Docker离线安装1.2.1 下载离线安装包1.2.2 安装docker依赖包以及docker 1.3 设置自启动并启动dokcer1.4 安装docker-compose1.4.1 命令行下载文…

解决nvm切换node版本失败的终极办法-秒杀网上99%的水文

nvm是一款强大的node多版本管理器,可以轻易选择你需要的node版本,这对win7平台简直就是超好的福音:可以突破node 14.15以上的安装限制。 但是nvm安装有一个巨大的坑点:nvm use 版本号以后,并没有生效,nvm …

uni-app:js修改元素样式(宽度、外边距)

效果 代码 1、在<view>元素上添加一个ref属性&#xff0c;用于在JavaScript代码中获取对该元素的引用&#xff1a;<view ref"myView" id"mybox"></view> 2、获取元素引用 &#xff1a;const viewElement this.$refs.myView.$el; 3、修改…

认识柔性数组

在C99中&#xff0c;结构中的最后一个元素允许是未知大小的数组&#xff0c;这就叫做柔性数组成员 限制条件是&#xff1a; 结构体中最后一个成员未知大小的数组 1.柔性数组的形式 那么我们怎样写一个柔性数组呢 typedef struct st_type {int i;int a[0];//柔性数组成员 }ty…

HTTP协议,请求响应

、概述 二、HTTP请求协议 三、HTTP响应协议 四、请求数据 1.简单实体参数 RequestMapping("/simpleParam")public String simpleParam(RequestParam(name "name" ,required false ) String username, Integer age){System.out.println (username "…

免杀对抗-DLL劫持免杀

C&Py-DLL劫持-语言-调用加载 1.使用visual studio创建项目 2.将文件名重命名为.c后缀 3.将如下加载器代码生成dll文件 加载器代码&#xff1a; #include "pch.h" #include <Windows.h> #include <stdio.h> #include <string.h>#pragma comment…