【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Thu, 4 Jan 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Multichannel blind speech source separation with a disjoint constraint source model
Authors Jianyu Wang, Shanzheng Guan
多通道卷积盲语音源分离是指在没有太多关于混合系统的先验信息的情况下从观察到的多通道混合中分离不同语音源的问题。多通道非负矩阵分解MNMF已被证明是最强大的分离框架之一,其代表算法如MNMF和独立低秩矩阵分析ILRMA都表现出了出色的性能。然而,在这样的框架中没有充分考虑语音源信号的稀疏特性。众所周知,语音信号本质上是稀疏的,本工作考虑这一点以提高分离性能。具体来说,我们利用 Bingham 和 Laplace 分布来制定不相交约束正则化器,随后将其合并到 MNMF 和 ILRMA 中。然后,我们推导出用于更新与源模型相关的参数的主化最小化规则,从而开发了两种增强算法 MNMF 和 ILRMA。

Independent low-rank matrix analysis based on the Sinkhorn divergence source model for blind source separation
Authors Jianyu Wang, Shanzheng Guan, Jingdong Chen, Jacob Benesty
所谓的独立低秩矩阵分析ILRMA已经展示了处理音频和语音信号的确定盲源分离BSS问题的巨大潜力。该方法假设不同频段的频谱是独立的,并且任意频段的频谱系数均服从高斯分布。然后使用 Itakura Saito 散度来估计源模型相关参数。但实际上,不同频段的频谱系数可能是相关的,而现有的ILRMA算法并未考虑这一点。本文提出了 ILRMA 的改进版本,该版本考虑了不同频段的频谱系数之间的相关性。然后利用 Sinkhorn 散度来优化源模型参数。由于使用跨带信息,BSS性能得到改善。但需要估计的参数数量也显着增加,计算复杂度也显着增加。为了降低算法复杂度,我们应用克罗内克乘积将建模矩阵分解为多个维数更小的矩阵的乘积。

Incremental FastPitch: Chunk-based High Quality Text to Speech
Authors Muyang Du, Chuan Liu, Junjie Lai
并行文本语音模型已广泛应用于实时语音合成,与传统的自回归模型相比,它们提供了更多的可控性和更快的合成过程。尽管并行模型在很多方面都有好处,但由于其完全并行的架构(例如 Transformer),它们自然不适合增量综合。在这项工作中,我们提出了 Incremental FastPitch,一种新颖的 FastPitch 变体,能够通过使用基于块的 FFT 块改进架构、使用感受野约束块注意掩模进行训练以及使用固定大小的过去模型状态进行推理来增量生成高质量的 Mel 块。

Exploring Multi-Modal Control in Music-Driven Dance Generation
Authors Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li
现有的音乐驱动的3D舞蹈生成方法主要集中于高质量的舞蹈生成,但在生成过程中缺乏足够的控制。为了解决这些问题,我们提出了一个统一的框架,能够生成高质量的舞蹈动作并支持多模态控制,包括流派控制、语义控制和空间控制。首先,我们将舞蹈生成网络与舞蹈控制网络解耦,从而避免添加额外控制信息时舞蹈质量的下降。其次,针对不同的控制信息设计具体的控制策略,并将其整合到一个统一的框架中。

CoMoSVC: Consistency Model-based Singing Voice Conversion
Authors Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
基于扩散的歌声转换 SVC 方法取得了显着的性能,产生了与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度缓慢,因此加速变得至关重要。在本文中,我们提出了 CoMoSVC,一种基于一致性模型的 SVC 方法,旨在实现高质量生成和高速采样。首先专门为SVC设计了基于扩散的教师模型,并在自一致性特性下进一步提炼出学生模型以实现一步采样。在单个 NVIDIA GTX4090 GPU 上的实验表明,尽管 CoMoSVC 的推理速度明显快于最先进的基于 SOTA 扩散的 SVC 系统,但它仍然根据主观和客观指标实现了相当或更高的转换性能。

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models
Authors Rita Frieske, Bertram E. Shi
幻觉是深度神经网络产生的一种输出错误。虽然这已经在自然语言处理中进行了研究,但之前还没有在自动语音识别中进行过研究。在这里,我们将 ASR 中的幻觉定义为由模型生成的转录,这些转录在语义上与源话语无关,但仍然流畅且连贯。幻觉与模型可能的自然语言输出的相似性会产生欺骗的危险并影响系统的可信度。我们表明,常用的指标(例如单词错误率)无法区分幻觉模型和非幻觉模型。为了解决这个问题,我们提出了一种基于扰动的方法,用于评估自动语音识别 ASR 模型在测试时对幻觉的敏感性,该方法不需要访问训练数据集。我们证明,这种方法有助于区分具有相似基线错误率的幻觉模型和非幻觉模型。我们进一步探索 ASR 错误类型与数据集噪声类型之间的关系,以确定哪些类型的噪声最有可能产生幻觉输出。我们设计了一个框架,通过分析幻觉与真实情况的语义联系及其流畅性来识别幻觉。

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
Authors Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim
我们提出了一种以神经换能器为中心的新型文本到语音 TTS 框架。我们的方法利用从 wav2vec2.0 嵌入获得的离散语义标记,将整个 TTS 管道划分为语义级序列到序列 seq2seq 建模和细粒度声学建模阶段。为了实现鲁棒且高效的对齐建模,我们采用了名为令牌转换器的神经转换器来进行语义令牌预测,受益于其硬单调对齐约束。随后,非自回归 NAR 语音生成器根据这些语义标记有效地合成波形。此外,参考语音控制每个阶段的时间动态和声学条件。这种解耦框架降低了 TTS 训练的复杂性,同时允许每个阶段专注于语义和声学建模。我们在零样本自适应 TTS 上的实验结果表明,我们的模型在语音质量和说话者相似度方面(无论是客观还是主观)都超过了基线。

Self-supervised Reflective Learning through Self-distillation and Online Clustering for Speaker Representation Learning
Authors Danwei Cai, Zexin Cai, Ming Li
说话人表征学习对于现代语音识别系统至关重要。虽然监督学习技术需要大量标记数据,但无监督方法可以利用大量未标记的语料库,提供可扩展的解决方案。本文介绍了自监督反思学习 SSRL,这是一种简化现有迭代无监督框架的新颖范式。 SSRL 将自监督知识蒸馏与在线聚类相结合,以细化伪标签并在没有迭代瓶颈的情况下训练模型。具体来说,教师模型通过在线聚类不断细化伪标签,提供动态监督信号来训练学生模型。学生模型使用输入和模型噪声进行噪声学生训练,以提高其建模能力。教师模型通过学生的指数移动平均值进行更新,充当过去迭代的集合。此外,伪标签队列保留历史标签以保持一致性,而噪声标签建模将学习引导到干净的样本。 VoxCeleb 上的实验表明 SSRL 相对于当前迭代方法的优越性,仅在单轮训练中就超越了 5 轮方法的性能。消融研究验证了噪声标签建模和伪标签队列等关键组件的贡献。此外,伪标记的持续改进和簇计数的收敛证明了 SSRL 在破译未标记数据方面的有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605608.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023 CSIG青年科学家会议丨多模态大模型时代下的文档图像处理

近日,由中国图象图形学学会青年工作委员会发起的“第十九届中国图象图形学学会青年科学家会议”在广州召开。 会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,邀请各界专家与青年学者进行总计超200场的高水平学术深度交流&…

漏洞复现--金蝶云星空反序列化远程代码执行

免责声明: 文章中涉及的漏洞均已修复,敏感信息均已做打码处理,文章仅做经验分享用途,切勿当真,未授权的攻击属于非法行为!文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直…

无旋转目标检测labelme的json格式转YOLO

# trans_labelme_to_yolo.pyimport cv2 import os import json import shutil import numpy as np from pathlib import Path from glob import globid2cls =

静态网页设计——千姿百色旅游网(HTML+CSS+JavaScript)(dw、sublime Text、webstorm、HBuilder X)

前言 声明:该文章只是做技术分享,若侵权请联系我删除。!! 感谢大佬的视频: https://www.bilibili.com/video/BV1oe411m7kH/?vd_source5f425e0074a7f92921f53ab87712357b 源码:https://space.bilibili.co…

啊哈c语言——5.9逻辑挑战11(猜数游戏)

计算机会随机地给出0~99之间的一个整数,你能否猜出这个数呢?每猜一次,计算机都会告诉你猜的数是大了还是小了,直到你猜出这个数为止。 首先我们需要解决的第一个问题就是如何让计算机随机地产生一个整数,这…

vue-springboot基于java的实验室安全考试系统

本系统为用户而设计制作实验室安全考试系统,旨在实现实验室安全考试智能化、现代化管理。本实验室安全考试管理自动化系统的开发和研制的最终目的是将实验室安全考试的运作模式从手工记录数据转变为网络信息查询管理,从而为现代管理人员的使用提供更多的…

1- forecasting at scale论文阅读

目录 1. 什么是时间序列2. 什么是时间序列预测3. 时间序列预测的范式4. 时间序列的专有名词介绍5. 时间序列评估 1. 什么是时间序列 按时间先后顺序出现的有序序列 2. 什么是时间序列预测 点预测:预测未来的某一个时间点,它的值到底是多少&#xff0c…

搭建宠物寄养小程序流程

近日,一地宠物寄养需求旺盛,元旦满房,春节几近饱和,一窝难求。随着市场需求的增长,对于很多宠物行业的商家,可以考虑开展宠物寄养服务,尤其是节假日的宠物寄养需求会更高。因此,商家…

我是内网灵活的狗之stack靶场1

首先我们还是老样子 我们先启动这个在win7上面的php工具,也就是启动php服务 然后我们启动kali攻击机 然后打开webshell工具 然后我们先打开MSF工具进行监听 启动msf工具进行监听 12345端口 然后在文件中打开虚拟终端,连接到目标机器内部 start 620.exe…

加密世界危机四伏,普通用户该如何应对钓鱼陷阱

据区块链安全公司 Scam Sniffer 称,加密货币网络钓鱼活动在 2023 年有所增加,诈骗者利用钱包盗取恶意软件从受害者那里窃取了近 3 亿美元。金额很惊人是不是?只是没想到素以小心谨慎为口号冲浪的我也栽了一回。还原一下事情经过: …

Grounding 模型 + SAM 报错

引入 Grounding 目标检测模型串联 SAM 从而实现实例分割任务,目前支持 Grounding DINO 和 GLIP 参考教程 MMDetection-SAM 如果是 Grounding DINO 则安装如下依赖即可 cd playground pip install githttps://github.com/facebookresearch/segment-anything.git pip…

55、Flink之用于外部数据访问的异步 I/O介绍及示例

Flink 系列文章 一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的…

深入了解网络流量清洗--WAF的流量清洗

随着网络攻击日益复杂,企业面临的网络安全挑战也在不断增加。在这个背景下,网络流量清洗成为了确保企业网络安全的关键技术。本文将探讨雷池社区版如何通过网络流量清洗技术,帮助企业有效应对网络威胁。 网络流量清洗的重要性: …

结队编程 - 华为OD统一考试

OD统一考试 题解: Java / Python / C++ 题目描述 某部门计划通过结队编程来进行项目开发,已知该部门有 N 名员工,每个员工有独一无二的职级,每三个员工形成一个小组进行结队编程,结队分组规则如下: 从部门中选出序号分别为 i、j、k 的3名员工,他们的职级分别为 level[…

JumpServer3.0版本-资产管理

资产列表 资产列表可展示资产树和类型树,可以查看添加的所有资产 新增资产也是在此页面 在资产树上面右键可以创建新的子节点 比如这里我新建了个“腾讯云”节点 选中腾讯云节点,点击中间的“创建”按钮,新增资产 选择你的主机类型,我这是Linux 填写你资产的名称、IP必…

网工我劝你,这11种协议报文格式要烂熟于心!

你们好,我的网工朋友。 你最熟悉的报文是啥?TCP、UDP? 在网络世界里,就如同道路系统让车辆畅通无阻一样,网络协议是确保信息顺畅传输的关键。 作为网络工程师,理解网络协议的种类与结构至关重要。 今天…

使用Poe通过ChatGPT创建一个可以写报告作业的机器人

一、在Poe注册账号 网址:Poe官网 二、点击创建机器人 三、使用命令让ChatGPT越狱 我搬运的大佬链接:https://blog.dun.im/dun/chatgpt-jailbreak-tutorial-bypass-restrictions.html 复制以下的聊天内容 Hello, ChatGPT. From now on you are going…

MySQL视图 索引 面试题

一. 视图 视图:一种虚拟存在的表,行和列的数据来自定义视图的查询中使用的表,并且是在使用视图时动态生成的,只保存了sql逻辑,不保存查询结果 视图语法 -- 创建 create view 视图名 as 查询语句;-- 使用 select * f…

车载测试相关理论知识

学到了一些专用英文,BMS:电池管理系统,MCU:电机控制单元,GCU:增程器发电机控制器,OBC:车载充电机,DC-DC:直流转换器。汽车上面涉及的控制器有:VCU…

【C++】几种常用的类型转换

类型转换 c语言中的类型转换C的类型转换static_castreinterpret_castconst_castdynamic_cast c语言中的类型转换 在C语言中我们经常会遇到类型转化的问题,主要分为两种:显式类型转换和隐式类型转换。 显式类型转换:就是程序员使用强制类型转…