【AI视野·今日Sound 声学论文速览 第二十六期】Mon, 16 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Mon, 16 Oct 2023
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Low-latency Speech Enhancement via Speech Token Generation
Authors Huaying Xue, Xiulian Peng, Yan Lu
现有的基于深度学习的语音增强主要采用数据驱动的方法,利用大量具有各种噪声类型的数据来实现从噪声信号中去除噪声。然而,对数据的高度依赖性限制了其对现实生活环境中看不见的复杂噪声的泛化。在本文中,我们关注低延迟场景,并将语音增强视为以噪声信号为条件的语音生成问题,我们生成干净的语音,而不是识别和消除噪声。具体来说,我们提出了一种用于语音增强的条件生成框架,该框架通过神经语音编解码器的声学代码对干净的语音进行建模,并以自回归的方式生成以过去的噪声帧为条件的语音代码。此外,我们提出了一种显式对齐方法,将噪声帧与生成的语音标记对齐,以提高不同输入长度的鲁棒性和可扩展性。与其他利用多级生成语音代码的方法不同,我们利用基于 TF Codec 神经编解码器的单级语音生成方法来实现低延迟的高语音质量。

Transformer-based Autoencoder with ID Constraint for Unsupervised Anomalous Sound Detection
Authors Jian Guan, Youde Liu, Qiuqiang Kong, Feiyang Xiao, Qiaoxi Zhu, Jiantong Tian, Wenwu Wang
无监督异常声音检测 ASD 旨在在只有正常声音数据的情况下检测设备的未知异常声音。基于自动编码器AE和自监督学习的方法是两种主流方法。然而,基于 AE 的方法可能受到限制,因为从正常声音中学习的特征也可以适合异常声音,从而降低了模型从声音中检测异常的能力。自监督方法并不总是稳定并且表现不同,即使对于相同类型的机器也是如此。此外,异常声音可能持续时间很短,使其更难以与正常声音区分开。本文提出了一种基于 ID 约束 Transformer 的自动编码器 IDC TransAE 架构,具有针对无监督 ASD 的加权异常分数计算。采用机器ID来约束基于Transformer的自动编码器TransAE的潜在空间,通过引入简单的ID分类器来学习相同机器类型的分布差异,并增强模型区分异常声音的能力。此外,引入加权异常分数计算来突出仅出现时间较短的异常事件的异常分数。

Differential Evolution Algorithm based Hyper-Parameters Selection of Convolutional Neural Network for Speech Command Recognition
Authors Sandipan Dhar, Anuvab Sen, Aritra Bandyopadhyay, Nanda Dulal Jana, Arjun Ghosh, Zahra Sarayloo
语音命令识别 SCR 负责识别简短的语音命令,对于包括物联网设备和辅助技术在内的各种应用至关重要。尽管卷积神经网络 CNN 在 SCR 任务中展现出了良好的前景,但其功效在很大程度上依赖于超参数选择,而手动完成时通常既费力又耗时。本文介绍了一种基于差分进化 DE 算法的 CNN 超参数选择方法,旨在提高 SCR 任务的性能。使用 Google Speech Command GSC 数据集进行训练和测试,所提出的方法显示了对语音命令进行分类的有效性。

Learning to Behave Like Clean Speech: Dual-Branch Knowledge Distillation for Noise-Robust Fake Audio Detection
Authors Cunhang Fan, Mingming Ding, Jianhua Tao, Ruibo Fu, Jiangyan Yi, Zhengqi Wen, Zhao Lv
大多数虚假音频检测 FAD 的研究都集中于提高标准无噪声数据集的性能。然而,在实际情况中,通常存在噪声干扰,这会导致FAD系统的性能显着下降。为了提高噪声鲁棒性,我们提出了一种双分支知识蒸馏假音频检测 DKDFAD 方法。具体来说,设计了干净教师分支和噪声学生分支的并行数据流,并提出了基于交互融合和响应的师生范式,从数据分布和决策角度指导噪声数据的训练。在噪声分支中,首先引入语音增强进行去噪,减少强噪声的干扰。所提出的交互式融合结合了去噪特征和噪声特征,以减少语音失真的影响并寻求与干净分支的数据分布的一致性。师生范式将学生的决策空间映射到教师的决策空间,使嘈杂的语音表现得干净。此外,还采用联合训练方法对两个分支进行优化,以实现全局最优。

CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models
Authors Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
音频的一个基本特征是它的组合性质。使用对比方法训练的音频语言模型 ALM,例如学习音频和语言模态之间共享表示的 CLAP,提高了许多下游应用的性能,包括零样本音频分类、音频检索等。然而,这些模型有效地执行组合推理在很大程度上仍未被探索,需要进行额外的研究。在本文中,我们提出了 CompA,这是两个专家注释基准的集合,其中包含大多数现实世界的音频样本,用于评估 ALM 中的组合推理。我们提出的 CompA 顺序评估 ALM 对音频中声学事件的顺序或发生的理解程度,CompA 属性评估声学事件的属性绑定。任一基准测试的实例都包含两个音频字幕对,其中两个音频具有相同的声学事件,但成分不同。 ALM 根据正确音频与正确字幕的匹配程度进行评估。使用这个基准,我们首先表明当前的 ALM 的性能仅比随机机会好一点,因此在组合推理方面遇到了困难。接下来,我们提出 CompA CLAP,其中我们使用一种新颖的学习方法对 CLAP 进行微调,以提高其组合推理能力。为了训练 CompA CLAP,我们首先提出对具有构图感知硬底片的对比训练进行改进,从而实现更有针对性的训练。接下来,我们提出了一种新颖的模块化对比损失,可以帮助模型学习细粒度的作曲理解,并克服公开可用的作曲音频的严重稀缺性。

Toward Joint Language Modeling for Speech Units and Text
Authors Ju Chieh Chou, Chung Ming Chien, Wei Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli
语音和文本是人类语言的两种主要形式。多年来,研究界一直致力于将语音映射到文本,反之亦然。然而,在语言建模领域,很少有人对它们进行联合建模。鉴于此,我们探索语音单元和文本的联合语言建模。具体来说,我们比较不同的语音标记器将连续语音信号转换为离散单元,并使用不同的方法构建混合语音文本数据。我们引入自动指标来评估联合 LM 混合语音和文本的效果。我们还对具有不同模态语音或文本的下游口语理解 SLU 任务的 LM 进行微调,并测试其性能以评估模型对共享表示的学习。

End-to-end Online Speaker Diarization with Target Speaker Tracking
Authors Weiqing Wang, Ming Li
本文提出了一种用于说话人二值化任务的在线目标说话者语音活动检测系统,该系统不需要基于聚类的二值化系统的先验知识来获得目标说话者嵌入。通过采用传统的目标说话者语音活动检测进行实时操作,该框架可以使用自生成的嵌入来识别说话者活动,从而在推理阶段获得一致的性能,而不会出现排列不一致的情况。在推理过程中,我们采用前端模型来提取每个即将到来的信号块的帧级说话人嵌入。接下来,我们根据这些帧级说话人嵌入和先前估计的目标说话人嵌入来预测每个说话人的检测状态。然后,根据当前块中的预测聚合这些帧级说话人嵌入来更新目标说话人嵌入。我们的模型预测每个块的结果并更新目标扬声器嵌入,直到到达信号末尾。实验结果表明,该方法在 DIHARD III 和 AliMeeting 数据集上优于基于离线聚类的二值化系统。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/110267.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中文编程开发语言工具开发的实际软件案例:称重管理系统软件

中文编程开发语言工具开发的实际软件案例:称重管理系统软件 中文编程开发语言工具开发的实际软件案例:称重管理系统软件,软件可以安装在电脑上,也可以安装在收银机上,支持触摸和鼠标点,想学编程可以关注系统…

【web前端】web前端设计入门到实战第一弹——html基础精华

前端 一:图片属性二:音频标签三: 视频标签四:链接标签五:列表标签5.1.无序列表5.2.有序列表3.自定义列表 六:表格6.1合并单元格 七:input标签八:select系列九: 文本域标签…

《软件方法》2023版第1章(10)应用UML的建模工作流-大图

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 1.4 应用UML的建模工作流 1.4.1 概念 我用类图表示建模工作流相关概念如图1-16。 图1-16 建模工作流相关概念 图1-16左侧灰色部分定义了“游戏规则”,右侧则是在“游戏规…

Canvas绘图学习笔记:画笔的路径与状态

beginPath beginPath表示开始一个路径,我们在上一章画弧的时候用到过好多次,他的API非常简单: context.beginPath(); 开始路径有2层意思,一个就是本次绘制的起点是新的(不再是上次结束的点了)&#xff0…

强大的下载管理器:Progressive Downloader for Mac

Progressive Downloader for Mac是一种强大的下载管理器,它可以帮助用户更快速、更稳定地下载文件。相比于其他下载工具,PD下载管理器具有很多独特的功能和优势,本文将对其进行详细推广。 在数字化时代,下载已成为我们日常工作中必…

pdf压缩文件怎么压缩最小?

pdf压缩文件怎么压缩最小?我们很多项目介绍或是学术的报告都是采用的这个pdf格式,那么我们在存储或是需要进行分享的时候,可能就会因为文件过大而导致无法打开或是发送了。那么就需要将其进行压缩。PDF文件压缩方法很多,pdf压缩文…

web前端面试-- http的各个版本的区别(HTTP/0.9、HTTP/1.0、HTTP/1.1、HTTP/2.0、HTTP/3.0)

本人是一个web前端开发工程师,主要是vue框架,整理了一些面试题,今后也会一直更新,有好题目的同学欢迎评论区分享 ;-) web面试题专栏:点击此处 http的各个版本的区别 HTTP(超文本传输协议&…

el-input: 把不符合正则校验的值动态清空,只保留符合的值

<el-input v-model"form.profit" placeholder"请输入授权专利新增利润" input"handleInput" clearable />/*** 不符合正则校验,清空*/const handleInput () > {if (form.value.profit) {if (!/^\d*\.?\d*$/.test(form.value.profit))…

Elasticsearch7.9.3保姆级安装教程

Linux版本Elasticsearch版本(待安装)Kibana版本(待安装)CentOS 77.9.37.9.3 一、下载地址 1、官网下载 打开地址 https://www.elastic.co/cn/downloads/past-releases#elasticsearch&#xff0c;按如图所示选择对应版本即可 2、采用wget下载 为了不必要的麻烦&#xff0c;建…

【vscode编辑器插件】前端 php unity自用插件分享

文章目录 一篇一句前言前端vuegitphpunity后端其他待续完结 一篇一句 “思考是最困难的工作&#xff0c;这也许是为什么很少有人这样做。” - 亨利福特&#xff08;Henry Ford&#xff09; 前言 无论是什么语言&#xff0c;我都会选择使用vscode进行开发&#xff0c;我愿称v…

麒麟kylinOS 2303制作自定义免交互安装镜像

原文链接&#xff1a;麒麟kylinOS 2303制作自定义免交互安装镜像 hello&#xff0c;大家好啊&#xff0c;今天给大家带来一篇麒麟kylinOS 2303制作自定义免交互ISO安装镜像的文章&#xff0c;内容相对来说比较简单&#xff0c;测试安装了一个360浏览器软件&#xff0c;后续复杂…

openstack 云主机 linux报 login incorrect

还未输入密码就提示login incorrect 不给输密码位置 完全不给输密码的机会 关机进入单用户 检查登录安全记录 vi /var/log/secure 发现 /usr/lib64/security/pam_unix.so 报错 将正常的机器提取/usr/lib64/security/pam_unix.so 比对MD5一致&#xff0c; 另外判断 libtir…

读《中国省级移动政务服务报告2023》

报告地址&#xff1a; 中国省级移动政务服务报告2022 https://www.digitalelite.cn/h-nd-7846.html 中国省级移动政务服务报告2023 中国省级移动政务服务报告2023 报告分为 引言、评估方法、概貌、指数、标杆、建言 六个部分。 一些思考 移动政务服务应用针对各省的常驻人口…

手术麻醉临床信息管理系统源码,客户端可以接入监护仪、麻醉机、呼吸机

一、手术麻醉临床信息管理系统介绍 1、手术麻醉临床信息管理系统是数字化手段应用于手术过程中的重要组成部分&#xff0c;用数字形式获取并存储手术相关信息&#xff0c;既便捷又高效。既然是管理系统&#xff0c;那就是一整套流程&#xff0c;管理患者手术、麻醉的申请、审批…

uniapp collapse动态生成多个折叠面板手动展开收起(包括uni-ui版)

前言 官方文档没有暴露出相关api&#xff0c;那就看看组件源码。 以下示例均通过 vue-cli 创建的 uni-app h5 项目 uView&#xff08;1.x&#xff09;版本 源码 node_modules\uview-ui\components\u-collapse-item\u-collapse-item.vue 这个方法是用来改变折叠面板子组件收起还…

解决Windows内存溢出/占满死机问题-PoolMon工具

某一天&#xff0c; 工作所用笔记本突然越来越卡直至死机 以为只是windows11的抽风行为&#xff0c;之前就因为windows11资源管理器经常卡死&#xff08;后升级小版本好多了&#xff09;。 遂长按电源键强制关机重启。 然慢慢又越来越卡&#xff0c;直至卡死&#xff0c;无…

Unity之ShaderGraph如何实现积雪效果

前言 我们在一些特殊场景&#xff0c;比如冰雪天&#xff0c;经常会对周围物体添加一些积雪效果&#xff0c;如果我们直接把积雪做到模型上&#xff0c;就无法更加灵活的表现其他天气的环境了&#xff0c;比如春夏秋冬切换。所以一般这种需求我们都是使用Shader来表现。 入下图…

QGIS如何将路网中的多条路段合并成一条完整的路

1、单条路数据提取 我的gis数据是放在postgresql中的&#xff0c;所以使用sql筛选数据&#xff0c; 然后执行sql筛选数据 将筛选的数据生成新的图层&#xff1a; 注意&#xff01;&#xff01;&#xff01; 生成的新图层要保存成shp文件&#xff0c;否则后面没有办法编辑图…

浅谈压力测试的重要目标及意义

随着互联网应用的快速发展&#xff0c;软件系统的稳定性和性能成为了用户和企业关注的焦点。用户期望应用程序能够在高负载下依然保持稳定和高效。为了满足这一需求&#xff0c;压力测试成为了不可或缺的一环。本文将探讨压力测试的重要性以及如何进行压力测试。 一、压力测试的…