【AI视野·今日Sound 声学论文速览 第五十期】Fri, 1 Mar 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 1 Mar 2024
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems
Authors Quentin Raymondaud, Mickael Rouvier, Richard Dufour
深度学习架构在许多研究领域的性能方面取得了重大进展。因此,自动语音识别 ASR 领域受益于这些科技进步,特别是声学建模,现在集成了深度神经网络架构。然而,这些性能提升已转化为通过这些黑盒架构学习和传达的信息的复杂性增加。经过对神经网络可解释性的大量研究,我们在本文中提出了一种协议,旨在确定 ASR 声学模型 AM 中的哪些信息以及信息位于何处。为此,我们建议在不同层使用中间表示来评估一组确定的任务的 AM 性能。关于性能变化和目标任务,我们可以提出关于哪些信息在不同架构步骤中得到增强或扰动的假设。在说话人验证、声学环境分类、性别分类、节奏失真检测系统和语音情感情感识别方面进行了实验。分析表明,基于神经的 AM 持有异质信息,这些信息似乎与音素识别不相关,例如情绪、情绪或说话者身份。

Unraveling Adversarial Examples against Speaker Identification -- Techniques for Attack Detection and Victim Model Classification
Authors Sonal Joshi, Thomas Thebaud, Jes s Villalba, Najim Dehak
对抗性例子已被证明会威胁说话人识别系统,并且已经提出了几种针对它们的对策。在本文中,我们提出了一种检测对抗性示例是否存在的方法,即区分良性示例和对抗性示例的二元分类器。我们通过探索新的架构,建立并扩展了之前关于攻击类型分类的工作。此外,我们还介绍了一种识别进行对抗性攻击的受害者模型的方法。为了实现这一目标,我们生成了一个新的数据集,其中包含针对各种受害者模型执行的多次攻击。我们的攻击检测 AUC 为 0.982,未知攻击的性能下降不超过 0.03。

Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?
Authors Lin Zhang, Themos Stafylakis, Federico Landini, Mireia Diez, Anna Silnova, Luk Burget
在本文中,我们将变分信息瓶颈方法应用于编码器解码器吸引子 EEND EDA 的端到端神经二值化。这使我们能够调查哪些信息对于模型至关重要。 EEND EDA 利用对话吸引子中说话者的矢量表示。我们的分析表明,吸引子不一定必须包含说话人特征信息。另一方面,给予吸引子更多的自由度,允许它们编码一些额外的可能特定于说话者的信息,会带来小但一致的二值化性能改进。尽管 EEND 系统的架构存在差异,但吸引子和框架嵌入的概念对于大多数系统来说是通用的,而不是 EEND EDA 所特有的。我们相信这项工作的主要结论可以适用于 EEND 的其他变体。

Compact Speech Translation Models via Discrete Speech Units Pretraining
Authors Tsz Kin Lam, Alexandra Birch, Barry Haddow
使用自监督学习 SSL 作为模型初始化现在很常见,可以在语音翻译 ST 中获得出色的结果。然而,它们也占用了大量的内存,阻碍了设备部署。在本文中,我们通过在离散语音单元 DSU 上预训练较小的模型来利用 SSL 模型。我们在 1 个 Filterbank 到 DSU 和 2 个 DSU 到翻译数据上预训练编码器解码器模型,并使用 1 中的编码器和 2 中的解码器来初始化新模型,并在有限的语音翻译数据上对其进行微调。通过使用 DSU 预训练来提取 SSL 模型的知识,最终模型变得紧凑。与使用 DSU 作为模型输入相比,我们的方法有几个优点,例如更短的推理管道以及相对于 DSU 标记化的鲁棒性。与 ASR 预训练相比,它不需要转录本,因此适用于低资源设置。

Point Processes and spatial statistics in time-frequency analysis
Authors Barbara Pascal, R mi Bardenet
有限能量信号由平方可积复值函数 t 表示,该函数 t 映射到实数变量 t 的 s t ,解释为时间。类似地,噪声信号由随机过程表示。时频分析是信号处理的一个子领域,相当于描述信号频率内容的时间演变。宽松地说,如果 s 是一首音乐作品的音频录音,那么时频分析在某种程度上就在于编写该作品的乐谱。在数学上,该运算通过变换 mathcal V 来执行,将 L 2 mathbb R 中的 s 映射到时间 t 和角频率 omega 的 L 2 mathbb R 2 中的复值函数 mathcal V s 。时频表示的平方模数 t, omega 映射到 vert mathcal V s t, omega vert 2 在乐谱类比中被称为 s 的频谱图,t 0 处的峰值频谱图,omega 0 对应于角频率处的音符omega 0 定位于时间 t 0 。更一般地说,直觉是频谱图的上层集合包含原始信号中的相关信息。因此,许多信号处理算法都围绕着识别频谱图的最大值。相反,频谱图的零表示完全静音,即不存在特定频率的时间。通过 z omega mathrm i t 将 mathbb R 2 同化为 mathbb C,本章重点介绍将信号映射到解析函数的时频变换 mathcal V。噪声信号频谱图的零点就是随机解析函数的零点,从而在 mathbb C 中形成点过程。

A SOUND APPROACH: Using Large Language Models to generate audio descriptions for egocentric text-audio retrieval
Authors Andreea Maria Oncescu, Jo o F. Henriques, Andrew Zisserman, Samuel Albanie, A. Sophia Koepke
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表数据的不同视图,将视觉描述视为音频描述远非最佳。即使存在音频类标签,它们通常也不是很详细,使得它们不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型法学硕士生成以音频为中心的描述的方法。在这项工作中,我们考虑以自我为中心的视频设置,并基于 EpicMIR 和 EgoMCQ 任务以及 EpicSounds 数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述的方法提供了显着更高的零镜头性能。此外,我们表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地利用 LLM 来改进 EpicSounds 上的检索。

Ambisonics Networks -- The Effect Of Radial Functions Regularization
Authors Bar Shaybet, Anurag Kumar, Vladimir Tourbabin, Boaz Rafaely
Ambisonics 是一种流行的空间音频格式,是声场平面波密度函数的球谐 SH 表示。许多算法在 SH 域中运行并利用高保真度立体声响复制作为其输入信号。从球形麦克风阵列编码高保真度立体声响复制的过程涉及除以径向函数,这可能会放大低频噪声。这可以通过正则化来克服,但缺点是会给高保真度立体声响复制编码引入错误。本文旨在研究不同正则化方式对深度神经网络 DNN 训练和性能的影响。理想情况下,这些网络应该对正则化方式具有鲁棒性。使用房间中单个扬声器的模拟数据和来自 LOCATA 挑战的实验数据来评估基于直接路径优势 DPD 测试的扬声器定位示例算法的鲁棒性。

Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale Speech Recognition
Authors Jeehyun Lee, Yerin Choi, Tae Jin Song, Myoung Wan Koo
构音障碍是中风患者的常见问题,严重影响言语清晰度。不适当的停顿是严重程度评估和言语治疗的关键指标。我们建议扩展大规模语音识别模型,以检测构音障碍语音中的不当停顿。为此,我们提出了任务设计、标记策略和具有不适当暂停预测层的语音识别模型。首先,我们将停顿检测视为语音识别,使用自动语音识别ASR模型将语音转换为带有停顿标签的文本。根据新设计的任务,我们在文本级别标记暂停位置及其适当性。我们与言语病理学家合作建立标签标准,确保高质量的注释数据。最后,我们使用不适当暂停预测层扩展 ASR 模型,以进行端到端不适当暂停检测。此外,我们提出了一种任务定制指标,用于评估独立于 ASR 性能的不当暂停检测。我们的实验表明,所提出的方法比基线更好地检测构音障碍语音中的不当停顿。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/721444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git分布式管理-头歌实验本地版本库

一、本地版本库创建 任务描述 本地Git操作三部曲是“修改-添加-提交”,即先要在本地仓库进行添加、删除或编辑等修改,然后将本地所做的修改添加至暂存区。添加至暂存区的这些本地修改,并未提交到本地仓库,需要执行提交命令才能将暂…

CAN通信篇 - CanTrcv模块配置(二)

文章目录 CanTrcvConfigSetCanTrcvChannelCanTrcvDioChannelAccess 总结 CanTrcv模块配置也比较简单,主要是配置CanTrcv的行为。有一些工程甚至没有包含CanTrcv配置模块(CanTrcv配置代码已通过手写代码方式嵌入工程)。下图所示为CanTrcv模块配置容器。 CanTrcvConfi…

实名制交友-智能匹配-仿二狗交友系统-TP6+uni-APP小程序H5公众号-源码交付-支持二开!

一、代码风格 通常不同的开发者具备不同的代码风格,但为了保证语音交友系统开发质量,在编码前需要进行代码风格的统一,通过制定一定的规则,约束开发者的行为。具有统一风格的代码才能更清晰、更完整、更容易理解、更方便后期维护…

09 Qt扩展LineEdit组件:Input输入框

系列文章目录 01 Qt自定义风格控件的基本原则-CSDN博客 02 从QLabel聊起:自定义控件扩展-图片控件-CSDN博客 03 从QLabel聊起:自定义控件扩展-文本控件-CSDN博客 04 自定义Button组件:令人抓狂的QToolButton文本图标居中问题-CSDN博客 0…

Mysql80服务无法启动请输入Net helpMsg3534以获得更多的帮助

起因&情景: 朋友正在操作数据库,然后电脑突然死机,再重启电脑后启动数据库服务报: 然后朋友尝试各种操作都没有办法正常启动, 一、网上解决方案:(先别操作) 1 删掉&#xff1a…

爬取博客的图片并且将它存储到响应的目录

目录 前言 思想 注意 不多说解释了,贴代码吧 config.json Get_blog_img.py 把之前的写的代码也贴上 Get_blog_id.py 主函数 main.py 运行结果 前言 在上一篇博客中我们介绍了如何爬取博客链接 利用python爬取本站的所有博客链接-CSDN博客文章浏览阅读74…

MatteFormer:Transformer-based image matting via prior-tokens

【CVPR2022】MatteFormer: Transformer-Based Image Matting via Prior-Tokens-CSDN博客文章浏览阅读1.2k次。【CVPR2022】 MatteFormer: Transformer-Based Image Matting via Prior-Tokens_matteformerhttps://blog.csdn.net/Thinkobj/article/details/128209388本文核心2点&…

Vmware Fusion 13 安装CentOS、Ubuntu、Windows11虚拟机

Vmware Fusion 13 安装CentOS、Ubuntu、Windows11虚拟机 背景:每次安装都要到处找资源,现在一篇文章足以 文章目录 Vmware Fusion 13 安装CentOS、Ubuntu、Windows11虚拟机一、Mac中安装CentOS虚拟机1️⃣:准备镜像2️⃣:创建虚拟…

GitHub热榜第二的sora同款工具——DUSt3R

目录 Sora - 探索AI视频模型的无限可能 传送门: Sora - 探索AI视频模型的无限可能 随着人工智能技术的飞速发展,AI视频模型已成为科技领域的新热点。而在这个浪潮中,OpenAI推出的首个AI视频模型Sora,以其卓越的性能和前瞻性的技…

《低代码平台开发实践:基于React》读书心得与实战体验

低代码平台开发实践标题 🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 📘 一、引…

现代信号处理学习笔记(三)信号检测

通过观测数据判断信号是否存在,这一问题称为信号检测。 目录 前言 一、统计假设检验 1、信号检测的基本概念 2、信号检测理论测度 比率测度 概率测度 3、决策理论空间 二、概率密度函数与误差函数 1、概率密度函数 2、误差函数与补余误差函数 三、检测概…

工业镜头的重要参数之视场、放大倍率、芯片尺寸--51camera

今天来简单介绍下工业镜头中常用的参数中的三个: 1、视场 视场(FOV)也称视野,是指能被视觉系统观察到的物方可视范围。 对于镜头而言,可观察到的视场跟镜头放大倍率及相机芯片选择有关。因此需要根据被观察物体的尺寸&#xff…

史上最全的大数据开发八股文【自己的吐血总结】

自我介绍 我本硕都是双非计算机专业,从研一下开始学习大数据开发的相关知识,从找实习到秋招,我投递过100公司,拿到过10的offer,包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂(岗位都是大数据开发&#…

快速上手:在 Android 设备上运行 Pipy

Pipy 作为一个高性能、低资源消耗的可编程代理,通过支持多种计算架构和操作系统,Pipy 确保了它的通用性和灵活性,能够适应不同的部署环境,包括但不限于云环境、边缘计算以及物联网场景。它能够在 X86、ARM64、海光、龙芯、RISC-V …

根据用户名称实现单点登录

一、参数格式 二、后端实现 Controller层 public class IAccessTokenLoginController extends BaseController {Autowiredprivate ISysUserService sysUserService;Autowiredprivate ISingleTokenServiceImpl tokenService;/*** 登录方法** return 结果*/PostMapping("/l…

器件选型【二极管,电感篇】

二极管篇: 一句话总结:二极管选型时主要考虑二极管的最大反向电压,反向电流,最高工作频率(由结电容决定),反向恢复时间 二极管的主要作用是防反接,续流 二极管结电容: 在高频电路中&#xff…

JeecgBoot Vue3前端项目性能优化按需加载方案

JeecgBoot vue3前端项目在 3.5.5 版本之前,的确存在很严重的性能问题,大家可以参考以下文档进行升级。 按需加载改造方法 1、全局注册地方去掉2、组件改成异步注册3、用不到的大组件可以删掉 【精简项目方案】 大组件 1、富文本 tinyme2、Markdown3、…

NVIDIA GTC 2024将回归线下

NVIDIA 宣布将于 3 月 18 日至 21 日在圣何塞会议中心举办 GTC 2024 大会。预计将有超 30 万人亲临现场或线上注册参会。NVIDIA 创始人兼首席执行官黄仁勋将于太平洋时间 3 月 18 日(星期一)下午 1 点,即北京时间 3 月 19 日(星期…

前端- 基础 表单标签 - 使用场景及组成

大家都有到银行去办理业务的时候,大多数情况下会填一些 纸质的表之类的东西如下图 而我们在网页中也会经常遇到 像现实生活中在银行填表那样的情景,如下图 : 上示就是 网页中的表单的使用场景了 表单标签 : 为什么需要表单 …

290. Word Pattern一个击败了100C++用户的代码

题目描述 Given a pattern and a string s, find if s follows the same pattern. Here follow means a full match, such that there is a bijection between a letter in pattern and a non-empty word in s. Example 1: Input: pattern “abba”, s “dog c…