【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 5 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

PosCUDA: Position based Convolution for Unlearnable Audio Datasets
Authors Vignesh Gokul, Shlomo Dubnov
深度学习模型需要大量干净的数据才能获得良好的性能。为了避免昂贵的数据采集成本,研究人员使用互联网上提供的丰富数据。这引发了严重的隐私问题,即未经授权可能滥用个人数据进行模型训练。最近的工作(例如 CUDA)提出了这个问题的解决方案,通过添加类模糊来使数据集变得不可学习,即模型永远不能使用获取的数据集进行学习。然而,这些方法通常会降低数据的质量,使其在实际应用中毫无用处。我们引入了 PosCUDA,一种基于位置的卷积,用于创建不可学习的音频数据集。 PosCUDA 在小块音频上使用类明智卷积。补丁的位置基于每个类的私钥,因此模型学习位置模糊和标签之间的关系,但无法泛化。我们凭经验证明 PosCUDA 可以在保持原始音频数据集质量的同时实现不可学习性。

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
Authors Yejin Jeon, Yunsu Kim, Gary Geunbae Lee
零样本多扬声器 TTS 旨在将语音与所选目标扬声器的声音进行合成,而无需任何微调。然而,流行的方法在适应域外设置的新说话人方面遇到了限制,这主要是由于说话人解缠不充分和内容泄漏。为了克服这些限制,我们提出了一种创新的否定特征学习范例,该范例通过利用减法运算将解耦的说话人属性建模为与完整音频表示的偏差。通过从说话者表示中消除多余的内容信息,我们的否定方案不仅减轻了内容泄漏,从而增强了合成的鲁棒性,而且还提高了说话者的保真度。此外,为了促进不同说话者属性的学习,我们利用多流 Transformer,它保留多个假设并发起类似于集成学习的训练范例。为了统一这些假设并实现最终的说话人表示,我们采用了注意力池。最后,鉴于以所需语音生成目标文本话语的必要性,我们采用自适应层归一化来有效地将先前生成的说话者表示与目标文本表示融合,而不是仅仅连接文本和音频模态。

Generating Rhythm Game Music with Jukebox
Authors Nicholas Yan
音乐一直被认为是人类的努力,当赞美一首音乐时,我们强调作曲家的创造力和音乐所唤起的情感。由于音乐也严重依赖于反复出现的旋律主题和和弦进行形式的模式和重复,因此人工智能越来越能够以类似人类的方式复制音乐。这项研究调查了 Jukebox(一种开源商用神经网络)的能力,以准确复制节奏游戏中常见的两种音乐类型:艺术核心音乐和管弦乐。 Google Colab 笔记本提供了采样和扩展两种流派的总共 16 种钢琴编曲所需的计算资源。一项包含选定样本的调查被分发给当地的一个青年管弦乐队,以衡量人们对人工智能和人类生成的音乐的音乐性的看法。尽管人类更喜欢人类生成的音乐,但 Jukebox 的稍高评级表明它在某种程度上能够模仿这两种流派的风格。

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition
Authors David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj rn Hoffmeister
尽管自动语音识别 ASR 系统的单词错误率持续下降,但基于 ASR 系统构建的自然语言理解 NLU 应用程序仍然将大量失败归因于低质量的语音识别结果。现有的助理系统收集大量此类不成功的交互,但这些系统通常无法从这些交互中学习,即使是以离线方式也是如此。在这项工作中,我们介绍了 CLC 对话对比学习,这是一系列以自我监督的方式对模型进行对比微调的方法,利用与助手不成功的对话中容易检测到的伪影。我们证明,我们的 CLC 系列方法可以将 OD3(面向音频任务的对话的新公共大规模半合成元数据集)上 ASR 模型的性能提高高达 19.2 。这些收益也转移到现实世界的系统中,我们表明 CLC 可以帮助将性能比基线提高多达 6.7 个。

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
Authors Vladimir Tourbabin, Boaz Rafaely
近年来,人形机器人的听觉系统受到越来越多的关注。该系统通常通过麦克风阵列来获取周围的声场。然后使用各种方法处理阵列采集的信号。广泛应用的方法之一是到达方向估计。传统的到达方向估计方法假设在估计期间阵列固定在给定位置。然而,对于安装在移动人形机器人上的阵列来说,情况不一定如此。如果没有适当考虑阵列运动,可能会在估计的到达方向上引入显着的误差。当前的论文提出了一种考虑运动的信号模型。基于该模型,提出了两种处理方法。第一个补偿机器人的运动。第二种方法适用于周期性信号,并利用运动来将性能提高到超出固定阵列的水平。提供了数值模拟和实验研究,证明运动补偿方法几乎消除了与运动相关的误差。

Optimal Real-Weighted Beamforming With Application to Linear and Spherical Arrays
Authors V. Tourbabin, M. Agmon, B. Rafaely, J. Tabrikian
传感器阵列的用途之一是用于空间滤波或波束形成。当前的数字信号处理方法有利于复杂的加权波束形成,为阵列设计提供了灵活性。先前的研究提出使用实值波束成形权重,虽然降低了设计的灵活性,但可以提供一系列好处,例如简化的波束成形器实现或高效的波束成形算法。本文提出了一种设计具有实值权重的数组的新方法,该方法实现了最大方向性,为数组权重提供了封闭形式的解决方案。该方法针对线性和球形阵列进行了研究,结果表明,刚性球形阵列特别适合实重设计,因为它们不会受到栅瓣的影响,而栅瓣是具有实重的线性阵列的主要特征。

Listening broadband physical model for microphones: a first step
Authors Laurent Millot IDEAT , Antoine Valette, Manuel Lopes, G rard Pel IDEAT , Mohammed Elliq, Dominique Lambert IDEAT
我们将展示麦克风宽带物理模型设计的第一步。在所提出的模型中,经典的方向性模式全向、双向和心形系列被重新发现为极限情况单色激励、低频和远场近似。单声道音乐片段被用作模型的源,因此我们可以通过 Max MSP 应用程序实时聆听相关录制声场的模拟。收听和子带分析表明方向性是频率子带和源位置的函数。该模型还表现出有趣的邻近效应。

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
Authors Tzu Han Lin, How Shing Wang, Hao Yung Weng, Kuang Chen Peng, Zih Ching Chen, Hung yi Lee
参数高效微调 PEFT 越来越被认为是语音处理中的有效方法。然而,PEFT 方法的最佳方法和放置仍然没有定论。我们的研究进行了广泛的实验来比较不同的 PEFT 方法及其采用可微架构搜索 DARTS 的分层布局。我们还探索使用集成学习来利用不同的 PEFT 策略。结果表明,DARTS 的性能并不优于基线方法,后者涉及将相同的 PEFT 方法插入到自监督学习 SSL 模型的所有层中。相比之下,集成学习方法,特别是采用多数投票的方法,表现出优越的性能。我们的统计证据表明,不同的 PEFT 方法以不同的方式学习。

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification
Authors Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu
现有的音频分类研究在识别被动水下船舶场景的属性方面面临挑战,并且由于数据隐私问题而缺乏注释良好的数据集。在本研究中,我们介绍了被动水下船舶分类中的 CLAPP 对比语言音频预训练,这是一种新颖的模型。我们的目标是使用从远洋船舶数据集中获得的各种船舶音频和船舶状态文本对来训练神经网络。 CLAPP 能够直接从原始船舶音频数据中学习,并在可用时从精心策划的标签中学习,从而提高对被动水下船舶场景中船舶属性的识别。模型的零射击功能允许预测给定船舶音频的最相关的船舶状态描述,而无需直接优化任务。我们的方法旨在解决船舶音频文本分类和被动水下船舶音频属性识别的两个挑战。

CTC Blank Triggered Dynamic Layer-Skipping for Efficient CTC-based Speech Recognition
Authors Junfeng Hou, Peiyao Wang, Jincheng Zhang, Meng Yang, Minwei Feng, Jingcheng Yin
尽管性能令人印象深刻,但在计算资源有限的情况下部署端到端语音识别模型仍然具有挑战性。鉴于模型规模的逐渐增加和模型应用的广泛,针对不同输入选择性地执行模型组件以提高推理效率非常有意义。在本文中,我们提出了一种动态跳层方法,该方法利用中间层的 CTC 空白输出来触发跳过具有高空白概率的帧的最后几个编码器层。此外,我们对CTC输出分布进行因子分解,并对中间层进行知识蒸馏,以减少计算量并提高识别精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605771.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法Hot100系列】合并两个有序链表

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航 檀越剑指大厂系列:全面总结 jav…

前端nginx配置指南

前端项目发布后,有些接口需要在服务器配置反向代理,资源配置gzip压缩,配置跨域允许访问等 配置文件模块概览 配置示例 反向代理 反向代理是Nginx的核心功能之一,是指客户端发送请求到代理服务器,代理服务器再将请求…

数据结构-怀化学院期末题(321)

图的广度优先搜索 题目描述: 图的广度优先搜索类似于树的按层次遍历,即从某个结点开始,先访问该结点,然后访问该结点的所有邻接点,再依次访问各邻接点的邻接点。如此进行下去,直到所有的结点都访问为止。在…

OpenHarmony沙箱文件

一.前言 1.前景提要 DevEcoStudio版本:DevEco Studio 3.1 Release SDK版本:3.2.2.5 API版本:9 2.概念 在openharmony文件管理模块中,按文件所有者分类分为应用文件和用户文件和系统文件。 1)沙箱文件。也叫做应…

Jmeter扩展函数?年薪50W+的测试大佬教你怎么玩

很多同学,都问我:“老师,我的 jmeter 里面,怎么没有 MD5 函数,base64 函数也没有,我是不是用了假的 jmeter?” 哈哈哈,不是的。jmeter 的函数,有自带函数和扩展函数两大…

等价类划分法

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢软件测试面试题分享: 1000道软件测试面试题及答案📢软件测试实战项目分享: 纯接口项目-完…

<HarmonyOS第一课>1~10课后习题汇总

HarmonyOS第一课 <HarmonyOS主题课>1~3课后习题汇总 1运行Hello World 判断题 main_pages.json存放页面page路径配置信息。(正确)DevEco Studio是开发HarmonyOS应用的一站式集成开发环境。(正确) 单选题…

二叉树-遍历-单独精讲

遍历:遍历每个元素。 寻常遍历root只会指一次。 而二叉树遍历每个元素则会指三次。 中序遍历-节点的中序 void traveres(TreeNode* root){if(!root)return;traveres(root->left);cout << root->val << endl;traveres(root->right);}中序遍历亦叫节点的中…

Python 自学(六) 之函数

目录 1. python函数的基本结构 P168 2. python函数的可变参数(不定长) *parameter P169 3. python函数的返回值(单个或多个) P173 4. python的匿名函数 lambda P177 1. python函数的基本结构 P168 2. python函数的可变参数(不定…

一文读懂「Attention」注意力机制

前言:Self-Attention是 Transformer 的重点,因此需要详细了解一下 Self-Attention 的内部逻辑。 一、什么是注意力机制? Attention(注意力)机制如果浅层的理解,核心逻辑就是「从关注全部到关注重点」。 Attention 机制很像人类看图片的逻辑,当我们看一张图片的时候,我…

服务器操作系统介绍

1、基本概念 OS ( operating system&#xff0c;操作系统)是管理计算机硬件与软件资源的计算机程序&#xff0c;同时也是计算机系统的内核与基石。 操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作…

SD-WAN是如何工作的?

SD-WAN软件定义的广域网&#xff0c;其目的是帮助企业组建更为灵活和高效的网络框架。它与传统的广域网相比&#xff0c;具备更快的网络加速能力&#xff0c;更强的安全性和更便捷的使用方式。因此&#xff0c;随着企业在数字化转型的过程中&#xff0c;企业组网需求的不断提升…

用Postman实现接口自动化测试

postman使用 开发中经常用postman来测试接口&#xff0c;一个简单的注册接口用postman测试&#xff1a; 接口正常工作只是最基本的要求&#xff0c;经常要评估接口性能&#xff0c;进行压力测试。 同时&#xff0c;在这我为大家准备了一份软件测试视频教程&#xff08;含面试…

适用于任何公司的网络安全架构

1.第一等级:基础级 优势 可防范基本有针对性的攻击&#xff0c;使攻击者难以在网络上推进。将生产环境与企业环境进行基本隔离。 劣势 默认的企业网络应被视为潜在受损。普通员工的工作站以及管理员的工作站可能受到潜在威胁&#xff0c;因为它们在生产网络中具有基本和管理…

UE4 4.21-4.27使用编辑器蓝图EditorBlueprint方法

在UE4 4.21中&#xff0c;编辑器蓝图&#xff08;Editor Blueprint&#xff09;是一个强大的工具&#xff0c;允许开发者扩展和自定义Unreal编辑器的功能。通过编辑器蓝图&#xff0c;我们可以创建自定义的工具和功能&#xff0c;以优化开发流程。 本教程将指导您如何在UE4 4.…

大模型LLM训练的数据集

引言 2021年以来&#xff0c;大预言模型的开发和生产使用呈现出爆炸式增长。除了李开复、王慧文、王小川等“退休”再创业的互联网老兵&#xff0c;在阿里巴巴、腾讯、快手等互联网大厂的中高层也大胆辞职&#xff0c;加入这波创业浪潮。 通用大模型初创企业MiniMax完成了新一…

JHipster - Spring Boot 的快速开发利器

产品介绍&#xff1a; JHipster是一个开源的、全面的应用程序生成器&#xff0c;它能够帮助开发者快速生成Spring Boot Angular/React/Vue.js的完整应用程序。它不仅提供了一个简单的界面来定义应用程序的配置&#xff0c;还提供了一组强大的代码生成器&#xff0c;可以在数分…

vue简体繁体互转无需做字库

第一种方法 vue-i18n 需要自己写字库库很麻烦,而且不支持后端传值 第二种 opencc 这个库前端去使用的时候 数据较多的情况非常慢.影响使用 第三种 language-hk-loader npm i language-hk-loader 从其他博客中看到的一种,很方便不需要写字库,但是在打包的时候去整体的去翻译…

VG7050EAN 可编程压控晶体振荡器 (VCXO) 输出:LV-PECL

可编程电压控制振荡器&#xff1a; VG7050EAN是一个低抖动可编程的VCXO在任何频率。VG7050EAN由VCXO、PLL和LVPECL的输出缓冲区组成。它的输出频率可编程从50 MHz到800 MHz&#xff0c;分辨率接近2 ppb。VCXO为PLL提供稳定的参考时钟。VCXO的Kv可以通过I进行编程2C接口。PLL由低…

LaTex的下载与安装(Texlive+TexStudio,2023版)

目录 1. Texlive的下载与安装2. TexStudio的下载与安装 LaTex的下载与安装涉及到环境配置和编辑器安装&#xff0c;本文主要根据一下两个较为常用的组合进行下载和安装&#xff1a; Texlive&#xff08;是必须安装的LaTex环境&#xff09;&#xff1b;TexStudio&#xff08;是…