【AI视野·今日Sound 声学论文速览第四十二期】Fri, 5 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 5 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

PosCUDA: Position based Convolution for Unlearnable Audio Datasets
Authors Vignesh Gokul, Shlomo Dubnov
深度学习模型需要大量干净的数据才能获得良好的性能。为了避免昂贵的数据采集成本，研究人员使用互联网上提供的丰富数据。这引发了严重的隐私问题，即未经授权可能滥用个人数据进行模型训练。最近的工作（例如 CUDA）提出了这个问题的解决方案，通过添加类模糊来使数据集变得不可学习，即模型永远不能使用获取的数据集进行学习。然而，这些方法通常会降低数据的质量，使其在实际应用中毫无用处。我们引入了 PosCUDA，一种基于位置的卷积，用于创建不可学习的音频数据集。 PosCUDA 在小块音频上使用类明智卷积。补丁的位置基于每个类的私钥，因此模型学习位置模糊和标签之间的关系，但无法泛化。我们凭经验证明 PosCUDA 可以在保持原始音频数据集质量的同时实现不可学习性。

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
Authors Yejin Jeon, Yunsu Kim, Gary Geunbae Lee
零样本多扬声器 TTS 旨在将语音与所选目标扬声器的声音进行合成，而无需任何微调。然而，流行的方法在适应域外设置的新说话人方面遇到了限制，这主要是由于说话人解缠不充分和内容泄漏。为了克服这些限制，我们提出了一种创新的否定特征学习范例，该范例通过利用减法运算将解耦的说话人属性建模为与完整音频表示的偏差。通过从说话者表示中消除多余的内容信息，我们的否定方案不仅减轻了内容泄漏，从而增强了合成的鲁棒性，而且还提高了说话者的保真度。此外，为了促进不同说话者属性的学习，我们利用多流 Transformer，它保留多个假设并发起类似于集成学习的训练范例。为了统一这些假设并实现最终的说话人表示，我们采用了注意力池。最后，鉴于以所需语音生成目标文本话语的必要性，我们采用自适应层归一化来有效地将先前生成的说话者表示与目标文本表示融合，而不是仅仅连接文本和音频模态。

Generating Rhythm Game Music with Jukebox
Authors Nicholas Yan
音乐一直被认为是人类的努力，当赞美一首音乐时，我们强调作曲家的创造力和音乐所唤起的情感。由于音乐也严重依赖于反复出现的旋律主题和和弦进行形式的模式和重复，因此人工智能越来越能够以类似人类的方式复制音乐。这项研究调查了 Jukebox（一种开源商用神经网络）的能力，以准确复制节奏游戏中常见的两种音乐类型：艺术核心音乐和管弦乐。 Google Colab 笔记本提供了采样和扩展两种流派的总共 16 种钢琴编曲所需的计算资源。一项包含选定样本的调查被分发给当地的一个青年管弦乐队，以衡量人们对人工智能和人类生成的音乐的音乐性的看法。尽管人类更喜欢人类生成的音乐，但 Jukebox 的稍高评级表明它在某种程度上能够模仿这两种流派的风格。

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition
Authors David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj rn Hoffmeister
尽管自动语音识别 ASR 系统的单词错误率持续下降，但基于 ASR 系统构建的自然语言理解 NLU 应用程序仍然将大量失败归因于低质量的语音识别结果。现有的助理系统收集大量此类不成功的交互，但这些系统通常无法从这些交互中学习，即使是以离线方式也是如此。在这项工作中，我们介绍了 CLC 对话对比学习，这是一系列以自我监督的方式对模型进行对比微调的方法，利用与助手不成功的对话中容易检测到的伪影。我们证明，我们的 CLC 系列方法可以将 OD3（面向音频任务的对话的新公共大规模半合成元数据集）上 ASR 模型的性能提高高达 19.2 。这些收益也转移到现实世界的系统中，我们表明 CLC 可以帮助将性能比基线提高多达 6.7 个。

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
Authors Vladimir Tourbabin, Boaz Rafaely
近年来，人形机器人的听觉系统受到越来越多的关注。该系统通常通过麦克风阵列来获取周围的声场。然后使用各种方法处理阵列采集的信号。广泛应用的方法之一是到达方向估计。传统的到达方向估计方法假设在估计期间阵列固定在给定位置。然而，对于安装在移动人形机器人上的阵列来说，情况不一定如此。如果没有适当考虑阵列运动，可能会在估计的到达方向上引入显着的误差。当前的论文提出了一种考虑运动的信号模型。基于该模型，提出了两种处理方法。第一个补偿机器人的运动。第二种方法适用于周期性信号，并利用运动来将性能提高到超出固定阵列的水平。提供了数值模拟和实验研究，证明运动补偿方法几乎消除了与运动相关的误差。

Optimal Real-Weighted Beamforming With Application to Linear and Spherical Arrays
Authors V. Tourbabin, M. Agmon, B. Rafaely, J. Tabrikian
传感器阵列的用途之一是用于空间滤波或波束形成。当前的数字信号处理方法有利于复杂的加权波束形成，为阵列设计提供了灵活性。先前的研究提出使用实值波束成形权重，虽然降低了设计的灵活性，但可以提供一系列好处，例如简化的波束成形器实现或高效的波束成形算法。本文提出了一种设计具有实值权重的数组的新方法，该方法实现了最大方向性，为数组权重提供了封闭形式的解决方案。该方法针对线性和球形阵列进行了研究，结果表明，刚性球形阵列特别适合实重设计，因为它们不会受到栅瓣的影响，而栅瓣是具有实重的线性阵列的主要特征。

Listening broadband physical model for microphones: a first step
Authors Laurent Millot IDEAT , Antoine Valette, Manuel Lopes, G rard Pel IDEAT , Mohammed Elliq, Dominique Lambert IDEAT
我们将展示麦克风宽带物理模型设计的第一步。在所提出的模型中，经典的方向性模式全向、双向和心形系列被重新发现为极限情况单色激励、低频和远场近似。单声道音乐片段被用作模型的源，因此我们可以通过 Max MSP 应用程序实时聆听相关录制声场的模拟。收听和子带分析表明方向性是频率子带和源位置的函数。该模型还表现出有趣的邻近效应。

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
Authors Tzu Han Lin, How Shing Wang, Hao Yung Weng, Kuang Chen Peng, Zih Ching Chen, Hung yi Lee
参数高效微调 PEFT 越来越被认为是语音处理中的有效方法。然而，PEFT 方法的最佳方法和放置仍然没有定论。我们的研究进行了广泛的实验来比较不同的 PEFT 方法及其采用可微架构搜索 DARTS 的分层布局。我们还探索使用集成学习来利用不同的 PEFT 策略。结果表明，DARTS 的性能并不优于基线方法，后者涉及将相同的 PEFT 方法插入到自监督学习 SSL 模型的所有层中。相比之下，集成学习方法，特别是采用多数投票的方法，表现出优越的性能。我们的统计证据表明，不同的 PEFT 方法以不同的方式学习。

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification
Authors Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu
现有的音频分类研究在识别被动水下船舶场景的属性方面面临挑战，并且由于数据隐私问题而缺乏注释良好的数据集。在本研究中，我们介绍了被动水下船舶分类中的 CLAPP 对比语言音频预训练，这是一种新颖的模型。我们的目标是使用从远洋船舶数据集中获得的各种船舶音频和船舶状态文本对来训练神经网络。 CLAPP 能够直接从原始船舶音频数据中学习，并在可用时从精心策划的标签中学习，从而提高对被动水下船舶场景中船舶属性的识别。模型的零射击功能允许预测给定船舶音频的最相关的船舶状态描述，而无需直接优化任务。我们的方法旨在解决船舶音频文本分类和被动水下船舶音频属性识别的两个挑战。

CTC Blank Triggered Dynamic Layer-Skipping for Efficient CTC-based Speech Recognition
Authors Junfeng Hou, Peiyao Wang, Jincheng Zhang, Meng Yang, Minwei Feng, Jingcheng Yin
尽管性能令人印象深刻，但在计算资源有限的情况下部署端到端语音识别模型仍然具有挑战性。鉴于模型规模的逐渐增加和模型应用的广泛，针对不同输入选择性地执行模型组件以提高推理效率非常有意义。在本文中，我们提出了一种动态跳层方法，该方法利用中间层的 CTC 空白输出来触发跳过具有高空白概率的帧的最后几个编码器层。此外，我们对CTC输出分布进行因子分解，并对中间层进行知识蒸馏，以减少计算量并提高识别精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com