【AI视野·今日Sound 声学论文速览 第二十四期】Thu, 12 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Thu, 12 Oct 2023
Totally 12 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Enhancing expressivity transfer in textless speech-to-speech translation
Authors Jarod Duret LIA , Benjamin O Brien LIA , Yannick Est ve LIA , Titouan Parcollet CAM
由于自我监督学习技术的集成,无文本语音到语音翻译系统正在迅速发展。然而,现有的最先进的系统在跨不同语言准确捕获和传输表达性方面存在不足。表现力在传达情感、细微差别和文化微妙之处方面发挥着至关重要的作用,从而增强了不同语言之间的交流。为了解决这个问题,本研究提出了一种新颖的方法,该方法在离散语音单元级别上运行,并利用多语言情感嵌入来捕获与语言无关的信息。具体来说,我们演示了如何使用这些嵌入来有效预测目标语言中语音单元的音调和持续时间。

Vec-Tok Speech: speech vectorization and tokenization for neural speech generation
Authors Xinfa Zhu, Yuanjun Lv, Yi Lei, Tao Li, Wendi He, Hongbin Zhou, Heng Lu, Lei Xie
语言模型 LM 最近在自然语言处理和计算机视觉领域蓬勃发展,可在各种任务中生成高保真文本或图像。相比之下,当前的语音生成模型在语音质量和任务泛化方面仍然举步维艰。本文提出了 Vec Tok Speech,这是一个可扩展的框架,类似于多个语音生成任务,生成富有表现力和高保真度的语音。具体来说,我们提出了一种基于语音向量和语义标记的新型语音编解码器。语音向量包含有助于高保真语音重建的声学细节,而语义标记则侧重于语音的语言内容,有助于语言建模。基于所提出的语音编解码器,Vec Tok Speech 利用 LM 承担语音生成的核心。此外,引入字节对编码 BPE 来减少令牌长度和比特率,以降低曝光偏差和更长的上下文覆盖范围,从而提高 LM 的性能。 Vec Tok Speech 可用于语言内和跨语言零样本语音转换 VC、零样本说话风格文本到语音 TTS 传输、语音到语音翻译 S2ST、语音去噪以及说话人识别和匿名化。实验表明,基于 5 万小时语音构建的 Vec Tok Speech 的性能优于其他 SOTA 模型。

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms
Authors Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Shuo Han, Yunyang Zeng, Ankit Shah, Bhiksha Raj
在 VoIP 互联网协议语音电信领域内,声学变换带来的复杂性值得严格分析。这项研究植根于对专有的发送方降噪效果的探索,仔细评估了 Google Meets 和 Zoom 等平台。该研究利用了 Deep Noise Suppression DNS 2020 数据集,确保针对各种去噪设置和接收器接口进行结构化检查。通过瓦哈卡分解引入了一种方法论上的新颖性,瓦哈卡分解传统上是一种计量经济学工具,在本文中被重新用于分析 VoIP 系统内的声学语音扰动。为了进一步确定这些转变的影响,利用心理声学指标,特别是 PESQ 和 STOI,来提供对言语改变的全面理解。总的来说,获得的见解强调了 VoIP 对声学动态影响的复杂情况。除了主要发现之外,还报告了多种指标,扩大了研究范围。

LLark: A Multimodal Foundation Model for Music
Authors Josh Gardner, Simon Durand, Daniel Stoller, Rachel M. Bittner
音乐具有独特而复杂的结构,对于专家和现有的人工智能系统来说都难以理解,并且相对于其他形式的音频也提出了独特的挑战。我们推出了 LLark,一种用于音乐理解的指令调整多模态模型。我们详细介绍了数据集创建过程,其中涉及增强不同开源音乐数​​据集的注释并将它们转换为统一的指令调整格式。我们为 LLark 提出了一种多模式架构,将预训练的音乐生成模型与预训练的语言模型集成在一起。在对音乐理解、字幕和推理三类任务的评估中,我们表明我们的模型在音乐理解的零样本泛化方面匹配或优于现有基线,并且人类在字幕和推理方面与模型的响应表现出高度一致。推理任务。 LLark 完全根据开源音乐数​​据和模型进行训练,我们随本文的发布提供了训练代码。

Acoustic Model Fusion for End-to-end Speech Recognition
Authors Zhihong Lei, Mingbin Xu, Shiyi Han, Leo Liu, Zhen Huang, Tim Ng, Yuanyuan Zhang, Ernest Pusateri, Mirko Hannemann, Yaqiao Deng, Man Hung Siu
深度学习和自动语音识别 ASR 的最新进展使端到端 ASR 系统成为可能,并将准确性提高到了新的水平。 E2E 系统在受音频文本对训练的单个网络中隐式建模所有传统 ASR 组件,例如声学模型 AM 和语言模型 LM 。尽管系统架构更简单,但将专门在文本语料库上训练的单独的语言模型融合到 E2E 系统中已被证明是有益的。然而,LM融合的应用存在一定的缺点,例如它无法解决内部AM固有的域失配问题。受到 LM 融合概念的启发,我们提出将外部 AM 集成到 E2E 系统中,以更好地解决域不匹配问题。通过实施这种新颖的方法,我们显着降低了单词错误率,在不同的测试集中,单词错误率下降了高达 14.3,令人印象深刻。

Neural Harmonium: An Interpretable Deep Structure for Nonlinear Dynamic System Identification with Application to Audio Processing
Authors Karim Helwani, Erfan Soltanmohammadi, Michael M. Goodwin
提高深度神经网络的可解释性最近引起了越来越多的关注,特别是当利用深度学习的力量来解决物理问题时。可解释性帮助我们了解模型概括和揭示其局限性的能力。在本文中,我们介绍了一种用于动态系统建模的因果可解释深层结构。我们提出的模型通过在时频域中对系统进行建模来利用谐波分析,同时保持高时间和频谱分辨率。此外,该模型以阶递归方式构建,允许快速、鲁棒且精确的二阶优化,而不需要显式的 Hessian 计算。为了避免系统构建块的高维性,设计了神经网络来识别频率相互依赖性。所提出的模型在音频信号处理任务所需的非线性系统识别问题上进行了说明和验证。

Prosody Analysis of Audiobooks
Authors Charuta Pethe, Yunting Yin, Steven Skiena
文本到语音的最新进展使得从文本生成自然声音的音频成为可能。然而,有声读物的叙述涉及读者戏剧性的发声和语调,更多地依赖叙述中的情感、对话和描述。使用 93 个对齐的有声读物对的数据集,我们提出了使用语言建模从叙述文本中预测音调、音量和语速的韵律属性的改进模型。与最先进的商业 TTS 系统的结果相比,我们预测的韵律属性与人类有声读物阅读的相关性要好得多。我们预测的音调显示出 24 本书中 22 本书与人类阅读的相关性更高,而我们预测的音量属性则与人类的阅读更相似。阅读 24 本书中的 23 本书。

Deep Video Inpainting Guided by Audio-Visual Self-Supervision
Authors Kyuyeon Kim, Junsik Jung, Woo Jae Kim, Sung Eui Yoon
人类可以根据他们对视听事件的先验知识,轻松地从听觉信息中想象出场景。在本文中,我们在深度学习模型中模仿人类这种与生俱来的能力,以提高视频修复的质量。为了实现先验知识,我们首先训练视听网络,该网络学习听觉和视觉信息之间的对应关系。然后,视听网络被用作引导器,将视听对应的先验知识传递给视频修复网络。这种先验知识通过我们提出的两种新颖的损失来转移:视听注意力损失和视听伪类一致性损失。这两种损失通过鼓励修复结果与其同步音频具有高度对应性,进一步提高了视频修复的性能。

Audio-Visual Neural Syntax Acquisition
Authors Cheng I Jeff Lai, Freda Shi, Puyuan Peng, Yoon Kim, Kevin Gimpel, Shiyu Chang, Yung Sung Chuang, Saurabhchand Bhati, David Cox, David Harwath, Yang Zhang, Karen Livescu, James Glass
我们从视觉基础语音中研究短语结构归纳。其核心思想是首先将语音波形分割成词段序列,然后使用推断的段级连续表示来归纳短语结构。我们推出了视听神经语法学习器 AV NSL,它可以通过听音频和查看图像来学习短语结构,而无需接触文本。通过对配对图像和语音字幕进行训练,AV NSL 展现出推断有意义的短语结构的能力,这些结构与自然监督的文本解析器导出的英语和德语短语结构相当。

Adapting the adapters for code-switching in multilingual ASR
Authors Atharva Kulkarni, Ajinkya Kulkarni, Miguel Couceiro, Hanan Aldarmaki
最近,大型预训练多语言语音模型已显示出将自动语音识别 ASR 扩展到许多低资源语言的潜力。其中一些模型在其公式中采用了语言适配器,这有助于提高单语言性能并避免在资源丰富的语言上进行多语言建模的一些缺点。然而,这种表述限制了这些模型在代码交换语音上的可用性,其中两种语言在同一个话语中混合在一起。在这项工作中,我们提出了通过在网络中每个语言适应点吸收来自两种语言适配器的信息来有效地微调代码交换语音的此类模型的方法。我们还将代码交换建模为一系列潜在的二进制序列,可用于在帧级别引导来自每个语言适配器的信息流。

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation
Authors Qingkai Fang, Yan Zhou, Yang Feng
直接语音到语音翻译 S2ST 使用单一模型将语音从一种语言翻译成另一种语言。然而,由于语言和声学多样性的存在,目标语音遵循复杂的多模态分布,这对 S2ST 模型实现高质量翻译和快速解码速度提出了挑战。在本文中,我们提出了 DASpeech,一种非自回归直接 S2ST 模型,它实现了快速且高质量的 S2ST。为了更好地捕获目标语音的复杂分布,DASpeech 采用两通道架构将生成过程分解为两个步骤,其中语言解码器首先生成目标文本,然后声学解码器根据隐藏状态生成目标语音语言解码器的。具体来说,我们使用DA Transformer的解码器作为语言解码器,并使用FastSpeech 2作为声学解码器。 DA Transformer 使用有向无环图 DAG 对翻译进行建模。为了在训练期间考虑 DAG 中的所有潜在路径,我们通过动态编程计算每个目标标记的预期隐藏状态,并将它们输入声学解码器以预测目标梅尔声谱图。在推理过程中,我们选择最可能的路径并将该路径上的隐藏状态作为声学解码器的输入。 CVSS Fr En 基准测试表明,DASpeech 可以实现与最先进的 S2ST 模型 Translatotron 2 相当甚至更好的性能,同时与自回归基线相比保持高达 18.53 倍的加速。与之前的非自回归S2ST模型相比,DASpeech不依赖知识蒸馏和迭代解码,在翻译质量和解码速度上均实现了显着提升。

Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers
Authors Zijian Yang, Wei Zhou, Ralf Schl ter, Hermann Ney
在这项工作中,我们研究了在基于音素的神经传感器的序列判别训练中使用的具有不同上下文长度和标签单元音素与单词的语言模型 LM 的效果。检验了无格方法和 N 最佳列表方法。对于具有音素级 LM 的无格方法,我们提出了一种近似上下文历史的方法,以使用具有完全上下文依赖性的 LM。这种近似可以扩展到任意上下文长度,并允许在无格方法中使用字级语言模型。此外,还对无格方法和基于 N 最佳列表的方法进行了系统比较。 Librispeech 上的实验结果表明,在训练中使用单词级 LM 优于音素级 LM。此外,我们发现用于概率计算的 LM 的上下文大小对性能的影响有限。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/104543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch 深度学习之处理多维特征的输入Multiple Dimension Input(六)

1.Multiple Dimension Logistic Regression Model 1.1 Mini-Batch (N samples) 8D->1D 8D->2D 8D->6D 1.2 Neural Network 学习能力太好也不行(学习到的是数据集中的噪声),最好的是要泛化能力,超参数尝试 Example, Arti…

Java 基于SpringBoot的某家乡美食系统

1 简介 《Java 基于SpringBoot的某家乡美食系统》该项目含有源码、文档等资料、配套开发软件、软件安装教程等。系统功能完整,适合作为毕业设计、课程设计、数据库大作业学习使用。 功能介绍 这个项目是基于 SpringBoot和 Vue 开发的地方美食系统,包括…

K邻近算法(KNN,K-nearest Neighbors Algorithm)

文章目录 前言应用场景欧几里得距离(欧氏距离)两类、单一属性(1D)两类、两种属性(2D)两类、两种以上属性(>3D) Examples in R再来一个补充一下什么是变量 什么是变量?…

React之setState

一、useState使用规则 1、useState 函数可以执行多次,每次执行互相独立,每调用一次为函数组件提供一个状态 2、useState只能出现在【函数组件】或者其他hook函数中 3、不能嵌套在if/for/其它函数中(react按照hooks的调用顺序识别每一个hook&…

ubuntu下yolov5 tensorrt模型部署

文章目录 ubuntu下yolov5 tensorrt模型部署一、Ubuntu18.04环境配置1.1 安装工具链和opencv1.2 安装Nvidia相关库1.2.1 安装Nvidia显卡驱动1.2.2 安装 cuda11.31.2.3 安装 cudnn8.21.2.4 下载 tensorrt8.4.2.41.2.5 下载仓库TensorRT-Alpha并设置 二、从yolov5源码中导出onnx文…

力扣第108题 将有序数组转二叉搜索树 c++

题目 108. 将有序数组转换为二叉搜索树 简单 相关标签 树 二叉搜索树 数组 分治 二叉树 给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 高度平衡 二叉搜索树。 高度平衡 二叉树是一棵满足「每个节点的左右两个子树…

【iOS】Mac M1安装iPhone及iPad的app时设置问题

【iOS】Mac M1安装iPhone及iPad的app时设置问题 简介一,设置问题二,适配问题 简介 由于 苹果M1芯片的Mac可用安装iPhone以及iPad应用,因为开发者并没有适配Mac,因此产生了很多奇怪问题,这里总结归纳Mac M1安装iPhone和…

五、OSPF动态路由实验

拓扑图: 基本ip的配置已经配置好了,接下来对两台路由器配置ospf协议,两台PC进行跨网段通讯 R1与R2构成单区域OSPF区域0,首先对R1进行配置 首先进入ospf 默认进程1,router id省略空缺,之后进入area 0区域&…

迁移学习--预训练微调

目录 1、迁移学习作用 2、迁移学习的途径 3、相关的领域 4、在计算机视觉中的应用 5、迁移学习的办法 预训练模型 微调 6、总结 1、迁移学习作用 定义:能在一个任务学习一个模型,然后用来解决相关的别的任务,这样我们在一个地方花…

一种用于肽图分析的烷化剂,Desthiobiotin-Iodoacetamide

中文名:脱硫生物素-碘乙酰胺 英文名:Desthiobiotin-Iodoacetamide 化学式:C14H25IN4O3 分子量:424.28 外观:固体/粉末 规格:10mg、25mg、50mg等(接受各种规格的定制服务,具体可…

Elasticsearch:使用 Langchain 和 OpenAI 进行问答

这款交互式 jupyter notebook 使用 Langchain 将虚构的工作场所文档拆分为段落 (chunks),并使用 OpenAI 将这些段落转换为嵌入并将其存储到 Elasticsearch 中。然后,当我们提出问题时,我们从向量存储中检索相关段落,并使用 langch…

C# InformativeDrawings 生成素描画

效果 项目 下载 可执行程序exe下载 源码下载

竞赛选题 深度学习+python+opencv实现动物识别 - 图像识别

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络3.1卷积层3.2 池化层3.3 激活函数:3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 inception_v3网络5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 *…

Swagger3.0 与spring boot2.7x 整合避免swagger2.0与boot2.7冲突

注释掉2.0引入的俩包 直接引入3.0 <dependency><groupId>io.springfox</groupId><artifactId>springfox-boot-starter</artifactId><version>3.0.0</version></dependency> swagger配置文件粘贴即用哦 import org.springfram…

git多分支、git远程仓库、ssh方式连接远程仓库、协同开发(避免冲突)、解决协同冲突(多人在同一分支开发、 合并分支)

1 git多分支 2 git远程仓库 2.1 普通开发者&#xff0c;使用流程 3 ssh方式连接远程仓库 4 协同开发 4.1 避免冲突 4.2 协同开发 5 解决协同冲突 5.1 多人在同一分支开发 5.2 合并分支 1 git多分支 ## 命令操作分支-1 创建分支git branch dev-2 查看分支git branch-3 分支合…

抖音直播招聘小程序可以增加职位展示,提升转化率,增加曝光度

抖音直播招聘报白是指进入抖音的白名单&#xff0c;允许在直播间或小视频中发布招聘或找工作等关键词。否则会断播、不推流、限流。抖音已成为短视频流量最大的平台&#xff0c;但招聘企业数量较少。抖音招聘的优势在于职位以视频、直播方式展示&#xff0c;留存联系方式更加精…

伦敦银单位转换很简单

伦敦银源自于英国伦敦的电子化的白银投资方式&#xff0c;高杠杆和高收益的它的基本属性&#xff0c;但有别于国内大家所熟悉的投资品种&#xff0c;伦敦银在交易过程中有很多不一样的地方&#xff0c;需要大家地去留意。 比如伦敦银的计价单位是盎司&#xff0c;而且具体来说…

我们又组织了一次欧洲最大开源社区活动,Hugging Face 博客欢迎社区成员发帖、Hugging Chat 功能更新!...

每一周&#xff0c;我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新&#xff0c;包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等&#xff0c;我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息&#xff0…

应用在汽车发动机温度检测中的高精度温度传感芯片

汽车发动机是为汽车提供动力的装置&#xff0c;是汽车的心脏&#xff0c;决定着汽车的动力性、经济性、稳定性和环保性。根据动力来源不同&#xff0c;汽车发动机可分为柴油发动机、汽油发动机、电动汽车电动机以及混合动力等。 常见的车用温度传感器有进气温度传感器、变速器…

Mysql数据库 1.概述

Mysql内容概述 1. Mysql概述 数据库相关概念&#xff1a; 名称 全称 简称 数据库 存储数据的仓库&#xff0c;数据是有组织的进行存储 …