【AI视野·今日Sound 声学论文速览 第五十一期】Mon, 4 Mar 2024

AI视野·今日CS.Sound 声学论文速览
Mon, 4 Mar 2024
Totally 6 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis
Authors Weiwei Lin, Chenhang He, Man Wai Mak, Jiachen Lian, Kong Aik Lee
实现对人类声音细致入微且准确的模拟一直是人工智能的长期目标。尽管近年来取得了重大进展,但语音合成模型的主流仍然依赖于有监督的说话人建模和显式参考话语。然而,人类声音的很多方面,如情感、语调、说话风格等,很难获得准确的标签。在本文中,我们提出了 VoxGenesis,一种新颖的无监督语音合成框架,可以在没有监督的情况下发现潜在的说话人流形和有意义的语音编辑方向。 VoxGenesis 在概念上很简单。 VoxGenesis 不是将语音特征确定性地映射到波形,而是将高斯分布转换为由语义标记调节和对齐的语音分布。这迫使模型学习与语义内容分离的说话人分布。在推理过程中,从高斯分布中采样可以创建具有独特特征的新颖扬声器。更重要的是,对潜在空间的探索揭示了与特定说话者特征(例如性别属性、音调、语气和情感)相关的人类可解释的方向,允许通过沿着这些识别的方向操纵潜在代码来进行语音编辑。我们进行了大量的实验,使用主观和客观指标来评估所提出的 VoxGenesis,发现它比以前的方法产生了更加多样化和现实的、具有独特特征的扬声器。我们还表明,潜在空间操纵会产生一致的、人类可识别的效果,并且不会损害语音质量,这是以前的方法不可能实现的。

The Impact of Frequency Bands on Acoustic Anomaly Detection of Machines using Deep Learning Based Model
Authors Tin Nguyen, Lam Pham, Phat Lam, Dat Ngo, Hieu Tang, Alexander Schindler
在本文中,我们提出了一种基于深度学习的机器声学异常检测模型,即通过分析机器声音来检测异常机器的任务。通过大量的实验,我们表明以特征工程为主的伪音频、音频分段、数据增强、马哈拉诺比斯距离和窄频带等多种技术可以有效提高系统性能。在评估技术中,窄频带具有显着的影响。事实上,我们提出的模型专注于窄频带,在 DCASE 2022 任务 2 开发集的基准数据集上优于 DCASE 基线。

Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn Medical Interview
Authors Heyang Liu, Yu Wang, Yanfeng Wang
端到端 E2E 方法正在逐渐取代自动语音识别 ASR 任务的混合模型。然而,E2E模型的优化缺乏直观的方法来处理解码移位,特别是在具有大量具有特定重要含义的特定领域稀有词的场景中。此外,学术界缺乏知识密集型语音数据集一直是一个重要的限制因素,常用的语音语料库与现实对话表现出显着差异。为了应对这些挑战,我们提出了 Medical Interview MED IT,这是一个多轮咨询语音数据集,其中包含大量知识密集型命名实体。我们还探索了增强端到端模型稀有词识别性能的方法。我们提出了一种新颖的方法,即解码器后偏置,它根据训练转录的分布构建变换概率矩阵。这引导模型优先识别偏差列表中的单词。

Efficient Adapter Tuning of Pre-trained Speech Models for Automatic Speaker Verification
Authors Mufan Sang, John H.L. Hansen
凭借出色的泛化能力,自监督语音模型在预训练和微调范式中的各种下游语音任务中表现出了令人印象深刻的性能。然而,随着预训练模型规模的不断增大,由于大量的计算和存储开销以及过度拟合的风险,微调实际上变得不可行。适配器是插入预先训练的模型中的轻量级模块,以促进参数高效适应。在本文中,我们提出了一种有效的适配器框架,旨在使自监督语音模型适应说话人验证任务。通过并行适配器设计,我们提出的框架将两种类型的适配器插入到预先训练的模型中,从而允许调整中间 Transformer 层中的潜在特征和所有 Transformer 层的输出嵌入。我们进行了全面的实验来验证所提出框架的效率和有效性。

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation
Authors Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan
听者头部生成旨在通过对说话者和听者之间动态转换的相关性进行建模来合成非语言响应的听者头部。听者代理生成在虚拟交互中的应用推动了许多实现多样化和细粒度运动生成的工作。然而,他们只能通过简单的情感标签来操纵动作,而无法自由地控制听者的动作。由于侦听器代理应该具有类似人类的属性,例如用户可以自由定制身份、个性,这限制了它们的真实性。在本文中,我们提出了一个名为 CustomListener 的用户友好框架,以实现自由格式文本优先引导侦听器生成。为了实现说话者听众的协调,我们设计了一个静态到动态肖像模块SDP,它与说话者信息交互,将静态文本转换为具有完成节奏和幅度信息的动态肖像标记。为了实现片段之间的连贯性,我们设计了过去引导生成模块PGG,通过运动先验保持定制听众属性的一致性,并利用基于肖像标记和运动先验的扩散结构来实现可控生成。为了训练和评估我们的模型,我们构建了两个基于 ViCo 和 RealTalk 的文本注释听力头数据集,它们提供文本视频配对标签。

Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART
Authors Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra
这项研究解决了用最少的数据训练个性化语音 ASR 模型的挑战。我们仅利用 YouTube 视频中 14 分钟的自定义音频,采用基于检索的语音转换 RVC 来创建自定义 Common Voice 16.0 语料库。随后,跨语言自监督表示 XLSR Wav2Vec2 模型在此数据集上进行了微调。开发的基于 Web 的 GUI 可以有效地转录和翻译输入的印地语视频。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/722081.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

倍增算法C++

倍增 倍增算法是一种优化算法,通常用于某些需要高效计算指数幂的场景。它基于分治的思想,通过反复求平方来实现快速计算指数幂的目的。在实际应用中,倍增算法经常用于解决最近公共祖先问题、二分查找等。 1、快速幂详解 ksm核心代码 倍增就是…

day04-SpringBootWeb入门

一、SpringBootWeb快速入门 1 需求 需求:基于 SpringBoot 的方式开发一个 web 应用,浏览器发起请求 /hello后,给浏览器返回字符串“Hello World ~”。 2 开发步骤 第1步:创建 SpringBoot 工程项目 第2步:定义 HelloC…

【Python】3. 基础语法(2)

顺序语句 默认情况下, Python 的代码执行顺序是按照从上到下的顺序, 依次执行的. print("1") print("2") print("3")执行结果一定为 “123”, 而不会出现 “321” 或者 “132” 等. 这种按照顺序执行的代码, 我们称为 顺序语句. 这个顺序是很关…

redis主从架构

Redis主从架构 单节点Redis的并发能力是有上限的,要进一步提高redis的并发能力,就需要搭建主从集群,实现读写分离。 修改每个文件夹内的配置文件,将端口分别修改为7001、7002、7003,将rdb文件保存位置都修改为自己所在…

go 程序被意外kill后出现僵尸进程解决方案

go 管理自身子进程(防止僵尸进程出现) 写这篇文章是因为最近有同事竟然会知道异步启动子进程,不会关闭,最后导致导致僵尸进程出现,而且由于子进程会随着业务的使用越开越多,主进程一旦被kill掉就会不得不手动一个一个kill。 大概…

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:多态样式)

设置组件不同状态下的样式。 说明: 从API Version 8开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 从API Version 11开始支持另一种写法attributeModifier,可根据开发者需要动态设置属性。 stateStyles stateStyl…

16:00面试,16:06就出来了,问的问题过于变态了。。。

从小厂出来,没想到在另一家公司又寄了。 到这家公司开始上班,加班是每天必不可少的,看在钱给的比较多的份上,就不太计较了。没想到2月一纸通知,所有人不准加班,加班费不仅没有了,薪资还要降40%…

微信报修小程序源码

源码获取方式: 1、搜一搜 万能工具箱合集 然后点击资料库,即可获取资源 一、先看Demo(已更新至4.0.0) 想看界面图片的,辛苦你爬一下楼,点击下方查看资源,进入官方demo 二、功能介绍 1、当前版…

什么是AJAX?它的运用场景有哪些?

文章目录 前言一、什么是AJAX二、AJAX原理是什么三、为什么需要AJAX四、AJAX的使用五、AJAX的应用场景 前言 AJAX 即 Asynchronous Javascript And XML(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。 AJAX 是一种用于创…

LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

2024年3月4日,Anthropic发布最新多模态大模型:Claude 3系列,共有Haiku、Sonnet和Opus三个版本。 Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度,超过OpenAI的GPT-4。 Haiku模型更注重效率,能…

稀碎从零算法笔记Day7-LeetCode:罗马数字转整数

题型:字符串转化、找规律 链接:13. 罗马数字转整数 - 力扣(LeetCode) 来源:LeetCode 题目描述 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 …

关于我使用numpy.random.choice()遇到坑这件事

做仿真时经常使用到随机数,下面是一个场景:使用np.random.choice([0,1],p[0.5,0.5],size1)去进行随机的二选一,假设需要随机选择1000次,为了保证结果的稳健性,对前述过程重复50次,为了保证可复现性&#xf…

collection及迭代遍历

Collection是单列集合的祖宗接口,它的功能是全部单列集合都可以继承使用的。 package myCollection;import java.util.ArrayList; import java.util.Collection;public class A01CollectionDemo1 {public static void main(String[] args) {//collection是一个接口…

《PyTorch深度学习实践》第十一讲卷积神经网络进阶

一、 1、卷积核超参数选择困难,自动找到卷积的最佳组合。 2、1x1卷积核,不同通道的信息融合。使用1x1卷积核虽然参数量增加了,但是能够显著的降低计算量(operations) 3、Inception Moudel由4个分支组成,要分清哪些是在Init里定义…

基于springboot+vue的精简博客系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

Nginx配置文件的整体结构

一、Nginx配置文件的整体结构 从图中可以看出主要包含以下几大部分内容: 1. 全局块 该部分配置主要影响Nginx全局,通常包括下面几个部分: 配置运行Nginx服务器用户(组) worker process数 Nginx进程PID存放路径 错误…

Linux 防火墙 操作命令【实用】

防火墙操作: 描述命令查看防火墙状态systemctl status firewalld、firewall-cmd --state暂时关闭防火墙systemctl stop firewalld永久关闭防火墙systemctl disable firewalld开启防火墙systemctl start firewalld开放指定端口firewall-cmd --zonepublic --add-port…

080|为什么阿里的价值观值得你关注?

在阿里巴巴20周年年会现场,万众瞩目之下,马云和张勇完成了阿里巴巴董事长职务的交接。 不过你也知道,这次接棒在一年前就已经公布了,在年会上只是一个仪式。在20周年年会过后,我找到了互联网圈的资深媒体人阳淼&#…

爬虫逆向网站案例

一、相关网页 东方财富人气排行榜 二、查找url 三、寻找curl并复制 四、打开Convert curl commands to code (curlconverter.com) 五、修改并执行代码 import requestscookies {st_si: 73974981954644,st_pvi: 39724919122964,st_sp: 2024-03-05%2018%3A27%3A22,st_inirUrl:…

8个优秀的CSS实践,开发web应用

HTML面试题部分 1.H5的新特性有哪些 2.Label的作用是什么?是怎么用的? 3.HTML5的form如何关闭自动完成功能 4.dom如何实现浏览器内多个标签页之间的通信? 5.实现不使用 border 画出1px高的线,在不同浏览器的标准模式与怪异模式下都 能保持一…