【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Wed, 3 Jan 2024
Totally 4 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation
Authors Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
扩散模型和大型语言模型法学硕士的最新进展极大地推动了 AIGC 领域的发展。 Text to Audio TTA 是一个新兴的 AIGC 应用程序,旨在根据自然语言提示生成音频,正在吸引越来越多的关注。然而,现有的 TTA 研究经常在生成质量和文本音频对齐方面遇到困难,尤其是对于复杂的文本输入。从最先进的文本到图像 T2I 扩散模型中汲取灵感,我们引入了 Auffusion,这是一个 TTA 系统,通过有效利用其固有的生成优势和精确的跨模态对齐,将 T2I 模型框架适应 TTA 任务。我们的客观和主观评估表明,Auffusion 超越了之前使用有限数据和计算资源的 TTA 方法。此外,T2I 之前的研究认识到编码器选择对跨模式对齐(例如细粒度细节和对象绑定)的重大影响,而之前的 TTA 工作中缺乏类似的评估。通过全面的消融研究和创新的交叉注意力图可视化,我们为 TTA 中的文本音频对齐提供了富有洞察力的评估。我们的研究结果揭示了 Auffusion 在生成准确匹配文本描述的音频方面的卓越能力,这在几个相关任务中得到了进一步证明,例如音频风格转换、修复和其他操作。

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids
Authors Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin Min Wang, Yu Tsao
本文介绍了HAAQI Net,这是一种专为助听器用户量身定制的用于音乐质量评估的非侵入式深度学习模型。与助听器音频质量指数 HAAQI 等传统方法相比,HAAQI Net 采用带有注意力的双向长短期记忆 BLSTM。它以评估的音乐样本和听力损失模式作为输入,生成预测的 HAAQI 分数。该模型采用来自 Audio Transformers BEAT 的预训练双向编码器表示来进行声学特征提取。将预测分数与真实分数进行比较,HAAQI Net 的纵向一致性相关性 LCC 为 0.9257,斯皮尔曼等级相关系数 SRCC 为 0.9394,均方误差 MSE 为 0.0080。

The role of direct sound spherical harmonics representation in externalization using binaural reproduction
Authors Eran Miller, Boaz Rafaely
直达声中的信息对人类空间声源感知的重要性是一个正在进行的研究课题。直达声和扩散声或混响声之间的分类构成了空间音频领域众多研究的基础。特别地,参数空间音频表示方法使用这种分类并采用信号处理来增强再现时的音频质量。然而,当前的文献没有提供关于在高保真度立体声响复制的背景下理想的直接声音表征对外化的影响的信息。本文旨在评估使用双耳再现时直达声中的空间信息在声场外化中的重要性。这是在球谐函数 SH 域中完成的,其中模拟了高保真度立体声响复制信号中的理想直接声音表示,并在正式的听力测试中评估其感知的外化。

Detecting the presence of sperm whales echolocation clicks in noisy environments
Authors Guy Gubnitsky, Roee Diamant
抹香鲸在水下航行时会发出一系列脉冲般的咔嗒声,称为回声定位咔嗒声。这些咔嗒声的特征是多脉冲结构 MPS,它充当独特的模式。在这项工作中,我们使用 MPS 的稳定性作为检测指标,用于识别和分类噪声环境中点击的存在。为了区分噪声瞬变并处理来自多头抹香鲸的同时发射,我们的方法对 MPS 测量的时间序列进行聚类,同时消除不满足点击间隔、持续时间和频谱限制的潜在点击。因此,我们的方法可以处理高噪声瞬态和低信噪比。我们的检测方法的性能使用三个数据集进行检查,其中包括来自地中海七个月的记录,其中包含手动验证的环境噪声,以及从多米尼加岛收集的几天的手动标记数据,其中包含来自多条抹香鲸的约 40,000 次点击,以及来自巴哈马的数据集,其中包含来自单个抹香鲸的 1,203 个标记点击。与两个基准检测器的结果相比,可以观察到精确度和召回率之间更好的权衡,并且错误检测率显着降低,尤其是在嘈杂的环境中。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/604663.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[VUE]5-TypeScript

目录 1 TypeScript 介绍2、安装3、快速上手4、TypeScript 常用类型4.1 类型标注的位置4.2 字符串、数字、布尔类型4.3 字面量类型4.4 ⭐interface 类型4.5 class 类型 ​🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主,…

Linux第10步_通过终端挂载和卸载U盘

学习完“通过终端查看U盘文件”后,我们需要接着学习“通过终端挂载和卸载U盘”。主要是挂载U盘,它的用处很大,目的是通过命令来访问U盘。由于U盘的名字有很多种,为了便于访问,我们把将U盘的第一分区挂载到udisk目录下&…

软件测试|深入解析Docker Run命令:创建和启动容器的完全指南

简介 Docker是一种流行的容器化平台,用于构建、分发和运行应用程序。其中一个最基本且重要的Docker命令是docker run,用于创建和启动容器。本文将详细解析docker run命令的用途、参数和示例,帮助您全面掌握创建和启动容器的过程。 docker r…

【LVGL】不同类型输入设备驱动接口的实现

官方提供了lv_port_indev_template.c文件,用以实现触摸屏、鼠标、键盘、编码器、按钮五种输入设备的接口程序。使用相应的设备,就需要去掉接口部分的注释,填充相应的初始化函数和读取函数。 LVGL支持多设备输入,只需要在lv_port_i…

Linux第13步_安装“vim编辑器”及应用介绍

学习“磁盘重新分区”后,嵌入式Linux系统环境搭建进入安装“vim编辑器”这个环节。vim编辑器可以用来修改文件,在后期使用中,会经常用到。 1、安装“vim编辑器” 输入“sudo apt-get install vim回车”,就可以执行安装“vim编辑…

thinkphp学习03-url访问模式

多应用&#xff1a;http://serverName/index.php/应用/控制器/操作/参数/值…&#xff1b;单应用&#xff1a;http://serverName/index.php/控制器/操作/参数/值…&#xff1b; http://localhost:8506/index.php Contoller下新建Test.php <?php namespace app\controlle…

new和delete表达式的工作步骤

new表达式工作步骤 调用一个operator new库函数开辟未类型化的空间 void *operator new(size_t); 在为类型化的空间上调用构造函数&#xff0c;初始化对象的成员 返回相应类型的指针 delete表达式工作步骤 调用相应类型的析构函数,但析构函数并不能删除对象所在的空间&…

黑马程序员Java项目实战《瑞吉外卖》,轻松掌握springboot + mybatis plus开发核心技术的真java实战项目——第三部分

黑马程序员Java项目实战《瑞吉外卖》&#xff0c;轻松掌握springboot mybatis plus开发核心技术的真java实战项目——第三部分 1. 菜品管理的业务功能1.1 文件的上传和下载&#x1f647;‍♂️1.2 新增菜品1.3 接收页面提交的数据&#x1f647;‍♂️&#xff08;涉及两张表&a…

Long类型转换精度丢失问题解决

问题: 启动前端项目 页面传递的ID 和数据库保存的ID不一致 原因&#xff1a;给前端返回的id为long类型&#xff0c;在转换json传递到前端以后精度丢失&#xff0c;所以前端给我们的id也是丢失精度的id,不能查询数据。 因为js数字类型最大长度为16位&#xff0c;而java的long类…

spring动态控制定时任务

在spring框架中&#xff0c;对于简单的定时任务&#xff0c;可以使用 Scheduled 注解实现&#xff0c;在实际项目中&#xff0c;经常需要动态的控制定时任务&#xff0c;比如通过接口增加、启动、停止、删除定时任务&#xff0c;动态的改变定时任务的执行时间等。 我们可以通过…

android系列-init 挂载文件系统

1.init 挂载文件系统 //android10\system\core\init\main.cppint main(int argc, char** argv) {return FirstStageMain(argc, argv); } //android10\system\core\init\first_stage_init.cppint FirstStageMain(int argc, char** argv) {CHECKCALL(mount("tmpfs",…

dnSpy调试Web应用程序

文章目录 前言一、dnSpy是什么&#xff1f;二、如何使用dnSpy三、如何调试Web应用程序四、下载总结 前言 dnSpy是一个.NET程序集调试器和编辑器&#xff0c;主要用于调试和编辑没有源码的.NET程序集。 一、dnSpy是什么&#xff1f; dnSpy是一个.NET程序集调试器和编辑器&#…

IDEA 控制台中文乱码问题解决方法(UTF-8 编码)

设置 IDEA 编码格式 1&#xff1a;打开 IntelliJ IDEA>File>Setting>Editor>File Encodings&#xff0c;将 Global Encoding、Project Encoding、Default encodeing for properties files 这三项都设置成 UTF-8 2&#xff1a;将 vm option 参数改为&#xff1a; -…

Linux Capabilities 基础概念与基本使用

目录 1. Linux capabilities 是什么&#xff1f; 2. capabilities 的赋予和继承 线程的 capabilities Permitted* 允许 Effective* 有效 Inheritable* 遗传 Bounding&#xff08;集合&#xff09; Ambient 文件的 capabilities Permitted Inheritable Effective 3…

链表

目录 单链表 双链表 单链表 题目如下&#xff1a;模拟一个单链表&#xff0c;实现插入删除操作 解题代码 #include <iostream>using namespace std;const int N 100010;// head 表示头结点的下标 // e[i] 表示节点i的值 // ne[i] 表示节点i的next指针是多少 // idx …

墨墨智库正式上线:开启您的AI智慧之旅

在这个由数据驱动的时代&#xff0c;AI技术正迅速改变我们的工作和生活方式。有没有想过一个平台可以为您提供所有AI相关资源的便捷访问&#xff1f;这就是「墨墨智库」的使命。我们非常高兴地宣布&#xff0c;经过精心准备和期待&#xff0c;「墨墨智库」现已正式上线&#xf…

图像解析力测试

什么是图像解析力测试 图像解析力测试是衡量成像系统性能的关键指标之一,它决定了摄像头捕捉到的图像细节和清晰度。目前主流的图像解析力测试方法主要有TV line检测、MTF检测和SFR检测。 TV line检测主要用于主观测试,通过观察图像中的线条来评估解析力。然而,这种方法缺乏…

verilog readmemh readmemb

用法 $readmemh("hex_mem_file", mem, [start_address], [end_address]) $readmemb("bin_mem_file", mem, [start_address], [end_address])hex_mem_file 十六进制文本 空格分隔 bin_mem_file 二进制文本 空格分隔 mem 存储数组 start_address 起始地址 可…

学习笔记——C++一维数组

1&#xff0c;一维数组的定义方式 三种定义方式 1&#xff0c;数据类型 数组名[ 数组长度 ]&#xff1b; 2&#xff0c;数据类型 数组名[ 数组长度 ]{值1&#xff0c;值2&#xff0c;值3 ……}&#xff1b;//未说明的元素用0填补 3&#xff0c;数据类型 数组名[ ]{值1&…

Joplin配合teracloud进行多版本客户端分别笔记同步

最近瞎搜索joplin&#xff0c;意外在github上搜到plugins&#xff0c;插件仓库&#xff0c;里面有一个思维导图的插件我还是蛮喜欢的&#xff0c;结果下载后安装发现&#xff0c;我当前的Jopin的版本如下 &#xff08;Joplin 2.7.15 (prod, win32) 同步版本: 3 配置文件版本: 4…