【AI视野·今日Sound 声学论文速览 第三十四期】Thu, 26 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Thu, 26 Oct 2023
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Dynamic Processing Neural Network Architecture For Hearing Loss Compensation
Authors Szymon Drgas, Lars Bramsl w, Archontis Politis, Gaurav Naithani, Tuomas Virtanen
本文提出了用于补偿感音神经性听力损失的神经网络。听力损失补偿任务的目的是在由听力障碍者进一步处理后,对语音信号进行转换以提高语音清晰度,该任务通过听力损失模型进行建模。我们提出了一种称为动态处理网络的可解释模型,其结构类似于带状动态压缩器。该网络是可微分的,因此允许学习其参数以最大化语音清晰度。还测试了基于卷积层的更通用模型。使用谱时客观指数 STOI 以及听力阈值噪声和助听器语音清晰度 HASPI 指标来评估测试架构的性能。与流行的压缩增益处方规则 Camfit 相比,动态处理网络对 STOI 和 HASPI 有了显着的改进。足够大的卷积网络可以超越可解释模型,但代价是更大的计算负载。

AccoMontage-3: Full-Band Accompaniment Arrangement via Sequential Style Transfer and Multi-Track Function Prior
Authors Jingwei Zhao, Gus Xia, Ye Wang
我们提出了 AccoMontage 3,这是一种符号音乐自动化系统,能够根据带有和弦的主旋律(即主奏表)的输入生成多轨、全乐队伴奏。该系统包含三个模块化组件,每个组件都模拟了整个乐队组合的重要方面。第一个组件是钢琴编曲器,它通过使用潜在和弦纹理解缠和纹理捐赠者的启发式检索将纹理风格转移到和弦,为主奏板生成钢琴伴奏。第二个组件根据各个轨道功能编码的编曲风格将钢琴伴奏乐谱编排成全乐队编曲。第三个组件连接前两个组件,是一个先验模型,描述整首音乐的管弦乐风格的全局结构。从头到尾,系统学习以自我监督的方式生成全乐队伴奏,在复调作曲纹理和编排两个层面上应用风格转移。

Towards Streaming Speech-to-Avatar Synthesis
Authors Tejas S. Prabhune, Peter Wu, Bohan Yu, Gopala K. Anumanchipalli
将语音流传输到虚拟人物合成中,可以根据音频数据为虚拟角色创建实时动画。准确的语音化身表征对于语言学、语音学和音系学中的声音可视化、辅助第二语言习得的视觉反馈以及瘫痪患者的虚拟体现非常重要。之前的作品强调了深度关节反转的能力,可以使用电磁关节描记术 EMA 功能执行高质量的头像动画。然而,这些模型侧重于通过录音进行离线头像合成,而不是实时音频,而实时音频是实时头像可视化或体现所必需的。为了解决这个问题,我们提出了一种使用发音反转来从实时音频流式传输高质量面部和内嘴头像动画的方法。我们的方法实现了每 0.1 秒音频的平均流延迟为 130 毫秒,与真实发音的相关性为 0.792。

Complex Image Generation SwinTransformer Network for Audio Denoising
Authors Youshan Zhang, Jialu Li
在现实应用中实现高性能音频降噪仍然是一项具有挑战性的任务。现有的时频方法常常忽略生成的频域图像的质量。本文将音频去噪问题转化为图像生成任务。我们首先开发一个复杂图像生成 SwinTransformer 网络,以从复杂傅里叶域捕获更多信息。然后,我们施加结构相似性和详细的损失函数来生成高质量图像并开发 SDR 损失以最小化去噪音频和干净音频之间的差异。

ArTST: Arabic Text and Speech Transformer
Authors Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, Hanan Aldarmaki
我们推出了 ArTST,一种经过预训练的阿拉伯语文本和语音转换器,用于支持阿拉伯语的开源语音技术。该模型架构遵循最近发布的英语统一模态框架 SpeechT5,重点关注现代标准阿拉伯语 MSA,并计划在未来版本中将该模型扩展到方言和代码交换阿拉伯语。我们在 MSA 语音和文本数据上从头开始对模型进行预训练,并针对以下任务对其进行微调:自动语音识别 ASR、文本到语音合成 TTS 和口语方言识别。在我们将 ArTST 与 SpeechT5 进行比较的实验中,以及与之前报告的这些任务的结果相比,ArTST 在所有三项任务中的表现均达到或超过了当前最先进的水平。此外,我们发现我们的预训练有利于泛化,这在低资源 TTS 任务中尤其明显。

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors
Authors Marek Kubis, Pawe Sk rzewski, Marcin Sowa ski, Tomasz Zi tkiewicz
在口语对话系统中,NLU 模型之前是语音识别系统,这可能会降低自然语言理解的性能。本文提出了一种研究语音识别错误对自然语言理解模型性能影响的方法。所提出的方法将反转录过程与细粒度技术相结合,用于对影响 NLU 模型性能的错误进行分类。该方法依赖于使用合成语音进行 NLU 评估。

A Novel Approach for Object Based Audio Broadcasting
Authors Mohammad Reza Hasanabadi
基于对象的音频 OBA 提供了一种新型音频体验,为观众提供个性化和定制他们的聆听体验,并让他们选择收听什么内容以及如何收听音频内容。 OBA可以应用于不同的平台,例如广播、流媒体和电影声音。本文提出了一种在制作端创建基于对象的音频的新颖方法。此处的方法逐个示例地介绍基于对象的音频 SSOBA 嵌入。 SSOBA 放置音频对象样本的方式使观众可以根据自己的兴趣和需求轻松个性化他们选择的音频源。 SSOBA 是一项额外服务,而不是替代服务,因此它也兼容传统音频播放器。 SSOBA 的最大优点是它不需要广播链中任何特殊的额外硬件,因此很容易实现并为传统播放器和解码器配备增强的功能。输入音频对象、输出通道数和采样率是影响 SSOBA 性能并指定其无损或有损的三个重要因素。 SSOBA在解码器侧采用插值来补偿被消除的样本。进行主观和客观实验来评估每一步的输出结果。编码步骤后进行的 MUSHRA 主观实验表明,SSOBA 具有多达五个对象的良好质量性能。解码和插值后进行的信噪比测量和客观实验表明音频对象的恢复和分离取得了显着的成功。

Generative Pre-training for Speech with Flow Matching
Authors Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei Ning Hsu
近年来,生成模型因其在需要估计和采样数据分布以生成高保真合成数据的任务中取得的显着成功而受到越来越多的关注。在语音领域,文本到语音合成和神经声码器是生成模型大放异彩的好例子。虽然生成模型已应用于语音的不同应用,但不存在直接对语音进行建模的通用生成模型。在这项工作中,我们向这个方向迈出了一步,展示了单个预训练的生成模型可以适应不同的下游任务,并具有强大的性能。具体来说,我们使用流匹配和屏蔽条件,在 6 万小时的未转录语音上预训练了一个名为 SpeechFlow 的生成模型。实验结果表明,预训练的生成模型可以使用特定于任务的数据进行微调,以匹配或超越现有的语音增强、分离和合成专家模型。

IA Para el Mantenimiento Predictivo en Canteras: Modelado
Authors Fernando Marcos, Rodrigo Tamaki, Mateo C mara, Virginia Yag e, Jos Luis Blanco
对原材料的依赖,特别是在采矿业,是当今经济的一个关键部分。骨料至关重要,是仅次于水的第二大使用原材料。该行业的数字化转型是优化运营的关键。然而,由于该行业、机械和环境条件的特​​殊性,监督和维护的预测和纠正是该行业很少探讨的挑战。尽管在其他场景中使用声学和接触传感器进行监控取得了成功,但所有这些都是如此。我们提出了一种无监督学习方案,该方案在一组声音记录上训练变分自动编码器模型。这是在加工厂运营期间收集的第一个此类数据集,包含来自加工线不同点的信息。我们的结果证明了该模型能够在潜在空间中重建和表示记录的声音、操作条件以及不同设备之间的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/144593.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AW2013芯片讲解

文章目录 前言一、AW2013芯片介绍二、AW2013从机地址三、AW2013读写时序AW2013写时序AW2013读时序 四、AW2013的INT引脚五、LED作用和配置描述LED控制PWM控制模式简短编程模式 六、AW2013寄存器讲解总结 前言 本篇文章将带大家学习AW2013芯片的使用。 一、AW2013芯片介绍 AW…

websocket学习笔记【springboot+websocket聊天室demo】

文章目录 WebSocket是什么?为什么需要WebSocket?WebSocket和Http连接的区别WebSocket的工作原理基本交互过程: Java中的WebSocket支持WebSocket的优势springboot websocket themlef 一个聊天室demopom.xmlWebSocketConfigChatControllerWebController…

电影《惊奇队长2》观后感

上周看完了电影《惊奇队长2》,可能是最近国片看多了,看看国外电影还是感觉非常不错的,其中就有特效部分。目前来说,国内特效和国外还是有一定差距的,在过年时,备受好评的《流浪地球2》据说也是用的国外特效…

碳交易机制下考虑需求响应的综合能源系统优化运行(附带Matlab程序)

碳交易机制下考虑需求响应的综合能源系统优化运行(附带Matlab程序) 仿真平台:MATLABCPLEX 使用的是yalmipcplex求解器完成求解 资源地址: 碳交易机制下考虑需求响应的综合能源系统优化运行(附带Matlab程序&#xff09…

Leetcode88 合并两个有序数组

合并两个有序数组 题解1 正向(记得插1删1)题解2 逆向 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2,另有两个整数 m 和 n ,分别表示 nums1 和 nums2 中的元素数目。 请你 合并 nums2 到 nums1 中,使合并后的数组同样按 非递减…

Postman工具简介

介绍 Postman是一个商业的接口测试工具。免费的版本也可以使用不少功能。 官网:https://www.postman.com/ 下载、安装、应用界面 下载 安装、安装成功以后的应用界面 双击下载下来的可执行文件进行安装,出现如下界面: 可以注册一个账…

4. 【自动驾驶与机器人中的SLAM技术】点云中的拟合问题和K近邻

目录 1.在三维体素中定义 NEARBY14,实现 14 格最近邻的查找。2.推导arg max||Ad||22的解为ATA的最大特征向量或者奇异向量。3. 将本节的最近邻算法与一些常见的近似最近邻算法进行对比,比如nanoflann,给出精度指标和时间效率指标。4. 也欢迎大…

【Qt之QWizard问题】setPixmap()设置logo、background、watermark无效不显示解决方案

问题原因: 使用QWizard或者QWizardPage设置像素图,结果设置完不显示效果。 设置示例: setPixmap(QWizard::WatermarkPixmap, QPixmap("xxx/xxx/xxx.png"));setPixmap(QWizard::BackgroundPixmap, QPixmap("xxx/xxx/xxx.png&…

YOLOv7独家原创改进:最新原创WIoU_NMS改进点,改进有效可以直接当做自己的原创改进点来写,提升网络模型性能精度

💡该教程为属于《芒果书》📚系列,包含大量的原创首发改进方式, 所有文章都是全网首发原创改进内容🚀 💡本篇文章为YOLOv7独家原创改进:独家首发最新原创WIoU_NMS改进点,改进有效可以直接当做自己的原创改进点来写,提升网络模型性能精度。 💡对自己数据集改进有效…

代码随想录 Day47 动态规划15 LeetCode T583 两个字符串的删除操作 T72 编辑距离

LeetCode T583 两个字符串的删除操作 题目链接:583. 两个字符串的删除操作 - 力扣(LeetCode) 题目思路: 本题有两个思路 1.使用两个字符串的长度之和-2*最长公共子串(换汤不换药) 代码随想录Day45 动态规划13 LeetCode T1143最长公共子序列 T1135 不相交…

Zabbix钉钉机器人告警

目录 一.在钉钉群里添加机器人 二.配置钉钉告警脚本 1.安装python依赖模块python-requests 2.配置钉钉告警配置脚本zabbix_ding.conf 3.创建告警日志并且授权。 4.配置钉钉告警执行脚本dingding.py 5.测试 三.配置zabbix告警 1.创建媒介 2.给用户添加报警媒介 3.配置…

Mistral 7B 比Llama 2更好的开源大模型 (三)

Mistral 7B 比Llama 2更好的开源大模型 Mistral 7B是一个70亿参数的语言模型,旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型(Llama 2),在推理、数学和代码生成方面也优于最好的发布34B模型(Llama 1)。Mistral 7B模型利用分组查询注…

非常经典的一道SQL报错注入题目[极客大挑战 2019]HardSQL 1(两种解法!)

题目环境: 没错,又是我,这群该死的黑客竟然如此厉害,所以我回去爆肝SQL注入,这次,再也没有人能拿到我的flag了 做了好多这个作者出的题了,看来又要上强度了 判断注入类型 username:a…

LLaMA模型之中文词表的蜕变

在目前的开源模型中,LLaMA模型无疑是一颗闪亮的⭐️,但是相对于ChatGLM、BaiChuan等国产大模型,其对于中文的支持能力不是很理想。原版LLaMA模型的词表大小是32K,中文所占token是几百个左右,这将会导致中文的编解码效率…

mp4视频批量截取!!!

mp4视频批量截取!!! 问题:如果我们想截取一个mp4视频中的多个片段,一个一个截会很麻烦! 可以将想要截取的开始时间和结束时间保存到 excel表 中,进行批量截取。 1、对一个视频,记…

bclinux aarch64 ceph 14.2.10 对象存储 http网关 CEPH OBJECT GATEWAY Civetweb

相关内容 bclinux aarch64 ceph 14.2.10 文件存储 Ceph File System, 需要部署mds: ceph-deploy mds-CSDN博客 ceph-deploy bclinux aarch64 ceph 14.2.10【3】vdbench fsd 文件系统测试-CSDN博客 ceph-deploy bclinux aarch64 ceph 14.2.10【2】vdbench rbd 块设…

unity shaderGraph实例-扫描效果

文章目录 效果展示整体结构各区域内容区域1区域2区域3区域4区域5区域6GraphSetttings注意事项使用方法 效果展示 整体结构 各区域内容 区域1 用场景深度减去顶点的View空间的视野深度(Z值),这里Z值需要乘-1是因为从相机看到的物体顶点的视野…

大模型的实践应用6-百度文心一言的基础模型ERNIE的详细介绍,与BERT模型的比较说明

大家好,我是微学AI,今天给大家讲一下大模型的实践应用6-百度文心一言的基础模型ERNIE的详细介绍,与BERT模型的比较说明。在大规模语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义模式,并通过微调的方式一致地提高各种NLP任务的性能。然而,现…

el-select组件绑定change怎么获取label和value值

组件中change回调只能获取到value,但是有时候需求是要传两个参数(elementui 封装的change只能获取到value,我们可以通过原生事件去获取option值)。 如果要在element组件上触发原生事件,一律都得加.native修饰符,否则无法触发事件。…

【论文精读】Pose-Free Neural Radiance Fields via Implicit Pose Regularization

今天读的是一篇发表在ICCV 2023上的文章,作者来自NTU。 文章地址:点击前往 文章目录 Abstract1 Intro2 Related Work3 Preliminary4 Proposed Method4.1 Overall Framework4.2 Scene Codebook Construction4.3 Pose-Guided View Reconstruction4.4 Train…