谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。

随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感到兴奋,并持续不断地开发和测试新技术与体验。其中一个研究方向是探索语音模型对人际交流潜力的改变。例如,在我们之前进行的可穿戴字幕工作中,通过全天候语音转录来增强交流已经证明了其在聋哑人群体和听损人群等多个用户研究中的价值,也可以用于跨语言交流。这种增强尤其在群体对话或嘈杂环境中非常有用,在这些环境下,人们可能会遇到难以区分他人说话内容的困扰。因此,在可穿戴设备中准确地分离声音并进行语音识别是提供可靠且有价值用户体验所必需的关键要素。

在现实环境中,无论是在群体对话(左侧)还是周围存在多个说话者的嘈杂环境(右侧),语音字幕生成都面临着极大挑战

开发音频信号处理的深度学习解决方案需要访问大规模高质量数据集。对于训练声音分离模型而言,通过在实际设备上录制音频可以捕获到特定声学特性,然而考虑到需要在具有代表性的真实环境中使用实际设备,这一记录过程既耗时又困难。相比之下,利用模拟数据(例如房间模拟器)能够快速且低成本地进行操作,但可能无法准确捕捉到设备的良好声学特性。

在IEEE ICASSP 2024上发表的研究"基于模拟器的数据增强对增强现实眼镜语音识别性能的影响"证明了通过混合训练集,即由少量真实录音和大量模拟数据组成的配备麦克风头戴显示器原型,在提高模型性能方面具有显著效果。这种混合方法不仅可以捕获实际硬件声学特性(无法在模拟数据中获取),还可以便捷快速地生成适用于不同房间大小和配置声学场景的大量模拟数据,而使用实际设备记录这些数据则非常耗时。此外,该研究还对原型麦克风的方向性进行建模,以增加模拟结果的真实感,并进一步减少所需真实数据量。

室内声音传播机制

声波从A点到B点的传播模型如下:

其中,x(t)代表点A的时域声音信号,y(t)代表点B的声音信号。数学上通过脉冲响应(IR) h(t)来描述声波在经过A和B之间介质传播时的变化情况。

以下是一个在中度混响室内录制的红外信号示例。IR由三个主要部分组成:初始延迟、主峰和尾翼。初始延迟反映了声波从A点传播到B点所需时间延迟;主峰表示直接路径(即视距)上从A到B的声波传播;尾翼则由于墙壁、地板和天花板等处发生反射(也称为混响),导致较长距离和较晚到达以及振幅降低。

使用头戴式麦克风拍摄房间红外(IR)的示例。其中,(a)声波从扬声器传播到麦克风存在初始延迟,(b)主峰表示直接传播(即视距传播),(c)尾部代表来自房间的声音反射。

混合数据集

为了捕捉原型在一系列代表性环境中的独特声学特性,我们开发了一个混合数据集管道。通过使用头-躯干模拟器(HATS)在实际设备上记录房间脉冲响应(RIRs),我们能够获取真实数据。我们利用9个扬声器和一个嘴巴模拟器提供10个声源,并借助电动转台控制声源与原型之间的角度,从而记录每个房间720个RIRs(360°/ 5°增量× 10个声源)。这些扬声器分别放置在样机周围不同距离(1.0 - 4.2米)和高度(1.3 - 1.8米)的位置。所记录的RIR数据集被划分为训练集和评估集。对于模拟数据集,我们使用房间模拟器生成了8000个具有不同RT60混响时间(0.2-1.5秒)、房间体积(长/宽:2-6米,高度:2-6米)和扬声器位置(高度:1.3-2.1米,与原型距离:0.2-4米)的IRs。所有这些模拟RIR仅用于训练。

数据收集装置。麦克风原型安装在一个旋转平台上,周围有9个扬声器,另外还有一个10口模拟扬声器。在使用和不使用头部和躯干模拟器的情况下进行了720次RIR记录。

在训练过程中,我们使用了公共数据集(LibriTTS和FSD50K)以及记录和模拟的RIRs对语音和噪声样本进行了空间化处理,并将它们混合在一起。通过能够访问单独的预混合空间化源,我们可以获得用于监督训练的真实数据。根据所使用的训练集(记录的、模拟的或两者兼有)组合不同基于CNN的Conv-TasNet模型,并比较它们之间的性能。所有模型都保持相同的架构和超参数。

声学建模

在声学建模过程中,我们假设麦克风的指向性可以增强模拟的冲击响应(IRs)的真实感,因为麦克风指向性是录制IRs时关键的声学特征。因此,我们将模拟的RIRs扩展为具有麦克风指向性,并通过计算直达混响比(DRR)来衡量直达径(视线)音频与其混响部分之间功率上的差异。正如我们所假设的那样,我们得出了以下结论(见下文),即通过使模拟IRs更接近于录制IRs行为,并提高模拟数据集质量,从而进一步提升整体模型性能,而无需进行昂贵且耗时的录制过程。值得注意的是随着模拟IRs与录制IRs越来越接近,在混合数据集中以更多比例使用模拟IRs相对于记录IRs变得可行。因此,在不影响模型性能情况下,这种额外声学建模方法还可以进一步减少所需记录数据量。

结果

为了评估模型的性能,我们在预处理步骤上遵循与训练中相同的流程。不同之处在于,我们使用录制的IRs作为评估集,并排除了训练数据中的语音和噪声音频。推理后,分离出来的输出音频被传递到一个现成的自动语音识别(ASR)引擎进行计算单词错误率(WER)。我们使用未经修改过且与Pixel Recorder APP中使用的引擎相同的ASR引擎,在每个模型上重复执行相同推理过程以便与下面总结结果进行比较。

研究结果显示,使用混合数据集训练的模型相较于仅从记录数据集或模拟数据集训练的模型表现更优。混合模型S[4000]+M[720](包含4000个模拟和720个测量)与M[1440](包含1440个测量)具有类似性能,由于训练数据中已经包含了4000个模拟IRs,因此只需一半数量的记录- 1440→720 -。同时,S[4000]+M[720]也优于在S[8000](包含8000个模拟)上进行训练的模型,这说明小子集中所提取出来的记录IRs数量减少了所需的模拟IRs数量(8000→4000 )。

不同的数据增强方法与实测和模拟IRs进行比较。M表示测量,S表示模拟;括号中的内容分别代表IRs数量、D代表模拟中的麦克风指向性,G代表对被测房间使用匹配几何的模拟。WER的降低是相对于基线(没有声音分离)而言WER得到了改进。

结论

尽管可穿戴设备上的语音识别具有挑战性,特别是在噪声和混响条件下,但结论显示其具有解锁许多关键应用的潜力。本文量化了使用房间模拟器来训练作为语音识别前端的声音分离模型的有效性。通过(a)大幅增加可用模拟IRs数量、(b)利用麦克风指向性以及(c)与少量测量IRs合并,证明了模拟IRs对提高语音识别至关重要。

仿真技术成为开发可穿戴语音识别系统强有力的工具。我们得出一个重要结论:逼真的声学建模可以显著减少所需真实世界数据量,并且即使使用模拟数据来补充有限真实世界数据也能带来巨大性能提升。

这项研究为强大的语音驱动AR体验开辟了新途径,并为无数应用程序中增强通信铺平了道路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/2953.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Adobe Illustrator 2024 v28.4.1 (macOS, Windows) - 矢量绘图

Adobe Illustrator 2024 v28.4.1 (macOS, Windows) - 矢量绘图 Acrobat、After Effects、Animate、Audition、Bridge、Character Animator、Dimension、Dreamweaver、Illustrator、InCopy、InDesign、Lightroom Classic、Media Encoder、Photoshop、Premiere Pro、Adobe XD 请…

ChatGPT实战100例 - (18) 用事件风暴玩转DDD

文章目录 ChatGPT实战100例 - (18) 用事件风暴玩转DDD一、标准流程二、定义目标和范围三、准备工具和环境四、列举业务事件五、 组织和排序事件六、确定聚合并引入命令七、明确界限上下文八、识别领域事件和领域服务九、验证和修正模型十、生成并验证软件设计十一、总结 ChatGP…

解线性方程组——(Gauss-Seidel)高斯-赛德尔迭代法 | 北太天元

一、Gauss-Seidel迭代法 n 3 n3 n3时 A ( a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ) , b ( b 1 b 2 b 3 ) , A\begin{pmatrix} a_{11} & a_{12} &a_{13}\\ a_{21} & a_{22} &a_{23}\\ a_{31} & a_{32} &a_{33}\\ \end{pmatrix} ,\quad b\be…

缓存神器-JetCache

序言 今天和大家聊聊阿里的一款缓存神器 JetCache。 一、缓存在开发实践中的问题 1.1 缓存方案的可扩展性问题 谈及缓存,其实有许多方案可供选择。例如:Guava Cache、Caffine、Encache、Redis 等。 这些缓存技术都能满足我们的需求,但现…

《从零开始的Java世界》10File类与IO流

《从零开始的Java世界》系列主要讲解Javase部分,从最简单的程序设计到面向对象编程,再到异常处理、常用API的使用,最后到注解、反射,涵盖Java基础所需的所有知识点。学习者应该从学会如何使用,到知道其实现原理全方位式…

LAMP(Linux+Apache+MySQL+PHP)环境介绍、配置、搭建

LAMP(LinuxApacheMySQLPHP)环境介绍、配置、搭建 LAMP介绍 LAMP是由Linux, Apache, MySQL, PHP组成的,即把Apache、MySQL以及PHP安装在Linux系统上,组成一个环境来运行PHP的脚本语言。Apache是最常用的Web服务软件&a…

纸箱码垛机:从传统到智能,科技如何助力产业升级

随着科技的飞速发展,传统工业领域正经历着一场重要的变革。作为物流行业重要一环的纸箱码垛机,其从传统到智能的转型升级,不仅提高了生产效率,还大幅降低了人工成本,为产业升级提供了强大助力。星派将探讨纸箱码垛机的…

【Unity】UnityEvent(一)

​UnityEvent----高效管理游戏事件的利器 在游戏开发中,事件系统是实现各种功能的关键组成部分。它允许我们将不同对象之间的交互解耦,使得代码更加模块化和易于维护。而UnityEvent作为Unity引擎提供的一种强大的事件系统工具,为开发者提供了…

CPDA|0到1突破:构建高效数据分析体系的秘密武器

在现今信息爆炸的时代,数据已经渗透到了我们生活的方方面面,成为了决策、创新和竞争优势的关键。因此,构建一套高效的数据分析体系,对于企业和个人而言,都是至关重要的。那么,如何在众多的数据海洋中脱颖而…

分类神经网络1:VGGNet模型复现

目录 分类网络的常见形式 VGG网络架构 VGG网络部分实现代码 分类网络的常见形式 常见的分类网络通常由特征提取部分和分类部分组成。 特征提取部分实质就是各种神经网络,如VGG、ResNet、DenseNet、MobileNet等。其负责捕获数据的有用信息,一般是通过…

5分钟——测试搭建的springboot接口(二)

5分钟——测试搭建的springboot接口(二) 1. 查看数据库字段2. 测试getAll接口3. 测试add接口4. 测试update接口5. 测试deleteById接口 1. 查看数据库字段 2. 测试getAll接口 3. 测试add接口 4. 测试update接口 5. 测试deleteById接口

Docker 开启远程安全访问

说明 如果你的服务器是公网IP,并且开放了docker的远程访问,如果没有进行保护是非常危险的,任何人都可以向你的docker中推送镜像、运行实例。我曾开放过阿里云服务器中docker的远程访问权限,在没有开启保护的状态下,几…

用 LMDeploy 高效部署 Llama-3-8B,1.8倍vLLM推理效率

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 汇总…

Springboot 整合 Quartz框架做定时任务

在Spring Boot中整合Quartz&#xff0c;可以实现定时任务调度的功能 1、首先&#xff0c;在pom.xml文件中添加Quartz和Spring Boot Starter Quartz的依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-bo…

一些好听且有心意的英文全名Burwood新南威尔士州伯伍德喝酒上脸就是乙醛中毒1. 康奈尔大学官宣恢复标化要求2. 香港城市大学(东莞)正式设立!

目录 一些好听且有心意的英文全名 Burwood新南威尔士州伯伍德 喝酒上脸就是乙醛中毒 1. 康奈尔大学官宣恢复标化要求 2. 香港城市大学&#xff08;东莞&#xff09;正式设立&#xff01; 一些好听且有心意的英文全名 在选择好听且有意义的英文全名时&#xff0c;我们可…

synchronized的底层原理

目录 介绍 实现原理 对象头 Monitor&#xff08;监视器&#xff09; 锁升级 偏向锁 轻量级锁 重量级锁 锁的优缺点 介绍 synchronized 是 Java 中的关键字&#xff0c;它用于锁定代码块或方法&#xff0c;以确保同一时刻只有一个线程可以进入被锁定的部分。这在多线程…

css盒子设置圆角边框的方法

前言 欢迎来到我的博客 个人主页&#xff1a;北岭敲键盘的荒漠猫-CSDN博客 本文为我整理的设置圆角边框的方法 需求描述 我们在设置盒子边框时&#xff0c;他总是方方正正的。 我们想让这个直直的边框委婉一点该怎么办呢。这个就提到了我们这篇文章讲的东西&#xff1a; bord…

聚观早报 | OpenAI在印度开始招聘;特斯拉将发布一季度财报

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 4月23日消息 OpenAI在印度开始招聘 特斯拉将发布一季度财报 理想汽车全线产品降价 优酷升级悬疑剧场为白夜剧场 …

ffmpeg支持MP3编码的方法

目录 现象 解决办法 如果有编译包没有链接上的情况 现象 解决办法 在ffmpeg安装包目录下 &#xff0c;通过./configure --list-encoders 和 ./configure --list-decoders 命令可以看到&#xff0c;ffmpeg只支持mp3解码&#xff0c;但是不支持mp3编码。 上网查寻后发现&…

C++ :设计模式实现

文章目录 原则单一职责原则开闭原则依赖倒置原则接口隔离原则里氏替换原则 设计模式单例模式观察者模式策略模式代理模式 原则 单一职责原则 定义&#xff1a; 即一个类只负责一项职责 问题&#xff1a; 类 T 负责两个不同的职责&#xff1a;职责 P1&#xff0c;职责 P2。当…