多重信号辅助音频分离,让你在嘈杂环境也能指哪听哪儿

640?wx_fmt=gif

在刚刚结束的 I/O 大会的主题演讲中,Google CEO Sundar 提出了机器学习在无障碍(Accessibility)方面的用例:有听觉障碍的人在观看视频时往往需要配合字幕来完成辅助理解,但是如果你遇到了多个人同时在说话,自动生成的字幕反倒会扰乱听障人士的思维,使得他们更不知其所云。

有了我们称之为 Looking to Listen 的机器学习技术之后,我们通过对视频信号的处理和分析,将正在说话的人进行语音分离,借此提高音频的质量和准确度。

640?wx_fmt=gif

我们将这篇今年 4 月份发布在 Google Research 博客上的分享于此,借以机会让大家可以有更多针对这方面技术的了解。小编也为大家录制了带有 YouTube 自动生成字幕的处理后的视频,便于大家理解。

博客发布人:Google Research 软件工程师 Inbar Mosseri 和 Oran Lang

在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心理上"屏蔽"所有其他语音和声音。这种能力被称为鸡尾酒会效应,它是我们人类与生俱来的本领。然而,尽管关于自动语音分离(将音频信号分离为单独的语音源)的研究已经非常深入,这个课题仍是计算机领域的一项重大挑战。

在"Looking to Listen at the Cocktail Party"论文中,我们提出了一种深度学习音频—视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。我们通过计算生成视频,增强其中特定人员的语音,同时减弱其他人的声音。此方法用在具有单个音频轨道的普通视频上,用户需要做的就是在视频中选出他们想要听到的说话者的面部,或者结合语境用算法选出这样的人。我们认为此方法用途广泛,从视频中的语音增强和识别视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景


这项技术的独特之处在于结合了输入视频的听觉和视觉信号来分离语音。直观地讲人嘴部的运动应当与这个人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于这个人。视觉信号不仅可以在混合语音的情况下显著提高语音分离质量(与仅仅使用音频的语音分离相比,与我们的论文得出的结论相同),但是重要的是,它还能够将分离的干净语音轨道与视频中的可见说话者相关联。


640?wx_fmt=jpeg

在我们的方法中,输入是具有一个或多个说话者的视频,其中我们需要的语音受到其他说话者和(或)背景噪声的干扰。输出是输入音频轨道分解成的干净语音轨道,其中每个语音轨道来自视频中检测到的每一个人。

音频—视觉语音分离模型

为了生成训练样本,我们首先从 YouTube 上采集了 10 万个高质量讲座和演讲视频。然后从视频中提取带有清晰语音的片段(例如没有混合音乐、观众声音或其他说话者声音的片段)和视频帧中只有一个说话者的片段。这样得到了大约 2000 小时的视频剪辑,镜头中出现的是单个人,且说话的时候没有背景干扰。之后,我们使用这些干净数据生成"合成鸡尾酒会",即,将人脸视频、来自单独视频源的对应语音及从 AudioSet 获取的无语音背景噪声混合在一起。

使用这些数据,我们能够训练基于多流卷积神经网络的模型,将合成鸡尾酒会混合片段分割成视频中每个说话者的单独音频流。网络输入是从每一帧检测到的说话者脸部缩略图中提取的视觉特征以及视频声道的声谱图表示。在训练过程中,网络(分别)学习视觉和听觉信号的编码,然后将其融合在一起,形成一个联合音频—视觉表示。利用这种联合表示,网络可以学习为每个说话者输出时频掩码。输出掩码乘以带噪声的输入声谱图,然后转换成时域波形,以获取每位说话者单独、干净的语音信号。如需了解完整的详细信息,请参阅我们的论文论文链接:

https://arxiv.org/abs/1804.03619

640?wx_fmt=jpeg

基于多流神经网络的模型架构。

以下是使用我们的方法得到的语音分离和增强结果(先播放带混合或嘈杂语音的输入视频,然后播放增强结果)。所选说话者之外的另一个人的声音可以完全消去,或被抑制到所需的音量级别。


在语音识别中的应用

我们的方法也可以作为预处理程序应用于语音识别自动视频字幕添加。处理语音重叠的说话者对于自动字幕添加系统来说很有挑战性,将音频分离为不同的来源可以帮助生成更加准确、易读的字幕。


点击播放上面视频,小编已经为你准备好带有 YouTube 自动字幕的视频。

我们的项目网页提供了更多结果,以及此技术与最先进的纯音频语音分离和近期其他视听语音分离工作的对比情况。事实上,随着深度学习领域近期不断取得进展,学术界对视听分析的关注显著增加。在我们进行本研究的同时,其他机构也纷纷进行了不同的研究,例如,加州大学伯克利分校的一项研究分析了如何使用自我监督的方法来分离画面内/外说话者的语音,MIT 的一项研究则解决了如何分离屏幕上多个物体(例如乐器)的声音,同时定位发出声音的图像区域这一问题。

我们认为这项技术的应用前景十分广阔。我们目前正在探索如何将此技术整合到各种 Google 产品中。敬请期待!


Looking to Listen 项目网页:


https://looking-to-listen.github.io/ 

致谢

本文介绍的研究由 Ariel Ephrat(实习生)、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、Bill Freeman 和 Michael Rubinstein 共同完成。我们要感谢 Yossi Matias 和 Google Research Israel 对项目的支持,以及 John Hershey 提供的宝贵意见。我们还要感谢 Arkady Ziefman 在动画和人物方面提供的帮助,感谢 Rachel Soh 帮助我们获取文中所用视频内容的权限。


来源: TensorFlow


640?wx_fmt=png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/303592.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线性表的链式实现

用链式实现的线性表,公共接口ADT跟上一篇一样 1,有序链表 成员变量和构造函数: privateLinearNode front;privateintcount;publicLinkedOrderedList(){ front null; count 0;实现清单(将ADT和有序链表扩展的独有操作分别作了注释&…

mysql5.7组复制多主一从搭建_MySql5.7-多源复制(多主单从)

1.1.主库配置my.cnf#确保唯一server-id1#作为Master要开启binloglog-binmysql-bin#binlog format有三种形式:Statement、Mixed、Row,默认设置为mixedbinlog-formatmixed#需要同步的库,不指定默认同步全部库binlog-do-dbradius#不需要同步的库…

我敢打赌,这世界没有python数据分析解决不了的问题

相信许多做数据的都有这样的经历:你花了大半天整合了一张数据表,却因为其他部门的错误,导致表格结构全错了!于是你又要吭哧吭哧重新来过...每次数据都重复洗一遍,还这么慢,要是有一劳永逸的方法就好了。一劳…

mysql 存储二进制数据_为什么在MySQL中存储二进制数据?

Im a little confused - what are the pros of storing binary data in DB? Is it for security reasons, or there are some more complicated motives i dont see?Thanks for your time.解决方案As opposed to what? Putting it in the filesystem?The drawbacks to usin…

福利再度来袭,R语言数据分析书籍值得你拥有

在这个大数据的时代,数据分析和数据挖掘的重要性日益明显,小编也一直有意识地收集相关数据集,经过长时间的积累和沉淀,已经拥有十几本有关用R做数据分析和数据挖掘的书籍,有《统计建模与R软件》(含源码&…

在 .NET Core 中使用 ViewConfig 调试配置

介绍.NET Core 中的配置包含了多个配置提供程序,包括了 appsettings.json,环境变量,命令行参数等,还有一些扩展的自定义提供程序,比如说 ApolloConfig,AgileConfig 这些,然后从键值对中读取配置…

有趣!机器学习预测《守望先锋》里的赢家

网络游戏及电竞流媒体业务正在崛起为一个巨大的市场。在去年的英雄联盟世界锦标赛中,仅一场半决赛就有高达 1.06 亿人观看,甚至超过了 2018 年“超级碗”的观看人数。另一个成功的例子是 Twitch,目前有数千游戏玩家在上面直播玩游戏&#xff…

C#8.0宝藏好物Async streams

之前写《.NET gRPC 核心功能初体验》&#xff0c;利用gRPC双向流做了一个打乒乓的Demo&#xff0c;存储消息的对象是IAsyncEnumerable<T>&#xff0c;这个异步可枚举泛型接口支撑了gRPC的实时流式通信。本文我将回顾分享foreach/yield return/async await语法糖的本质如何…

连接mysql数据库2013_使用VS2013 + EF6 + .NET4.5 连接Mysql数据库

1、安装插件在使用Visual Studio 2013添加ADO.NET实体数据模型新建连接时&#xff0c;默认是没有Mysql选项的。此时我们需要安装两个东西&#xff1a;1、mysql-for-visualstudio&#xff1a;Mysql的Visual Studio插件&#xff0c;推荐1.2.3版本2、mysql-connector-net&#xff…

重磅来袭,2018 年 6 月编程语言排行榜

TIOBE 编程语言社区最新发布了 2018 年 6 月排行榜&#xff0c;和 5 月榜单相比&#xff0c;前九名没有任何变化&#xff0c;依然是 Java、C、C、Python、C#、Visual Basic .NET、PHP、JavaScript、SQL。5月份第十名的Ruby在这个月下降了一名&#xff0c;而R则上升一名&#xf…

mysql bench linux_MySQL Study之--Linux下安装MySQL workbench工具

系统环境&#xff1a;操作系统&#xff1a; RedHat EL6.4(64)WorkBench&#xff1a; mysql-workbench-community-6.0.9MySQL Workbench是一款专为MySQL设计的ER/数据库建模工具。它是著名的数据库设计工具DBDesigner4的继任者。你可以用MySQL Workbench设计和创建新的数据库图示…

.NET6发布了Preview2,这点超越过去10年!

从ASP.NET的性能诟病&#xff0c;到.NET Core的性能持续改进&#xff0c;在每一个.NET Core版本都能看到性能优化提升的介绍。.NET Core3.1在各种性能排行中霸榜&#xff0c;.NET5再度提升了性能&#xff0c;前些天发布的.NET Preview2&#xff0c;通过PGO &#xff08;Profile…

人工智能预测2018年世界杯 | 德国人打破历史将在俄罗斯上取得最后的胜利?

2018年俄罗斯世界杯近在眼前&#xff0c;比赛将于6月14日~7月15日在俄罗斯的各地举行。但世界杯还没开始&#xff0c;人们已经出现了各种各样的“比赛结果预测”。其中不乏有一些专业人士以及原足球选手&#xff0c;也有许多“生物”对此预测。前几年&#xff0c;章鱼哥保罗就准…

Q+开放的互联网:腾讯QQ “亮剑” 开放平台

&#xff08;图一&#xff09; 近日&#xff0c;人民日报的腾讯广告&#xff08;图一&#xff09;&#xff0c;在网民心中引起不小的波动。看着图中憨厚的小企鹅&#xff0c;后面是数以万计的应用软件&#xff0c;给人一种大将领兵征战沙场的感觉。图片左下角是 “Q开放的互联网…

php查询mysql乱码_php 查询mysql乱码怎么办

php查询mysql乱码的解决办法&#xff1a;1、修改PHP页面语言本身的编码类型&#xff1b;2、将MySQL字符集更改为“UTF8”&#xff1b;3、使用ultraplus中的编码转换功能进行转换。php读取mysql中文数据出现乱码的解决方法1.PHP页面语言本身的编码类型不合适&#xff0c;这时候&…

猝不及防,Google成功“造人”令人胆寒!人类迎来史上最惨失业潮…

01猝不及防&#xff01;这次&#xff0c;Google“造人”了&#xff01;5月8号&#xff0c;谷歌召开一年一度的Google I/O大会。谷歌CEO劈柴直接祭出了这次大会的王牌AI&#xff0c;这个智能过人的Al让人看完不禁倒吸一口凉气……相比Apple Siri和Microsoft Cortana只能机械式对…

雷军这个程序员!真的牛逼!

阅读本文大概需要3分钟。这两天忙着给CEO汇报工作以及跟进几个新产品的进展&#xff0c;忙到连新闻都没时间看。今天终于轻松了点&#xff0c;早上起来刷了刷知乎&#xff0c;看见一个让我惊呆了的消息&#xff1a;雷军要造车了&#xff01;雷军宣称亲自带队&#xff0c;初期就…

poj2545

题意&#xff1a;给出三个质数&#xff0c;求这素因子只有这三个质数的数中第k大的。 分析&#xff1a;用一个数列&#xff0c;第一位是1。用三个指针指向三个prime要乘的被乘数&#xff0c;最开始都指向1。每次取乘积最小的加入数组&#xff0c;并把指针后移。加入时要判断是否…

微软发布 Windows 10 预览版 Build 21343:此电脑和回收站等启用全新图标

微软已向开发频道&#xff08;Dev&#xff09;的 Windows 预览体验成员发布了 Windows 10 Insider Preview Build 21343 更新。内置应用和文件夹启用全新图标从去年开始&#xff0c;微软就不断为 Windows 10 内置应用重新设计图标。在 Windows 10 版本 20H2 更新中&#xff0c;…

什么样的程序员会让人讨厌

我有一个朋友&#xff0c;就是一个程序员&#xff0c;找他做事的时候&#xff0c;最让人讨厌了。00不愿意帮我修电脑。我说电脑坏了&#xff0c;想让他看看&#xff0c;他先是叫我检查插头&#xff0c;然后叫我重启&#xff0c;重启好之后&#xff0c;他冷淡的说&#xff1a;以…