人脑启发AI设计:让神经网络统一翻译语音和文本

来源:图灵人工智能

作者:Glaciohound

编辑:陈彩娴

能够统一地理解语音和文本,是人类能够形成通用语言能力的重要原因。那么,人工智能是否也能如此?最近,来自字节跳动和UIUC的研究人员借鉴这一思路,设计了一个跨模态的翻译模型——Chimera(奇美拉)。它不仅在一项标杆性语音翻译任务中获得高分,其可视化结果也证实了这一机制能更好地理解人类语言。

论文:Learning Shared Semantic Space for Speech-to-Text Translation / 在语音翻译任务中学习共享的语义空间 (ACL Findings 2021) 

Arxiv链接: https://arxiv.org/abs/2105.03095

Codes: https://github.com/Glaciohound/Chimera-ST

1

研究背景:人脑对语音和文本的统一理解

你在看书打字的时候,是不是也喜欢来点音乐?那你可曾思考过,文字工作时最适合的 BGM 是什么?科学家们会告诉你,是不带词的纯音乐[1]。你肯定也常常有这种感觉:你欣赏着优美的歌词和富有磁性的嗓音,结果半天一个字也看不进去。

先别急着埋怨自己,这其实是你大脑的锅。科学家们早就意识到,语音和文字信号进入大脑后,会共享一部分处理路径,所以听歌词很容易干扰你的阅读。而相关的探索,可以追溯到一百多年前一个年轻人的意外发现。

韦尼克-格施温德语言模型

 

图1:卡尔·韦尼克,图源:维基百科

1874年,卡尔·韦尼克(Carl Wernicke)正在著名神经病理学家西奥多·梅内特(Theodor Meynert)手下学习。他记录下两位奇特的病人。他们好像患有某种语言表达障碍,但症状和典型的表达性失语症截然不同:他们说话写字其实都很流畅,但净是些胡言乱语。比如一位病人这样表达他的病况[2]:

"What's wrong with me was because I ... was myself until the taenz took something about the time between me and my regular time in that time and they took the time in that time here and that's when the the time took around here and saw me  ..."

……不能说是胡说八道,只能说是毫无意义。韦尼克最终试着将这种症状(现称感觉性失语症)归因于颞叶后部和顶部(现称韦尼克区 Wernicke's Area)的脑损伤。它破坏了病人的语言理解能力,所以患者常常说着写着就忘了:“我要说啥来着?”

受此启发,韦尼克提出了早期的神经学语言理论 Wernicke-Geschwind 模型(图2)。他猜测,语音和文本在大脑中先被分开识别,然后在韦尼克区完成统一的理解。感觉性失语症就是因为病人韦尼克区的理解出了毛病,而表达功能却完好无损。

 

图2:经典的 Wernicke-Geschwind 语言模型,图源:维基百科

这个模型现在早已过时,但它从此激励着后世研究者去探索大脑中语音和文本的关系。

来自认知神经学的证据

自从神经影像学兴起,科学家们能更加细致地观察大脑活动。近几十年的众多研究都佐证了大脑中语音-文本“汇合区”的存在,这些区域同时负责着对语音和文本的理解。

如2013年,Christopher J. Honey 等人邀请38名志愿者听或看一个小故事《酪饼侠》[3]。MRI结果精确地指出,在颞上回(韦尼克区附近)和楔前叶的一些区域对语音和文本都有响应(图3B)。更令人惊异的是,语音和文本引起响应的时间模式也非常相似(图3A),这和古老的猜想不谋而合。

 

图3:语音和文本信号在大脑中的时空相关性 [2]

另一些研究通过对比不同人的阅读测验分数和汇合区的面积,又证明了这二者呈正相关[4]。在2018年,Wilson等人更是发现这些汇合区的确对语言有理解能力:它们可以分辨句子的句法,而对没有意义的内容则不作响应[5]。基于长久以来的研究结果,他们尝试绘制了一幅人脑中语音-文本的处理模式图(图4)。至此,神经学家们对这一谜团的百余年探索终见光亮。

图4:颞上回里的语言-文本处理模式图 [4]

现在的问题是:这样的设计也会适用于人工智能模型吗?

  

2

试验场:语音翻译

在观看《看不见的客人》(Contratiempo)之类的外语电影时,你最好的帮手是谁?那一定是油管帮你自动翻译的字幕!这一功能就涉及语音翻译技术,把源语言(如电影原声西班牙语)的声音翻译成目标语言(如你的母语)的文本。这种技术也能让你借助手机和外国朋友畅快交流,未来或许还能让你和动物聊天!

语音翻译是自然语言处理的基本任务之一,它同时涉及语音和文本的处理。不过由于前文提到的技术难点,即使是最先进的语音翻译,效果也与文本翻译相差较大。

因此,我们选择语音翻译作为回答上面问题的具象指标。

难点:语音和文本的鸿沟

读过上述神经学的发现,你可能觉得,让人工智能来统一理解文本和语音应该也是小菜一碟。然而,一旦涉及到技术实现,问题就有点棘手了。

首先,对于计算机而言,语音和文本的表达形式大不相同。文本通常只是几十个符号,但语音都是连续的声音波形,长度可以达到百万之巨。即使是说一个词,由谁来说、在什么环境中、何种语境下说,听起来也会大相径庭。

此外,语音与文本的编码方式也不同。文本单词由词根和词缀构成。而语音则包含着一系列的语素,辅以轻重和抑扬顿挫。

图5:声音波形和文本的差异

最后就是数据的问题。文本数据在互联网上遍地都是,但语音收集起来则费钱得多。不信看看,文本和语音的两个翻译数据集的大小差距有多大(图6)。请记住,就当下的人工智能而言,数据就是生命。无数据,不智能。

图6:WMT16 (文本翻译) 和 MuST-C (语音翻译) 的大小差距

对人类来说轻而易举的事情,人工智能来做却可能难上加难。文本和语音的差异之大,在文本处理方面的研究硕果累累时,语音上的表现却落后不少。要想弥合差距,就需要统一理解语音和文本,就像我们的大脑那样。 

仿生之路

AI研究人员也并非不喜欢师从自然。事实上,他们研究时就常常从解剖学和神经学中获取灵感来优化模型。卷积神经网络(CNN)就是个生动的例子:它模仿动物视觉系统的结构,而在应用中也表现出很强的视觉识别能力。

 

图7:CNN和动物视觉系统的相似性(出自博客[6])

而回到语言技术的研究中,情况也是如此,这也使得语言和文本技术发展越走越近。Transformer[7]是文本处理最强大的工具之一,而它是借鉴心理学和神经学中“注意力”的概念搭建而成[8]。

Transformer 表现十分出彩,让语音研究人员羡慕不已,纷纷效仿。仅仅一年后,应用于语音上的 Speech-Transformer 就被提出了[9]。

另一个例子是文本训练技术 Masked Language Model(MLM),即训练AI猜出文本里被码掉的词[10],这个灵感来自我们常见的完形填空。MLM 现在被广泛用于学习理解词汇的语境含义。

再一次,Facebook的语音研究人员很快就意识到了MLM的价值,并针对语音提出了Wav2Vec2[11]。它的目的是学习每个语音段与上下文是什么关系,从而让机器学习这些语音段的含义。这一模型目前已初露头角。

图8:Masked Language Model 图示(出自博客[12])

现在,我们手头有着通用的工具 Transformer,既能处理语音也能处理文本;我们也有Wav2Vec2 来跨过二者表现形式上的差异。把语音和文本的处理统一起来只差临门一脚。

时日已到。

3

Chimera 模型

在这篇论文中,作者设计了一个模型来统一地翻译语音和文本,因其形似古希腊的神话动物 Chimera 而取名。作为基础技术,之前提到的 Transformer 和 Wav2Vec2 技术被用于编码音频和文本,但是要怎样才能将语音和文本的处理统一起来呢?

图9:Chimera 的概略图

Chimera 模型使用了一个简单的思路:它并不是编码了语音或文本的整个序列来用,而只是 “提取” 几条真正重要的信息。Chimera 学习从输入端提取一套包含关键语义信息的“记忆”,而对于其究竟是音频还是文本不做分辨。Chimera 在语音翻译之外还能够学习文本翻译的数据集,这样一来 Chimera 就能有效利用更多的训练数据!

表1:在 MuST-C 数据集上的表现效果

表1是MuST-C数据集上定量实验的结果,它是一个标杆性的语音翻译数据集,有8个翻译语向的数据,而且量级巨大。Chimera 在其所有语向中都表现优异。

图10. 学到的“记忆”在语音和文本输入上的提取流

图11:学到的“记忆”在语义空间中聚集成团

论文接下来展示了模型的可视化效果,结果很有趣。Chimera 模型在训练前并不知道要在“记忆”中提取什么,但它最终学会了使用每一个”记忆元“提取各异的信息。如果把各个的”记忆元“用不同的颜色标记,如图10所示,它们可以在语音和文本中”注意“到大致对应着相同的内容的子段。接下来,图11展示了一个清晰聚类的空间,各个“记忆元”所提取的信息投射在语义空间中不同的子区域。

图12. 在一个“记忆”中,语音和文本被按照句法结构排布起来

图12是对一个特定的“记忆”高维子空间“降维打击”之后的结果,“·”和“+”分别代表语音和文本。用线连起来的每一对语音和文本表达着相同的内容,它们彼此离得很近。作者将图中一些语音-文本对圈起来并标注了内容,发现句子是按照句法结构排布的,很容易就能识别出一些有特征的区域:右侧散布着三个问句,而左上角的几个句子都是将来时。 

4

结论

通过模仿人类大脑来统一理解语音和文本,模型在语音翻译上效果拔群。Chimera能提取语音和文本中共有的语义信息,因此能够同时学习语音翻译和文本翻译数据集,提高这种技术在训练和应用中的通用性。 

参考文献

1. Avila, Christina, et al. “The Influence of Distracting Familiar Vocal Music on Cognitive Performance of Introverts and Extraverts.” Psychology of Music, vol. 40, no. 1, Jan. 2012, pp. 84–93, doi:10.1177/0305735611422672.

2. https://web.stanford.edu/~zwicky/language-and-the-brain-ch4-8.pdf

3. Regev, Mor, et al. "Selective and invariant neural responses to spoken and written narratives." Journal of Neuroscience 33.40 (2013): 15978-15988.

4. Shankweiler, Donald, et al. "Reading differences and brain: Cortical integration of speech and print in sentence processing varies with reader skill." Developmental neuropsychology 33.6 (2008): 745-775.

5. Wilson, Stephen M., Alexa Bautista, and Angelica McCarron. "Convergence of spoken and written language processing in the superior temporal sulcus." Neuroimage 171 (2018): 62-74.

6. https://becominghuman.ai/from-human-vision-to-computer-vision-convolutional-neural-network-part3-4-24b55ffa7045

7. Vaswani, Ashish, et al. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).

8. Lindsay, Grace W. "Attention in psychology, neuroscience, and machine learning." Frontiers in computational neuroscience 14 (2020): 29.

9. Dong, Linhao, Shuang Xu, and Bo Xu. "Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

10. Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

11. Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." arXiv preprint arXiv:2006.11477 (2020).

12. https://www.machinecurve.com/index.php/2021/03/02/easy-masked-language-modeling-with-machine-learning-and-huggingface-transformers/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏近千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

20210713未来智能实验室收录资料

特别推荐:置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》,从城市大脑的起源和理论基础;城市大脑的定义和与智慧城市的关系;城市大脑在产业界的发展情况与存在的问题;城市大脑基于全球框架下的标准化研究;新一代城市大脑的1+N模式与建设框架;城市大脑到世界数字神经系统对人类社会的意义等6个方面对城市大脑进行了深入探讨。

1.5W字一文带你看懂 自动驾驶主流芯片及平台架构

2.【CICC原创】李德毅:用脑和认知科学解开博伊德环之谜

3.未来智城:以数字重构城市神经,以智能赋予城市力量与价值

4.Neuron:大脑如何调整适应环境的变化?最新研究揭示目标导向行为的调控作用机制

5.漫谈实时操作系统!

6.蔚来、小鹏、理想自动驾驶能力的纵向演进与横向比较

7.深度学习精炼图笔记总结

8.Hinton,Lecun 和 Bengio 三巨头联手再发万字长文:深度学习的昨天、今天和明天

9.深度学习精炼图笔记总结

10.RISC-V生态未来的三种可能~

11.长航时无人机关键技术研究进展

12.人脑启发AI设计:让神经网络统一翻译语音和文本

13.【开放书】机器意识,236页pdf

14.视觉图灵:从人机对抗看计算机视觉下一步发展

15.中国信通院发布《下一代数据存储技术研究报告(2021年)》(附pdf)

16.雷神公司关于第六代战斗机的六点预测

17.首篇NLP领域图神经网络综述:127页,从图构建到实际应用面面观

18.李德毅院士:用脑和认知科学解开博伊德环之谜

19.2021年,深度学习还有哪些未饱和、有潜力且处于上升期的研究方向?

20.GPU的发展历程、未来趋势及研制实践

21.2021世界人工智能大会AI Debate:图神经网络是否是实现认知智能的关键?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484316.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

32 bit 与 64 bit 程序(2)比较

32 bit 与 64 bit 程序(2)区别 由于操作系统内存分配的不同,导致软件开发过程中,需要编译不同版本的软件。 几个重要概念: (1)这里所说的的32位与64位程序,是指经过编译器编译后的可…

2021世界人工智能大会AI Debate:图神经网络是否是实现认知智能的关键?

来源:学术头条2021年7月10日,WAIC(2021世界人工智能大会)“图神经网络与认知智能前沿技术论坛”在上海世博中心成功举办。清华大学计算机科学与技术系教授李涓子,复旦大学计算机科学技术学院教授黄萱菁,清华…

Tensorflow深度学习应用(筑基篇)

筑基篇 #codinggbk1.张量 用于描述数据,可以理解为多维数组,包含张量的名字,阶数,形状数值类型. Tensor("Add:0", shape(m,n,k), dtypefloat32),表示节点名为Add,0代表第0个输出,shape表示为MxNxK维的数组&…

WPF中自动增加行(动画)的TextBox

WPF中自动增加行(动画)的TextBox 原文:WPF中自动增加行(动画)的TextBoxWPF中自动增加行(动画)的TextBox WPF中的Textbox控件是可以自动换行的,只要设置TextWrapping属性为”Wrap”即可&#xff…

基因婴儿事未了!人类将在2031年开始实现永生?

来源:WPR前段时间,中国首例“基因编辑”婴儿事件闹得沸沸扬扬,这件事也发酵到了国外,不到一天,各路外媒全部刷屏了。在这些外媒报道里,最有意思的要数《纽约时报》杂志了。他们就“基因编辑”问题,请到了作…

Tensorflow深度学习应用(进阶篇)

#codinggbk进阶篇相关数据:标签:要预测的事物特征:用于描述数据的输入变量样本:数据的特定实例有标签的样本:{特征,标签}无标的样本:{特征,...}模型:将样本映射到预测标签…

Java之Synchronized与锁升级

Synchronized与锁升级 一、概述 在多线程并发编程中 synchronized 一直是元老级角色,很多人都会称呼它为重量级锁。但是,随着 Java SE 1.6 对 synchronized 进行了各种优化之后,有些情况下它就并不那么重了。 本文详细介绍 Java SE 1.6 中为…

机器学习算法

最近,机器学习岗位越来越火爆,那么自然对算法的一些能力要求也是越来越高,想要在求职者中脱颖而出,起步自然非常重要。 我和小伙伴们一起研讨了 2019 年校招的一些算法面试,有些是亲自经历的,也有伙伴分享的…

深度强化学习在智能城市领域应用介绍

来源:海豚数据科学实验室深度强化学习是近年来热起来的一项技术。深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素。在建模过程中,智能体根据环境的当前状态信息输出动作作用于环境,然后接收到下一时刻状…

Tensorflow深度学习应用(进阶篇)-回归(函数拟合训练)-可视化

#codinggbk进阶篇:多元回归:建模问题:Yx1xx1x2xw2x3xw3...xnxwnb,矩阵简化表示YXWbnumpy库基础:整型的一个数字, 不能取得其shape(维度),通过np.array()可以将其转换成一个标量&…

Tensorflow深度学习应用(进阶篇)-1

#codinggbk 逻辑回归:逻辑回归需要将输出控制在[0,1]之间,可以使用函数将值映射在[0,1]之间Sigmod函数,逻辑回归一般采用对数损失函数;from pylab import mpl mpl.rcParams[font.sans-serif] [SimHei] #设置显示绘图显示中文 mp…

​20210716未来智能实验室收录资料

20210716未来智能实验室收录资料特别推荐:置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》。本期收录前沿科技进展材料52篇1.《科学》:媲美AlphaFold2的蛋白质结构预测新工具问世…

元宇宙深度研究报告:元宇宙是互联网的终极形态?

报告出品方:华安证券作者:尹沿技、张天、姚天航1 元宇宙:剑指互联网的“终极形态”1.1 元宇宙指向互联网的终极形态元宇宙(Metaverse)概念起源于科幻小说,或指向互联网的“终极形态”。Metaverse 一词来源于…

Unity基础

Unity3D 游戏开发 第一章 基础知识 Unity是一个用于创建游戏和三维互动内容的开发工具,是一个专业游戏引擎。 2D游戏:视角锁定,二维坐标。 3D游戏:任意视角,三维坐标。 虚拟现实(VR)&#x…

英特尔史上最大收购!英特尔拟300亿美元收购GF,审批成关键!

来源:EETOP据《华尔街日报》报道,知情人士称,英特尔打算斥资约300 亿美元收购晶圆代工大厂格罗方德(GlobalFoundries),以加速生产更多芯片,如果收购成功,这将是英特尔有史以来最大的…

Unity 基本操作

基本操作 物体的组合 1.从需要的组合的物体中选择一个作为父对象,其他的物体作为子对象,即把子对象拖拽到父对象里,操作父对象即可实现整体操作,效果如下。 2.在组合物体中,父对象的坐标是该组合体的坐标&#xff0c…

OpenAI雄心勃勃的机器人计划失败了:强化学习没法用?

来源:机器之心曾经训练出单手解魔方机器人的 OpenAI,眼下已经解散了机器人团队。这家执着于实现通用人工智能(AGI)的公司现在放弃了机器人研究,理由是「数据不够丰富」。近期,OpenAI 公司联合创始人 Wojcie…

Unity-游戏小地图实战(前述知识点回顾与运用)

阶段知识回顾与运用---游戏中小地图实战 对于多个摄像机,每个摄像机都带有音频监听器,会出现错误,因为我们只需要一个音频监听器,为了消除错误,需要移除其他摄像机的音频监听器,只保留主摄像机的音频监听器…

NTT高级科学家:光子是深度学习的未来!光子有望替代电子计算机加速神经网络计算...

来源:AI科技评论作者:Ryan Hamerly编译:陈彩娴近日,来自日本 NTT 研究所的高级科学家 Ryan Hamerly 在 IEEE Spectrum 上发表了一篇文章(“The Future of Deep Learning Is Photonic”),谈论了光…

Unity3D-InstantOC遮挡剔除

InstantOC(插件) 渲染管线 图形数据在GPU上经过运算处理,最后输出到屏幕的过程。对于显示出来的图形,CPU与GPU的分工 CPU判断需要显示的图形图像调用图形API;绘制调用(Draw Call):每…