深度:语音技术革命正在改变人类的交流方式

640?wx_fmt=jpeg

来源:资本实验室


语言是我们日常交流的主要方式,可以让我们快速了解对方的意图,并做出适当的反应。但对很多语言障碍者而言,说话这一看似简单的行为依旧是难以想象的困难。


语言是件极其复杂的事情,不仅仅是文字表面上的发音,还与音量、音调、速度、说话环境等众多因素密切相关。


同一个词或句子,在不同的场合、不同的音量和速度,所表达的意义也是不同的。比如“你吃了么?”,可以是两人见面的问候语;也可以是我正准备去吃饭,如果你没吃,我们可以结伴去吃饭;还可以是恋人间的关怀;甚至可以是小孩子玩游戏时,跟玩偶的对话。


语言环境是如此的复杂,而对于那些因受伤或生病而无法说话的人,我们怎样才能更好的理解他们的想法?他们又如何能更快更有效的表达自己的意图?


新技术正在快速推动语音生成设备的进步


自20世纪60年代以来,一些语音技术的先行者就致力于研发语音生成设备(SGDs)来帮助语言障碍者。


1963年,英国人Maling和Clarkson开发了专为严重身体残疾的人设计的个人通信工具POSSUM,这是一台带开关控制扫描装置的打字机。


自此,随着语音合成算法的进步及微处理器技术的发展,电子辅助和替代通信系统(AAC)得以快速普及。通信辅助设备也变得越来越小巧,功能也越来越强大。


目前,电子辅助和替代通信系统(AAC)、语音生成设备(SGDs)、语音输出通信辅助设备(VOCA)已经在美国帮助了200多万人。患有肌萎缩性侧索硬化症(ALS)、脑瘫、闭锁综合征、多发性硬化症、帕金森、脑中风、创伤性脑损伤等交流障碍或残疾人都可以使用这类语音生成设备。著名物理学家史蒂芬·霍金就使用语音生成装置与他人进行交流。

640?wx_fmt=jpeg

在过去几年中,随着人工智能技术与语音技术的突破,以及数字设备功能的指数级增长,数字化语音正在改变人们的交流方式,特别是翻译和医疗等领域。


据相关数据显示, 2017年,语音生成设备市场规模为1.9亿美元,预计到2025年将达到3.3亿美元。


各科技创新公司和谷歌、微软等科技巨头都在努力通过辅助应用APP、语音生成设备和脑机接口技术帮助语言障碍者能够更有效地与他人进行交流。 


1)辅助应用APP


智能手机、平板电脑和数字触摸屏为患者提供更加直接的交流方式。如自闭症患者可以通过触摸屏上的物品图像、活动图片或符号来表达他们的需求。


Proloquo2Go就是这样一款面向语言障碍患者的辅助交流工具,适用于自闭症、唐氏综合症、脑瘫和其他诊断患者,目前已有20多万用户。

640?wx_fmt=jpeg

此外,还有很多APP可以帮助用户“说话”,如SayIt!和Predictable这两款文字处理应用,可以将用户输入的文字内容转化成语音,并具有智能联想和自动更正单词的功能。


MyTalkTools Mobile是由一位父亲开发的,以帮助他儿子克服通信困难,他的儿子出生时患有Nager综合症,这是一种影响听力、言语和其他能力的罕见疾病。目前该软件已拥有超过10万名用户。


2017年初,微软推出了GazeSpeak应用程序,帮助肌萎缩性侧索硬化(ALS)患者用眼球运动进行沟通。该应用通过手机摄像头跟踪患者的眼睛运动,并用AI进行字词预测。


2)语音生成设备


机器学习、自然语言处理和文本预测技术极大地推动辅助通信技术的发展,语音合成应用可以为用户提供定制化、个性化的服务。


语音生成设备可以将单词或图片转化成语音,比辅助应用APP更加先进。某些产品允许用户可以从几种不同的声音中进行选择,例如男性或女性,儿童或成人,甚至可以选择一些地域口音。某些算法模型可以追踪患者眼睛运动或头部运动来进行词汇选择,并合成语音。


Pocket Go Talk是一款可穿戴的小型便携式AAC设备,也可以在桌面使用,具有五种可调节的扫描速度。通过5个易操作的按钮生成25条语音消息,每条语音可以长达12秒。

640?wx_fmt=jpeg

便携式辅助书写平板MegaBee是在英国斯托克曼德维尔医院的闭锁综合征患者的帮助下研发出来的。通过眼球运动和闪烁作为选择字母或短语的方法,然后在屏幕上显示,从而帮助中风、多发性硬化症、运动神经元疾病患者及其它语言障碍患者进行交流。

640?wx_fmt=jpeg

还有很多新兴科技公司正在利用机器人技术提升患者的社交能力。卢森堡机器人公司LuxAI推出适用于自闭症儿童的社交机器人QTrobot,实验证明,该机器人可以明显增加自闭症儿童的注意力和参与度,同时减少他们的焦虑和破坏行为。


美国波士顿公司VocalID利用众包和语音混合技术为语言障碍患者提供个性化的合成语音。目前已有110多个国家的超过14000人为公司的语音库The Human Voicebank提供了600多万句话。


2017年,谷歌宣布神经网络模型WaveNet正式商用于Google Assistant中,比初始模型效率提高了1000倍,可以更好地模拟自然语音。该模型可以根据真实的人类语音对音频波形进行建模分析,从中学习并创建自己的声音。


3)代表未来的脑机接口


意念交流是很多科幻小说和电影里的场景,而现在科研人员正在通过脑机接口技术将之变成现实。


早在1998年,英国雷丁大学的研究员Kevin Warwick博士在自己的手臂上植入一个发射器来控制门和其它装置。2002年,他将电极接入自己的神经系统,以便用思维控制轮椅,并允许远程机器人手臂模仿他的手臂动作。


Warwick博士的目标是帮助语言障碍患者进行沟通,他将一个芯片植入他妻子的手臂,通过互联网将两人的大脑联系在一起,创造了世界上第一个脑—脑电子通信。

640?wx_fmt=jpeg

2012年,美国因中风而瘫痪的患者Cathy Hutchinson利用脑植入芯片成功的用思维控制机器手臂端起一杯咖啡,并和吸管中喝了一口。


2014年初,法国公司Axilum Robotics与西班牙巴塞罗那大学、Starlab公司和哈佛医学院一起进行第一次脑对脑的沟通,在5000公里外,实现了直接在两个人的大脑之间进行沟通。


2016年埃隆·马斯克成立了Neuralink公司进行脑机接口研究,以帮助治疗人类的脑部疾病。


2018年5月,俄罗斯新西伯利亚国立技术大学声称研制出了一款用意念控制的越野轮椅。颈部以下瘫痪者可乘坐该轮椅在室内甚至城市街道上独立行动。


2018年6月,美国麻省理工学院下属计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新界面系统,它可以读取人类操作人员的脑电波,通过思维命令机器执行任务。


目前脑控科技已经成为各国科研人员竞相研究的前沿课题。尽管大多数研究目前还停留在实验室阶段,一旦该技术成功商业化,瘫痪者、语言障碍者、盲人等群体将迎来生命中的第二个春天。


语音2.0:语音界面技术和实时翻译


未来,科技创新将使人类的交流与沟通提升到另外一个层次,它不仅仅是帮助语言障碍患者进行无障碍交流;还会在人与人或人与机器之间进行信息交换。


由于人类语言的多样化,限制了人与人之间的沟通,特别是跨国别和跨语种的交流。近几年,随着实时翻译技术的成熟,语言鸿沟正被慢慢地消除。

640?wx_fmt=jpeg

2017年10月,谷歌推出Pixel Buds蓝牙耳机,使用Pixel智能手机即可在40种不同语言之间进行即时翻译。


微软的Skype Translator可以对语音、视频及50种语言的文本内容实现八种语言之间的实时翻译


各种便携式翻译设备可以帮助游客在几秒钟内进行语言翻译。未来,小小的耳机设备将打破出行的语言限制,而传统的翻译这一职业也将被新技术所替代。


在语言的新技术革命中,手语也正在被技术所替代。2015年,美国德克萨斯A&M大学开发了一款可穿戴设备,通过感知用户的手臂动作,将手语翻译成英语。该设备可以识别出大约40个美国标准手语动作,准确率达到了96%。


利益于人工智能技术的飞速发展,机器不仅仅是充当翻译人员,还可以成为沟通伙伴。据Gartner预测,到今年年底,我们与新技术的互动中有30%将通过与智能机器完成。目前每六个美国成年人中,就有一个拥有智能音箱或相关设备。除了控制智能家居外,亚马逊的AI助手Alexa已经可以帮助用户在线购物。未来AI助手将能实现更多的功能。


无论是在医疗、旅游、还是商业活动,以人工智能为代表的新技术正在彻底改变人与人之间的交流方式,并将打破身体、地域、国别、语种的各种限制。未来,我们的交流对象也将不再局限在人类,可以是机器、可以是动物。


这一切都是科技带来的福利。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493691.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

李航《统计学习方法》---感知机

这一章就讲了感知机。我觉得是深受工业革命的影响,把一些可以实现功能的基本单元都喜欢叫做什么机,这里的感知机,还有后来的以感知机为基础的支持向量机。直接看定义,看本质,实际上,感知机是一种线性分类模…

5G 对无线通讯芯片产业链的影响

来源:乐晴智库精选▌无线通信芯片概要:未来五年增速放缓,射频前端成为主要驱动力在智能手机普及的带动下,2012-2017五年无线通信芯片实现9.7%的复合增长率,根据iHS的数据,2017年市场规模达到1,322亿美金,占…

图像极坐标变换的研究

做图像配准的时候,发现图像进行旋转的情况下的配准有一些特殊。于是想到可以用极坐标进行配准。查了一下资料,发现大家用的更多的是对数极坐标Log Polar。 笛卡尔坐标系和极坐标系 先来说一下我们常用的笛卡尔坐标。X轴水平向右是正方向,y轴垂…

刚刚、Gartner发布物联网技术十大战略和趋势

来源:网络大数据Gartner的研究副总裁尼克•琼斯(Nick Jones)说:“物联网将在未来十年继续为数字化业务创新带来新的机遇,而许多新机遇有赖于新的或经过改进的技术。洞察创新物联网趋势的CIO们有机会领导本企业的数字化创新。”此外&#xff0…

图像的旋转和尺度缩放在对数极坐标系下的研究

首先来看一张特殊的同心圆图像及其极坐标变换:这是我自己在opencv下用cvLogPolar函数做的实验:极坐标原点选择在同心圆圆心时,同一个圆上的点到圆心的距离相等,所以映射在极坐标中应该是一组垂直于极轴的平行线。在自己的实验中因…

李航《统计学习方法》-----支持向量机

书中第七章才是支持向量机SVM,但在SVM与感知机有相似的地方,看了感知机的知识之后趁热先看看SVM。 首先回顾一下感知机。感知机的模型是线性分类模型,将两种类别标记为正负1,将新的样本输入线性函数,再将线性函数代入符…

乌镇互联网大会发布15项世界领先科技成果

来源:中央广电总台央视新闻客户端11月7日下午,第五届世界互联网大会“世界互联网领先科技成果发布活动”在乌镇互联网国际会展中心举行。大会共现场发布了15项世界互联网领域领先的“黑科技”,引得观众阵阵惊叹。15项世界互联网领先科技成果&…

OpenCV中的傅里叶的门道

接触到傅里叶-梅林算法,需要用到傅里叶变换,于是去查了一下OpenCV中的实现方法,没想到习以为常的傅里叶变换之中的门道还不少。 //傅里叶变换https://blog.csdn.net/keith_bb/article/details/53389819Mat I imread("Lena.jpg", I…

Science:人类迎来目前最为全面的癌症染色质可及性图谱

来源:吴晓波频道摘要:肿瘤在世界范围内导致人类死亡的首要原因之一,尤其是随着医疗水平的发展,人类的寿命的不断延长,癌症逐渐成为威胁人类健康的首要因素。肿瘤在世界范围内导致人类死亡的首要原因之一,尤…

傅里叶变换频谱的可视化保存

在上一篇关于傅里叶变换的博客中,知道了imshow的一个小trick:对normalize得到的0~1之间的浮点数构成的矩阵会进行放大255的操作,得到可视化的灰度图。即便是在python中也是如此操作的,只不过python中的函数封装得更加严密&#xf…

她取代马斯克成特斯拉新董事长 究竟什么来头?

来源:智车科技摘要:就如乔布斯之于苹果,对很多人来说,马斯克对特斯拉而言也有非凡的意义。甚至可以说,特斯拉的品牌吸引力很大程度上来自于“钢铁侠”本人。但由于当初任性发布“私有化”消息,被美国证交会…

十二天深入理解计算机系统(一)

计算机系统漫游 1 信息就是位上下文 系统中所有的信息都是由一串位表示的,在不同的上下文中,一个同样的字节序列可能表示一个整数、浮点数、字符串或者机器指令。 2 文本文件和二进制文件 有ASCII字符构成的文件称为文本文件,所有其他文件都是…

李航《统计学习方法》-----朴素贝叶斯

朴素贝叶斯法nave Bayes,在nave的中间字母上其实有两个点,查了一下才发现是法语中的分音符,在发音过程中发挥作用。但这不是重要的,重要的是在这种学习方法中贝叶斯承担了什么样的角色。 首先简单证明一下贝叶斯公式。联合概率Joi…

IEEE专访李开复:人类已打开潘多拉盒子,封堵AI变革只会徒劳

来源:《IEEE Spectrum》摘要:近期,李开复新书《AI未来》在美国同样反响不俗。在荣登多个排行榜后,IEEE旗下《IEEE Spectrum》,对李开复进行了专访,谈到了众多当前AI领域最受关注的话题。而且从《IEEE Spect…

Rand函数使用和对补码的理解

下面是在牛客网看到的一道题; //假设这n个数的序号依次为0,1,2,...,n-1,数组名为num void knuth1(int* pNum, int m, int n){srand((unsigned int)time(0));for (int i0; i<n; i){if (rand()%(n-i) < m)//rand()%(n-i)的取值范围是[0, n-i&#xff09;{cout << p…

深度学习巨头Yoshua Bengio清华演讲: 深度学习通往人类水平人工智能的挑战

来源&#xff1a;专知摘要&#xff1a;2018年11月7日晚&#xff0c;被称为“深度学习三巨头”之一的蒙特利尔大学计算机科学与运算研究系教授Yoshua Bengio在清华大学做了《深度学习抵达人类水平人工智能所面临的挑战&#xff08;Challenges for Deep Learning towards Human-L…

了解GAN网络

GAN网络&#xff0c;第一次听说它就不明觉厉。其他网络都是对输入图像进行某种处理&#xff0c;得到某种特定的输出。而GAN网络居然可以“无中生有”&#xff0c;无论是去除马赛克&#xff0c;还是换脸&#xff0c;还是对灰度图像上色&#xff0c;都显得不可思议&#xff0c;怎…

新能源汽车:大变革催生十万亿市场空间

来源&#xff1a;新时代证券&#xff08;开文明&#xff09;新能源汽车发展空间巨大&#xff0c;随着新能源汽车性能提升以及痛点的改善&#xff0c;新能源汽车带来的冲击越来越大&#xff0c;渗透率随之提升。根据BNEF预测&#xff0c;到2025年全球新能源汽车的销量将达到1100…

dlib+vs2013+opencv实现人脸特征点检测

刷知乎的时候发现dlib做特征点检测和人脸识别的效果都好于OpenCV&#xff0c;就想着动手玩一下。没想到也是遇坑重重。 首先&#xff0c;在官网 install命令和setup.py文件进行安装时报错&#xff0c;先是报错cmake没有找到&#xff0c;添加了环境变量之后仍然报错c11需要在vs…

对号入座,看看未来几年机器人是否会取代你的工作

来源&#xff1a;资本实验室摘要&#xff1a;面对未来&#xff0c;你是否准备好了&#xff1f;“机器是否会取代人类的工作”是当前讨论最多的话题之一。这主要源自于近几年以人工智能为代表的新技术的快速发展与商业化。尽管各研究机构的预测数据有所不同&#xff0c;但相同的…