【机器学习】脑机接口利器:错误率仅3%

云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

编者按:本文来自微信公众号“AI科技评论”(ID:aitechtalk),36氪经授权发布。

作者 | 贾伟

编辑 | 蒋宝尚

 

v2_e17ec5d677b9408dbdab0669726ac7da_img_000

机器翻译真的是万能的,不仅能够写诗、对对联、推导微分方程,还能够读取脑波信息。

昨天,加州大学旧金山分校的Joseph Makin 等人在 Nature Neuroscience上发表了一篇论文,标题为《利用 encoder-decoder 框架,将大脑皮质活动翻译为文本》(Machine translation of cortical activity to text with an encoder–decoder framework)。

 

v2_04247fd1097446699c12e476bf64acc2_img_000

这篇论文的工作思路异常简单。他们将脑波到文本的转换视为机器翻译的过程,脑波为输入序列,文本为输出序列。

通过让受试者朗读文本,收集相应脑区的电波,构成训练数据集,然后去训练一个端到端的机器翻译模型。

 

v2_abc59acd2591418a96f533f146f777bd_img_000

通过这种方式,他们获得了一个模型,这个模型能够将受试者的脑波「准确」、「实时」地转换为句子文本,而错误率仅为3%。

这种创新,无疑是革命性的。

目前一些用于大脑控制打字的脑机接口技术,大多依赖于头部或眼睛的残余运动。以霍金为例,他可以通过手指的运动控制虚拟键盘来打出他想表达的单词。但这种方式一分钟最多也只能打出8个单词。

也有一些尝试将口头语音(或尝试发出的语音)解码为文字,但迄今也仅限于对单音素或单音节的解码,在中等大小的文本(100个单词左右)上错误率往往高达60%以上。

Joseph 等人的这项工作,则直接将脑波几乎无延迟地准确转换为文本,对于瘫痪患者来说,无疑是一大福音。

总体思路

如前面所述,作者借用了自然语言处理领域的概念,在自然语言的机器翻译中,是将文本从一种语言翻译到另外一种语言。而脑波到文本,事实上也是类似的一种「翻译」过程。

从概念上讲,这两种场景的目标都是在两种不同表示之间建立映射关系。更具体地说,在这两种情况下,目的都是将任意长度的序列转换为任意长度的另一序列。这里需要重点强调一下「任意」,因为输入和输出序列的长度是变化的,并且彼此之间并不必须有确定性的一一对应关系。

在Joseph 等人的这项工作中,他们尝试一次解码一个句子,这和现在基于深度学习的端到端机器翻译算法类似。

两者相同的地方是,都会映射到相同类型的输出,即一个句子的词序列。不同之处在于,输入,机器翻译的输入是文本,而Joseph等人工作的输入是神经信号——受试者朗读句子,实验人员用高密度脑电图网格(ECoG grids)从参与者的大脑皮层处收集信号。

于是,对神经信号稍加处理后,便可以直接用 seq2seq架构的机器翻译模型进行端到端训练,基本不用进行改动。

在这项工作中,最难的是如何获取足够多的训练数据集。我们知道,机器翻译的数据集可以达到上百万规模,但这个实验中的每一个受试者顶多也就只能提供几千量级的数据。在这种训练数据稀少的背景下,为了充分利用端到端学习的好处,作者使用了一种只包含30~50个独立句子的受限“语言”。

模型

在这项研究中,为了收集输入数据,要求参与人员大声朗读句子,观察脑波活动。一组需要朗读的数据是图片描述,大概有30个句子,125个单词,另一组采用MOCHA-TIMIT语料数据库中的数据,以50个句子为一组,最后一组包含60个句子。

一共有四个参与者进行朗读,研究人员只考虑重复朗读三次的句子集,其中一次朗读的数据用于测试,两次用于训练。

参与者在大声朗读的时候,会产生脑电波,给参与人员插上电极之后,研究人员用高密度脑电图网格(ECoG grids)从参与者的大脑皮层处收集信号。

收集的脑电波信号和对应朗读的句子,会作为数据输入到“编码-解码”架构的人工神经网络。

v2_54b6acd3f3e049f2887627e741f83b0b_img_000

如上图所示,人工神经网络对输入数据进行处理会经过三个阶段:

1、时间卷积:一些类似的特征可能会在脑电信号数据序列的不同点处重现,全连接的前馈神经网络显然无法处理。为了有效学习这种规律,网络以一定的步幅为间隔,对每个间隔应用相同的时间滤波器(temporally brief flter)。

2、编码器循环神经网络:经过时间卷积的处理会产生特征序列,把特征序列输入到编码器循环神经网络里面,然后,神经网络的隐藏层会提供整个序列的高维编码,这个编码与长度无关。

3、解码器循环神经网络:在解码阶段,重点将是高维序列“翻译”成一个单词。这时的循环神经网络会进行初始化,然后对每一步的单词进行预测,当预测结果是end-of-sequence token时,停止解码。

作者所使用的神经网络框架如下图所示:

 

v2_64fbedbb64b044c0a741ad26971c52b0_img_000

训练整个网络的目标是接近MFCC(梅尔倒谱系数特征),MFCC能够引导神经网络产生良好的序列解码。但是在模型测试阶段,抛弃了MFCC,解码完全依靠解码器神经网络的输出。在模型训练中,随机梯度下降法贯穿训练的整个过程,所有的网络层都应用了dropout。

模型评估用错词率(The Word error rate, WER)量化,WER基本想法就是把正确答案和机器的识别结果排在一起,一个词一个词的对,把多出的词,遗漏的词和错误识别的词统统加在一起,算作错误,然后计算错误的词占实际单词总数的百分比。

经过验证,所有参与者的平均WER为33%,对比当前最先进的语音解码WER的60%,效果较好。

实验结果

作者在论文中一共进行了两个实验,一个是采取了类似“控制变量”的方法,看看为何这个模型表现如此优秀,另一个是通过迁移学习改善其他参与者的模型表现。

 

v2_1b07262a6573455e82c6a65087d2c21c_img_000

在“控制变量”实验中,作者重新训练网络,上图的第二个框是采用低密度脑图网格数据(lower-density ECoG grids)并进行下采样的性能。另外,作者只留下了1/4个通道,即只用了64个通道,而不是256个通道,此时的错词率比原先高出四倍。这意味着除了高密度脑电图网格,算法也非常重要。

第三个框是没有附加MFCC时的性能,错误率与低密度脑电图网格类似,但优于之前的语音解码尝试。

第四个框是采用全连接网络的结果,对于卷积网络,全连接的错词率比之前高了8倍。但是在实验中,作者发现,用全连接网络造成的错词率可以在高γ信号传递之前进行下采样解决。

 

v2_e2d39cb419f74536964e51ee8fca050b_img_000

最后,作者对重复实验是否影响错词率进行了量化。研究发现,当至少有15次重复训练时候,错词率可以到25%以下。

如上图所示,当训练次数很少的时候,参与者a和参与者b的解码性能很差,为了解决这个问题,作者尝试了迁移学习。

 

v2_beee00f194fb4640ac3fa1f40d562f09_img_000

上图 a 中的第一个框用MOCHA-1数据训练的结果,错词率为53%。考虑网络第一次针对参与者b的更丰富的数据集进行预训练时的性能,这种迁移学习能使错词率降低约17%(上图a中的第一个框到第二个框所示)。

作者还考虑了一种组合形式的迁移学习,其中编码器-解码器网络根据参与者b的所有MOCHA-TIMIT数据进行预训练;然后针对参与者a的所有MOCHA-TIMIT数据进行训练,像往常一样在参与者a的MOCHA-1块上进行测试。这种“双重迁移学习”(图a,第四条框)使错词率比基线降低了36%,与任务迁移学习相比有所改善。

那么,改进是否以相反的方向转移,即从参与者a转移到参与者b,显然是可以的,正如上图b所示。

对于在MOCHA-TIMIT数据上表现最差的参与者d,将其余的MOCHAT句子添加到训练集并不能改善结果(如c图所示)。

讨论

很明显,这项研究最大的不足之处就是——数据集太小,仅250个单词,30~50个句子。

若想把这种技术扩展到通用自然语言上,则需要探索,到底需要多少数据才足够,以及如何才能获得足够的数据。

事实上,如果能够将脑电图网格(ECoG)长期插入受试者脑中,可用的训练数据量将比本实验(仅收集了半个小时的数据)大几个数量级。在实际应用中会遇到一些情况,有些人已经失去了说话能力,尽管如此,这种方法仍然可以适用,尽管性能会稍有下降。

这里,AI 科技评论还想强调的一点是:机器翻译的本质,就是从一种信息序列映射到另一种信息序列。特别是现在端到端的技术下,只要能够将你的问题换种表述方式,转换为序列到序列的映射问题,然后能收集到足够多的训练数据,那么都可以借用现有的机器翻译技术来做出巨大的改变。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516513.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【人工智能】AI如何把招人效率提高四成

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 近日,受新冠肺炎病毒影响,美国劳工部报告显示,将近 330 万人申请了失业保险,这…

中国移动云智融合峰会 与您相约揽胜九天

当前,5G、AI和云计算等技术加速发展,成为建设智慧社会、网络强国、数字中国的根基。中国移动大力推动人工智能建设和运营,实现规模化AI赋能。在这一背景下中国移动融智战略布局将会有何不同?人工智能时代,云融产业如何打造智能生…

【安全】一名安全数据科学家的日常生活

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 导读:目前网络安全领域的工作岗位远远多于合格的人选,所以好消息是网络安全还是一个适合涉足的领域。…

docker rocketmq4.7.0

创建数据挂载目录 mkdir -p /app/rocketmq/rmqserver01/logs mkdir -p /app/rocketmq/rmqserver01/store mkdir -p /app/rocketmq/rmqbroker01/logs mkdir -p /app/rocketmq/rmqbroker01/store mkdir -p /app/rocketmq/rmqbroker01/conf编辑配置文件 vim /app/rocketmq/rmqbr…

【远程办公】5分钟一拍照、10分钟一截屏 ?

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 随着新冠病毒疫情的爆发,选择远程办公的企业越来越多,雇主们也开始大量采购监控软件以保证员工们没有…

明源云:与阿里云生态共同成长

公司介绍 我们公司,即明源云,是国内领先的地产生态链“互联网”服务商,致力于让地产生态链更智慧。秉承产品领先战略和让用户成功的经营理念,我们成功为全国超过5000家房地产企业提供“互联网”解决方案和管理系统,帮…

Docker RocketMQ 集群

创建挂载目录 mkdir -p /app/rocketmq/logs/nameserver-a mkdir -p /app/rocketmq/logs/nameserver-b mkdir -p /app/rocketmq/store/nameserver-a mkdir -p /app/rocketmq/store/nameserver-b mkdir -p /app/rocketmq/logs/broker-a mkdir -p /app/rocketmq/logs/broker-b …

佰腾科技:专利大数据的云上裂变之路

公司简介 我们江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新整体解决方案。2014年起,我们公司积极推进互…

27年前研发出国内首台小型机的浪潮,如何怎么样了?

IDC数据显示,2019年浪潮商用机器有限公司在面向关键计算的RISC/EPIC服务器领域,市场份额达到73.5%,保持市场第一的领导地位。 浪潮商用机器有限公司在成立不到一年时就推出了基于POWER处理器的K1Power产品线,在成立仅两年时便取…

springboot elasticsearch vue ik中文分词器 实现百度/京东全文搜索

背景:实现和百度搜索一样效果的,全文搜索引擎支持关键词高亮显示 文章目录1. 企业级搜索引擎解决方案2. 创建索引规则3. 数据拉取4. 搜索高亮5. 自定义词库6. 效果图7. 开源源码1. 企业级搜索引擎解决方案 分词器:english、standard、ik_max…

学习笔记之数据可视化(一)——项目适配方案

目录 最终效果展示1. 数据可视化适配方案1.1 项目需求1.2 PC端适配方案1.3 使用到的技术2. 数据可视化项目开发项目准备1.1 文件准备1.2 引入js和css文件1.3 CSS样式初始化1.4 VS code 插件安装(任选一款)1.4.1 Live Server1.4.2 Preview on Web Server**~更多内容,请阅读下…

上海鸥新:基于大数据的商场实时客流分析系统

公司介绍 上海鸥新软件有限公司专注于室内定位技术和客流统计与分析的研发,如室内定位引擎、客流统计与分析系统。在用户导入客流系统的同时,为商业零售实体店提供了网络覆盖、微信上网,定时定地点向客户进行精准化商业信息推送等一体化解决…

常见的Ubuntu命令30条(二)

Ubuntu命令是指在Ubuntu操作系统中用于执行各种任务和操作的命令行指令。这些命令可以用于管理系统、配置网络、安装软件、浏览文件等。Ubuntu命令通常在终端(Terminal)应用程序中输入并执行。 history:显示命令行历史记录。grep&#xff1a…

手把手带你搭建一个自己的云服务器并部署Web程序

一. 服务器的购买 我选择的是阿里云的服务器,学生价9.5元一个月,百度直接搜索阿里云,然后点击右上角登录,推荐大家用支付宝扫码登录,方便快捷。阿里云官网的东西比较多,登录后我找了很久也没有找到学生服务…

QingStor分布式存储全线升级:自研需要勇气,成功还要看实力

数据量的爆炸式增长和企业对数据价值挖掘的渴求,正在让存储市场迎来前所未有的发展机遇。一方面,分布式存储正在经历快速的增长时期,IDC 2019年市场预测报告显示,无论是对象存储、文件存储还是块存储,分布式存储在未来…

加入阿里技术团队三年,哪些习惯让我在工作上持续受益?

2017年研究生毕业,我加入阿里巴巴数据库技术团队,从事分布式数据库研发,如今算来已经有三年时间了,在这期间,我深度参与了双十一背后的数据库PolarDB-X从设计到实现的全过程。在这三年的时间里,于我而言&am…

征战多云时代,Nutanix这款Kubernetes多云PaaS新利器,你Get到了吗?

当前,全球企业上云步伐加快,企业都有相同的目标:尽快将业务迁移上云,从而减少基础架构成本,提高员工效率,缩短业务研发时间,提供性能可靠的IT系统。 当下,以容器、服务网格、微服务…

学习笔记之数据可视化(二)——页面布局(中)

续上一章 2.6 监控区域布局2.6.1 布局结构解析:2.6.2 样式描述:2.6.3 HTML结构及CSS样式代码2.6.3 ### 监控区域-效果2.6.7 点位区域(point)2.6 监控区域布局 监控区域 monitor盒子高度: 480px,布局划分及内部盒子类名如下: 2.6.1 布局结构解析: .tab样切换:tabs 标…

OFD文件、pdf文件相互转换、ofd文件在线预览

文章目录一、在线预览1. api使用2. 案例3. 效果二、ofd转odf2.1. api使用2.2. 参考案例三、odf转ofd3.1. api使用3.2. 参考案例3.3. 开源项目一、在线预览 1. api使用 ofd文件在线预览: 使用方式: 格式:/ofdViewer/viewer.html?file1.ofd相对路径 2.…