人工智能阅读理解是如何打破人类记录? 解读阿里iDST SLQA 技术

来源:网络大数据

概要:微软和阿里巴巴开发的人工智能在斯坦福阅读理解测试中并列第一,在答案的精确匹配度上比人类高出几个基点。


微软和阿里巴巴开发的人工智能在斯坦福阅读理解测试中并列第一,在答案的精确匹配度上比人类高出几个基点。


它们已经在国际象棋和围棋上打败我们,合写了一张欧洲流行乐(Europop)专辑。现在,电脑又进军一个非常人性的领域:阅读理解测试,世界各地学生的苦难源头。


阿里巴巴(Alibaba)周一宣布,其人工智能在一项全球阅读理解测试中表现优于人类。该项测试提出的艰深问题包括:“尼古拉•特斯拉(Nikola Tesla)是什么种族的人”,以及“亚马逊雨林有多大?”


司罗是阿里巴巴数据科学研究院(iDST)的自然语言处理首席科学家,他把机器取得的这个胜利称为一个里程碑,称该技术有很多用途,从客户服务、博物馆讲解,到医疗查询,其中一些在全球范围已经由聊天机器人处理。


在上周进行的测试中,参赛公司让各自的人工智能系统解答斯坦福问答数据集(Stanford Question Answering Dataset)的提问,该数据集评估阅读理解能力。计算机的答案被与普通人的答复进行比较,然后据此排名。


美国软件巨擘微软(Microsoft)与阿里巴巴并列首位,后者是一家从电子商务起家的中国科技集团,如今与国内外同行一样,加大对人工智能的研究投入,其中大部分是通过其研究机构投入。


尽管微软和阿里巴巴以微小优势胜出,在回答的精确匹配度上仅比人类的82.3%高出几个基点,但它们并列首位为美国和中国正在进行的人工智能军备竞赛提供了合适的象征。


中国力求利用来自其14亿人口(其中有7.3亿上网)的海量数据和雄厚财力,在创建被视为下一场工业革命的1500亿美元产业方面超越美国。人工智能已经广泛应用于各个领域,从无人驾驶汽车到定制新闻推送。


尽管中国的努力是由政府带领的,它也在培育本土科技巨头,包括百度(Baidu)、阿里巴巴和腾讯(Tencent),以求超越美国。


百度更早投入人工智能的研究,目前在自主驾驶方面领先于竞争对手,其中一些成果在上周于拉斯维加斯举行的消费电子展(CES)上亮相。腾讯旗下的社交媒体应用微信(WeChat)号称拥有近10亿月活跃用户,该公司和阿里巴巴都已在定制新闻和广告等业务中采用人工智能,并投资于新领域。


阅读技术依赖于精读文本,比如维基百科(Wikipedia)的文章,以学习和模仿信息。类似的技术已被用于买家提出的常见问题(比如“我的包裹在哪里?”)。在阿里巴巴的光棍日购物节期间,这类问题会大量涌入。


AI阅读理解是如何打破人类记录?

解读阿里iDST SLQA 技术


几乎在同一时间,微软和阿里巴巴的机器阅读理解系统在最新的 SQuAD 数据集测评结果中取得了并列第一的成绩。这是历史上第一次,机器阅读理解的精准匹配分数超越了人类的评测结果。


这两天 NLP 圈炸锅了,焦点围绕着微软阿里到底是谁先打破了机器阅读理解的人类记录。


事情是这样的。两家的 PK 发生在 SQuAD 数据集上,这是行业内公认的机器阅读理解标准水平测试,也是该领域顶级赛事,被誉为机器阅读理解界的 ImageNet(图像识别领域的顶级赛事)。和 ImageNet 一样,SQuAD 的成绩排名也会定时更新。


微软和阿里先后于 1 月 3 日 和 1 月 5 日在 SQuAD 官方平台提交模型,但阿里的结果在 1 月 11 日先于微软产出并被公布,微软的结果在 1 月 12 日紧随其后发布。


阿里发布结果后,主办方斯坦福向阿里发了贺信,表彰其机器阅读理解系统首次超越人类。微软结果发布后,鉴于双方在更细分维度上的评测结果各有千秋,官方给出了排名并列第一的说法。




机器阅读理解的评测维度分为 EM(Exact Match,精准匹配分数)和 F1(精确率和召回率的平均,模糊匹配分数)。


下图可见,阿里巴巴在 F1 分数上略胜一筹,微软的 EM 分数优于阿里巴巴。无论如何,我们可以欣喜地看到包括阿里,微软亚洲研究院,腾讯,哈工大和讯飞等中国的研究人员走在了世界的前列。




抛开「谁是第一」事件本身,机器之心采访到此次破纪录的阿里巴巴 iDST NLP 团队,希望回归技术,对其模型进行解读。


机器阅读理解作为 QA 问答技术中的全新领域,允许用户输入非结构化文本及问题,机器在阅读理解基础上,从文本中寻找答案回答用户问题。


对于阿里巴巴来说,机器阅读理解技术的最直接应用就是阿里小蜜现在能直接阅读说明书回答用户问题了。


本次阿里巴巴参与测评的系统名为 SLQA,即 SLQA,即 Semantic Learning for Question Answering,是 iDST NLP 团队提出的「基于分层融合注意力机制」的深度神经网络系统。评测证明,相比传统方法,SLQA 的效果取得了显著的提升。


采用传统方法解决机器阅读理解问题,一般会将该过程分为以下几个步骤:


1)对问题、篇章分别进行词法、句法分析,针对分析结果进行特征提取:


2)基于特征采用诸如 LR、CRF 等模型进行答案边界预测;


3)采用梯度下降类算法在训练集上进行优化,拟合数据分布。


在此过程中,基础语言模型、依存分析等模块的准确率在一定程度上会影响训练效果,特征工程的优劣也同样左右着是否能训练得到可用的模型。


随着深度学习在 NLP 领域的大量应用,很多场景如切词、词性标注、翻译、命名实体识别等 End2End 模型逐渐取得接近并超越传统模型的效果。在机器阅读理解场景,iDST NLP 团队设计了 Semantic Learning Net,即 SLQA 背后的算法模型。


该模型模拟人类在做阅读理解问题时的一些行为,包括结合篇章内容审题、带着问题反复阅读文章、避免阅读中遗忘而进行相关标注等。


团队总结,人类在进行阅读理解时,常见思维顺序如下:


1)通读篇章,理解文章主题和大体内容;读题,了解提问内容及关注点。


2)带着问题找答案,将问题同篇章做关联,并结合篇章主题,理解问题重点。


3)定位可能的答案范围,并再次重点阅读附近文字。


4)为避免忘记问题,再次审题,并结合 3)中重点区域进行答案圈选。


5)针对挑出的答案候选进行精筛,确定最正确的答案。


结合以上思路,团队构建模型的主要思想是在捕捉问题和文章中特定区域关联的同时,借助分层策略,逐步集中注意力,使答案边界清晰。


同时,为了避免过于关注细节,团队采用融合方式将全局信息加入注意力机制,进行适度纠正,确保关注点正确。这种逐步聚焦并兼顾全局的方式与其他参赛者已经公布的的做法不太相同,也是团队此次刷榜登顶的关键所在。




目前业界主流的基于 End2End 学习的机器阅读理解模型主要为 Encode-Interaction-Pointer 框架。基于上述分析,SLQA 系统包含如下基本结构:Encoder Layer(文本表征),Attention Layer(注意力机制),Match Layer(问题篇章匹配)以及 Output Layer(答案预测)。


  • Encoder Layer 用于表示学习,可以理解为语言模型层,用以将篇章及问题从离散字符转变为蕴含语义的表征向量。团队采用了多层双向 LSTM 并分别对篇章和问题进行主题和重点词关注。


  • Attention Layer 得到有效的问题及篇章表征后,为表达依据问题定位答案过程,缩小备选答案查找范围,将搜索空间通过注意力机制约束,主要进行多层融合注意力表示,对问题和篇章进行相关性对齐(Align),并不断补充全局信息(Fusion),每一次对齐都基于下层信息并在此基础上更加细化(paragraph→sentence→phrase→word),采用的方式分别为 Co-Attention(篇章到问题,问题到篇章),Self-Attention(问题自身,篇章自身)。


  • Match Layer 用于做融合信息后的问题和篇章匹配,团队采用双线性矩阵来学习经过多层信息过滤后的篇章和问题匹配参数,由于在前一阶段无关信息已经被过滤,最后的匹配可完成答案的定位工作。


  • Output Layer 结合匹配信息对篇章中词汇进行标注,预测相应词汇是答案开始位置或结束位置的概率。之后,模型会抽取可能性最高的一段连续文本作为答案。



团队采用的技术就是基于以上四个Layer的深度神经网络模型,重点探索和研究的Layer是第三层(Hierarchical Attention Fusion Network)。


 iDST NLP 团队负责人司罗表示,本次 SQuAD 评测登顶得益于其 NLP 团队自身的完善性。「NLP 领域内的很多技术方向可以互相借鉴,例如机器阅读理解任务,我们就借鉴了机器翻译的一些技术。应该说我们机器阅读理解的技术是建立在我们更广阔的自然语言处理能力上的。」


让知识获取不受人脑的限制


据司罗介绍,本次登顶只是阿里巴巴相关技术研发的一个侧面,其所指向的「创新的问答系统」的落地应用才是团队的重要发展方向。


由于团队支持阿里大生态下的问答技术业务(如与阿里小蜜合作的智能客服等),因此团队的着眼点其实一直放在业务应用场景而非单纯的技术突破上。


「阿里小蜜是我们所知的第一个真正把机器阅读理解应用在大规模客服场景下的产品。」司罗说。


除阿里小蜜外,SLQA 系统在售前咨询场景也能发挥作用。


面向商家的智能客服「店小蜜」是阿里售前咨询场景的典型案例。顾客在购物时,往往会对商品信息进行询问确认后才会下单购买,例如「荣耀 5c 的双摄像头拍照效果有什么特点?」而这些信息往往已经存在于商品的详情描述页。


店小蜜通过机器阅读理解技术,让机器对详情页中的商品描述文本进行更为智能的阅读和回答,在降低卖家服务成本的同时提高购买转化率。


更广泛地,着眼整个社会,机器阅读理解也有着巨大的价值。试想机器自动阅读病历回答病人关心的问题、自动阅读古今名著帮人们写论文、自动阅读旅游场景的说明书来回答旅行者的问题、自动阅读繁复的法律税务条款来帮助人们解决法律报税的问题。


「机器阅读理解让知识获取不受人脑的限制。」司罗说。


尽管社会价值巨大,但目前的机器阅读理解技术还在面临很大的挑战。例如该技术对于解决 WIKI 类客观知识问答已经取得比较好的结果,但对于复杂问题来说仍处于比较初级的阶段。


司罗认为,这是由于 WIKI 场景的数据相对较为充分、文档结构也清晰、内容描述较为正规。而其他广大的应用场景常常存在训练数据不足、文档知识不明确、描述不完整等问题,有不少甚至要通过多步推理才能得到答案。


这不仅对阿里巴巴,也对整个业界提出了挑战。司罗表示,阿里希望建立自己完善的自然语言技术能力,在领域自适应、多步推理、知识自动抽取和归纳等方面进行全面且充分的准备,迎接这些挑战。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java测试驱动开发--总结

思维导图:https://www.processon.com/view/link/60d307415653bb049a437111

看到记忆的印迹:神经科学家们如何定位、唤醒甚至偷换记忆

来源:澎湃新闻概要:借助新兴的脑部成像技术,神经科学家们得以“看到”与特定记忆相关的特定神经细胞,了解记忆形成和唤起的规律,并成功地重新激活记忆通路。《神探夏洛克》中福尔摩斯在停尸间的初次登场,给…

卓有成效的管理者--总结

思维导图:https://www.processon.com/view/link/60d6f723e401fd50b99628ad

人工合成生命的最新进展比AI还快

合成酵母的科学杂志当期封面来源:通信和互联网的扫地僧2016年以来,以AlphaGo为标志的人工智能技术进入了发展的快车道,成为了民众热议的话题。2017年12月27日,华大基因董事长汪建在深商大会上表示,未来的5-10年&#x…

加利福尼亚大学提出从「因果革命」的七大成就中为「机器学习」寻求良好的模型指导

原文来源:arxiv作者:Judea Pearl「雷克世界」编译:嗯~是阿童木呀可以这样说,目前的机器学习系统几乎完全是以统计模式或无模型模式运行的,这对于其功率和性能来说存在着严格的理论限制。这样的系统不能引发干预和反思&…

被讨厌的勇气--总结

思维导图:https://www.processon.com/view/link/60d6fc2c7d9c087f54753b90

创建一个动物类 java_使用java面向对象创建动物类并输出动物信息

题目:使用java面向对象创建动物类并输出动物信息gitup下载地址:https://github.com/benxiaohai8888/Javase/blob/master/Animal.java代码:import java.util.Scanner;public class Animal{private double weight;//体重private int leg;//腿的…

java执行字节码的语句_Java字节码指令

Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(操作码,Opcode)以及跟随其后的零至多个代表此操作所需的参数(操作数,Operands)构成。即:Java指令 操作码 操作数。由于Java虚拟机采用面向操作数栈而不是寄存器的架构&…

3分钟了解今日头条推荐算法原理(附视频+PPT)

来源:大数据文摘概要:2018年1月,今日头条资深算法架构师曹欢欢博士,终于首次公开今日头条的算法原理,以期推动整个行业问诊算法、建言算法,希望消除各界对算法的误解。今日头条的内容分发算法一直颇神秘低调…

高效休息法--总结

思维导图:https://www.processon.com/view/link/60d6fcaf1e08532a43bea653

执行-技术人的管理之路--总结

思维导图:https://www.processon.com/view/link/5f0a6983e401fd0c8fffa75b

java进度条动画_Android自定义控件之圆形进度条动画

本文实例为大家分享了Android实现圆形进度条动画的具体代码,供大家参考,具体内容如下首先贴上图片:额,感觉还行吧,就是进度条的颜色丑了点,不过咱是程序员,不是美工,配色这种问题当然…

人脸识别必读的N篇文章

来源:机器视觉概要:人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置和大小;对于跟踪而言,还需要确定帧间不同人脸间的对应关系。一 、人脸检测/跟踪人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置和大小&a…

所谓高情商就是会说话--总结

思维导图:https://www.processon.com/view/link/60d6fe741e08532a43bea811

美国12大科技公司如何参与自动驾驶?

来源:腾讯科技概要:无人驾驶汽车的潜力已经逐步显现,这一点,从本周在拉斯维加斯举行的国际消费电子展(CES)就可以看出端倪。无人驾驶汽车的潜力已经逐步显现,这一点,从本周在拉斯维加…

java web响应式框架_Web开发的十佳HTML5响应式框架

HTML5框架是一类有助于快速轻松创建响应式网站的程序包。这些HTML5框架有着能减轻编程任务和重复代码负担的神奇功能。关于HTML5的框架种类繁多,并且很瘦欢迎,因为它能允许开发人员花费更少的时间和精力去创建一个令人惊艳的网站。在本文中,我…

开放-封闭原则(OCP)

开放-封闭原则(The Open-Close Principle) 软件实体(类、模块、函数等)应该是可以扩展的,但是不可以修改的。 两个特征 1、对于扩展是开放的(Open for extension); 2、对于更改是…

风向2018 | AI 突围

来源:36氪概要:回到战场,考验各家公司CEO和谋士的时刻,已经到来。问:2017年AI行业最大的进展是什么?答:创业公司的估值。高估值,曾将AI初创公司带上高光的创投舞台,也正将…

php return 值_php return的用法是什么

php return的用法:1、通过“return expression”语法返回一个表达式结果;2、使用“return(expr)”语法返回函数表达式;3、直接使用return返回值即可。本文操作环境:Windows7系统、PHP7.1、Dell G3电脑。基本用法:a)、r…

谷歌放出AI平民化大招: 李飞飞宣布推出AutoML云平台,让普通企业也能用上深度学习

作者:杨晓凡概要:谷歌云机器学习平台(Google Cloud AI)自从上线以来就以预训练的、可以直接调用的高效机器学习模型吸引了许多企业级用户在其上构建简单的机器学习应用。谷歌云机器学习平台(Google Cloud AI&#xff0…