人机对话技术近年来受到了学术界和产业界的广泛关注,其发展影响并推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展。众多产业界巨头相继推出了人机对话技术相关产品,并将人机对话技术作为其公司的重点研发方向。
8月3日,第七届全国社会媒体处理大会技术评测SMP2018在哈尔滨举行,会上公布中文人机对话技术评测SMP2018-ECDT结果,深思考人工智能(iDeepWise.AI)包揽2任务一、任务二两项大奖,并获得中文语义理解与多轮人机交互全国第一名,蝉联2017、2018两届全国冠军。
中文人机对话技术评测(ECDT)由中国中文信息学会主办,旨在评测目前中文语义理解与人机交互的水平。本届中文人机对话技术评测(SMP-ECDT)聚焦于用户意图的识别和响应问题,分别开展用户意图领域分类(任务一)和特定领域任务型人机对话在线评测(任务二)。
会上,深思考人工智能首席机器学习科学家王泳博士分享了深思考人工智能SMP2018特定域任务型人机对话(任务二)在线评测技术报告。报告介绍了深思考人工智能团队针对SMP2018特定域任务型人机对话评测任务所研发的系统及系统的技术实现细节。
王泳博士
王泳博士介绍,本届中文人机对话技术评测(ECDT)的任务二是特定域任务型人机对话在线评测任务,评测任务的特定领域包括:机票类、火车票类、酒店类3个垂直领域,系统通过与测试人员实时在线对话完成相应的预定或查询任务,从而满足测试人员的需求。
相比上一届,特定域任务型人机对话在线评测任务加入了多意图识别以及多意图场景下的预定或查询任务,其中涉及到意图的多标签分类、意图间关系的推理以及意图之间属性特征的推理。为了实现多意图场景下的多轮人机交互,深思考人工智能团队重点进行了多意图场景下的多标签分类、意图理解与属性推理以及对话管理模块的研究和设计。
以下是王泳博士详细报告:
1 系统实现
我们首先将工作重心主要放在意图的层次分类中,将多意图看做是一个大类,对多意图进行多标签分类。其次进行多意图问句和单意图问句的属性抽取以及多意图的属性推理。然后在对话管理模块中通过深度强化学习Deep Reinforcement Learning进行信息和状态的处理。最后各个业务模块的逻辑处理,从而实现多任务场景下的多轮交互。系统的总体框架图如图-1所示:
图-1人机多轮交互系统总体框架
1.1 输入预处理
在特定域任务型人机对话在线评测系统中,首先需要对用户输入的问句进行纠错,其次还需要进行分词、词性标注,最后进行补全和指代消解。
1.2 意图分类
在多领域的人机交互系统中,意图分类是整个系统的核心。当用户说了一句话时,首先要知道这句话是哪个领域的问题,才能交给这个领域的业务处理模块进行处理。因为本次测评加入了多意图识别,这属于一个多标签分类问题,和传统的意图分类有很大的差别。
在这里我们采用层次分类的思想,首先利用GRU模型对意图进行粗粒度划分,从而划分出多意图,然后在多意图中利用胶囊网络进行多标签分类从而识别出多意图中的子意图。长短期记忆网络(LSTM)是一种特殊的RNN类型,通过门控机制使循环神经网络不仅能记忆过去的信息,同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模,缓解了RNN的梯度消失问题,而GRU作为LSTM的变体,在保持了LSTM的效果的同时又使结构更加简单,所以在某些任务上更为流行。首先我们选用了基于GRU模型的领域分类系统,并在模型之上加入关键词词典,在处理人机对话中的短文本上有较好的效果。胶囊网络[1]是Hitton针对卷积神经网络的缺陷而提出的,卷积神经网络的核心在卷积层,它能够抽取出更高维的特征,但是在抽象过程中没能够将低层特征之间的位置关系考虑进去。而胶囊网络作为一个新的神经网络框架,它是由胶囊而不是由神经元构成的,其中一个胶囊就是一个向量神经元,它的输出是一个向量,所以我们利用胶囊网络实现多标签分类。
1.3 属性抽取与推理
属性抽取也可以称为序列标注,可以以字为单位进行序列标注,也可以以词为单位进行序列标注,经过实验验证发现,利用字为单位进行序列标注可以取得比较好的效果。我们一个设计了13个待标注标签,分别是:time、to_address、address、num_day、room_type、hotel_name、quantity、money、seat_type、train_type、berth_type、airline_company、flight_no。其中标注采用的是BIEO。B表示一个待标注标签的起始字;I表示一个待标注标签的非起始非末尾字;E表示一个待标注标签的末尾字;O表示非待标注标签字,该模块我们采用Bi-LSTM+CRF[2]进行序列标注,其中Bi-LSTM能够充分的捕捉上下文特征信息,而CRF中有转移特征,即它会考虑输出label之间的顺序性。
多意图问句中会涉及到属性的推理与共享,其中时间属性和地点属性的推理最常见,依存句法分析能够分析出各个语义角色之间的依存关系,从而可以利用这些依存关系进行属性间的推理,而意图间的属性是否可以共享则根据意图之间的关系确定。比如:
预订明天北京去上海的机票,经济舱,价格五百元左右,再预定第二天返程的火车票,动车二等座。
其中这里面第二个意图的时间属性“第二天”需要根据第一个意图的时间属性“明天”进行推理。此外第二个意图的地点属性也需要根据第一个意图的地点属性来进行推理。
1.4 对话管理
在多轮交互时,我们设计了对话管理模块,该模块需要识别出本轮意图已经进行到哪一步,因为用户有时会跳出该意图,该模块可以将跳出的意图恢复,从而实现多轮交互。并且可以实现多任务的衔接和信息的共享。
对话管理模块的决策器中采用了深度强化学习Deep Reinforcement Learning中的Deep Q Learning算法来训练一个最佳上下文决策模型。其中决策过程为一个马尔可夫决策过程(MDPs),反复在会话中间节点状态S、会话话术行为A、回报R、状态S...之间轮换直到一次多轮对话结束,最终获得最佳回报即能够正确完成任务的Q network模型,该模型从而可以决策当前的会话由哪个业务模块去处理。
1.5 意图理解及处理
当对话管理模块将当前会话交给某个领域业务处理模块进行处理时,该模块就需要对这句话中用户的意图进行理解。虽然在这些特定的任务型领域,用户的意图相对比较确定,但人们的语言却是无法限定的,所以即使同一个意图的表达,不同的人、不同的场景、不同的时间,所用的文字话术多少会有些不同。
我们使用了文本匹配模型进行用户的意图理解,为了达到良好的匹配效果,所以使用双边多角度文本匹配模型Bimpm[3]进行用户问句与FAQ中话术的匹配(如图-2)。
图-2 Bimpm模型框架图
1.6 业务领域及逻辑处理
对于每个领域,该领域的业务逻辑处理模块需要确定该领域业务所需的信息点。每个领域的业务逻辑处理模块会根据当前会话的意图理解结果,将抽取解析到的信息,填充或者更新到对应的槽位。并根据当前各槽位的缺失情况进行交互引导,从而完善业务处理所需信息,进而完成用户的任务请求。
多轮人机对话的应用
据王泳博士介绍,深思考研发团队基于上述技术推出了新一代ideepwise交互机器人,该交互机器人可以在特定领域场景下达到近似于人一样流畅的交流,其中最为核心的是可以有效识别多意图问句中的多个子意图并对子意图的属性值进行准确的推理,此外在对话管理模块中通过深度强化学习Deep Reinforcement Learning进行信息和状态的处理,从而实现特定域任务型多轮语义交互。
关于深思考
深思考(iDeepWise.AI)是一家专注于类脑人工智能与深度学习核心科技的AI公司。核心团队由中科院自动化所、软件所、计算所、微电子所等中科院院所、清华大学人工智能方向的科学家与领域业务专家组成。据悉,深思考(iDeepWise.AI)凭借在中文语义理解、自然语言处理领域的十多年的深耕与技术积淀,在意图理解与分类、机器阅读理解、人机多轮上下文对话等NLP/NLU领域的技术上取得了一系列的突破,并在智慧医疗大健康与智慧商业领域,结合刚需场景深度落地并大规模应用。
近日,深思考人工智能推出了“多模态深度语义理解”深思考大脑4.0(iDeepWise.AI.4.0)。深思考CEO兼AI算法科学家杨志明博士表示,深思考在多轮人机交互语义理解方面有突出优势,使得机器人能够与人多轮人机交互,能够理解上下文,其中最关键的是在人机交互的过程中实现会话意图的自由切换与准确识别,相较于一般技术仅理解文本、仅理解语音,深思考大脑4.0能够同时理解文本、语音和视觉图像背后的深度语义。
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”