技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

本文转载自公众号:AI前线。


  

作者 | 李冬梅

采访嘉宾 | 唐杰

知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知识图谱又将解决哪些其他技术无法解决的问题呢?它又面临着哪些新的挑战?

知识图谱的发展脉络

作为人工智能的一个重要研究领域,其研究和发展可以追溯到第一个人工智能浪潮。1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL,并随后在第五届国际人工智能会议上正式提出知识工程的概念,目标是将知识融入计算机系统用以解决只有领域专家才能解决的复杂问题。1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念,核心理念是用知识表示互联网,建立常识知识,但一直苦于规模小、应用场景不清楚而发展缓慢,因此,2012 年以前,学术界和工业界普遍认为知识图谱技术处于初级发展阶段。

直到 2012 年,这一状况才有了改变。这一年,谷歌发布了 570 亿实体的大规模知识图谱,其宣传语是“Things, not Strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物,多组研究者也曾独立地提出过相似的理论。“Things, not Strings”理论脱胎于众多著名认知心理学家提出的 Semantic Networks 理论,最为著名的有 Sowa 等人在 1984 年提出的 ConceptNet。在符号主义的思潮中,许多早期知识图谱将关系局限为几种特殊的基本关系,如“拥有属性”、“导致”、“属于”等,并定义一系列在图谱上推理的规则,期望通过逻辑推理实现智能。

然而,早期知识图谱的思路遇到了许多实际的困难,比如结构化知识信息的大量缺失,推理规则的无法穷举问题等。当然,这些问题也并非来自知识图谱,而是符号主义本身的特性。知识图谱的缺点本质上都是“二元一阶谓词逻辑”作为知识表示的本身缺陷带来的。知识表示是长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。

2012 年发布的谷歌知识图谱将常识知识图谱构建应用于实际系统(Freebase 是谷歌知识图谱的前身,它整合了包括许多私人维基在内的大量网络资源,后来被谷歌收购)。自谷歌第一版知识图谱推出以来,它在学术界和工业界掀起了一股热潮,随之而来的是各类知识图谱如雨后春笋般涌现。

  • DBpedia,它从维基百科中抽取结构化知识在进行本体的构建,通过结构化,用户可以使用 SPARQL 语言进行查询;   

  • YAGO 也是开源知识图谱,被应用于 IBM Waston 问答系统;   

  • NELL 则是卡耐基梅隆大学 Tom Mitchell 教授带领开展的知识自动学习—NELL 项目开启了一个机器学习实现知识图谱构建的浪潮,目标是持续不断地从网络上获取资源并进行事实发现、规则总结等,里面涉及到命名实体识别、同名消岐、规则归纳等关键技术;   

  • ArnetMiner 是面向清华大学知识工程实验室构建的面向科技领域的知识图谱,项目实现了高精度学者画像、同名消歧、智能推荐、趋势分析等关键技术。该工作获得了 ACM SIGKDD 的 Test-of-Time Award(时间检验论文奖),这也是华人团队首次在该领域获得此国际奖项。

知识图谱的下一步是认知图谱

深度学习时代的知识图谱拥有大量的实体和关系,然而大量不同的关系上很难定义逻辑规则,在知识图谱上“推理”也转入黑盒模型预测的范式。Bordes 等人的知识库结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将神经网络引入 知识图谱 的研究,特别是后者将知识图谱中实体和关系的单词嵌入的平均作为该节点的表示,训练神经网络判断(头实体、关系、尾实体)的三元组是否为真,在知识图谱补全(推理)任务中取得了很好的效果。

知识图谱的一个重要特点就是可解释性和发现新知识的能力,这是目前深度学习方法很难做到的。知识图谱把领域知识或常识整理成结构化的形式,然后在此基础上进行推理,类似于人脑的功能。比如评审专家的推荐,使用深度学习的方法进行训练,专家的查找过程是个黑盒操作,无法追溯推荐的理由。使用知识图谱建立的高精度的专家画像,及专家关系网络能够为专家推荐提供可解释性,比如评审专家的学科相似度、评审人和专家的关系等等。

但知识图谱同样存在不足。知识图谱的缺点本质上都是“二元一阶谓词逻辑”作为知识表示的本身缺陷带来的。知识表示长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。

近年得益于自然语言处理的极大进步,BERT 等预训练模型带来的文本理解和检索能力使得我们可以在原始文本上进行理解和推理,例如 Chen 等人的 DrQA 就是使用神经网络直接从文本中抽取问题答案,掀起开放领域问题的新热潮。另一方面,我们必须保持知识图谱的图结构带来的可解释性和精准稳定的推理能力。例如,知识图谱很难构建百分百正确的、超大规模的知识图谱,因此,针对这些不足,认知图谱应运而生。

本质上,认知图谱的改进思路是减少图谱构建时的信息损失,将信息处理压力转移给检索和自然语言理解算法,同时保留图结构进行可解释关系推理。认知图谱主要有三方面创新,分别对应人类认知智能的三个方面:

1.(长期记忆)直接存储带索引的文本数据,使用信息检索算法代替知识图谱的显式边来访问相关知识;

2.(系统一推理)图谱依据查询动态、多步构建,实体节点通过相关实体识别模型产生;

3.(系统二推理)图中节点产生的同时拥有上下文信息的隐表示,可通过图神经网络等模型进行可解释的关系推理。

事实上,认知图谱正是由人类认知过程所启发,“快速将注意力定位到相关实体”和“分析句子语意进行推断”是两种不同的思维过程。在认知学里,著名的“双过程理论(dual process theory)”认为,人的认知分为两个系统,系统一(System 1)是基于直觉的、无知觉的思考系统,其运作依赖于经验和关联;而系统二(System 2)则是人类特有的逻辑推理能力,此系统利用工作记忆(working memory)中的知识进行慢速但是可靠的逻辑推理,系统二是显式的,需要意识控制的,是人类高级智能的体现。

认知图谱首先由清华大学和阿里巴巴在 2018 年的中国计算机大会上提出,后来 Ding 等人将其应用于多跳开领域阅读理解问答中。传统方法中,开领域问答往往依靠大规模的知识图谱,而阅读理解问答一般面向单段,此时阅读理解的 NLP 模型,例如 BERT,可以直接处理。然而,这样的方法在多跳(推理)问答中存在“短视检索”的问题,即在几跳(几步推理)的文本和问题回答中,真正的答案可能和问题相关性较低,很难被直接检索到,这导致了效果不佳。认知图谱问答提出一种新颖的迭代 框架:算法使用两个系统来维护一张认知图谱,系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。

基于认知图谱技术,北京智谱华章科技有限公司(以下简称:智谱.AI)还研发了支持知识推理的科技情报挖掘系统。团队将认知图谱技术作为知识图谱的补齐任务,针对由现实世界中的实体和关系组成的知识图谱,提出了 CogKR 框架,基于认知科学中的双过程理论,通过构建认知图来完成在已知头实体和关系类型情况下推理尾实体的任务。比起基于嵌入的方法,该方法多跳推理的能力更强,并且具有更好的可解释性。比起过去的基于路径的多跳推理方法,该方法能够利用更加复杂的子图结构进行推理,而不会局限在单条路径,因此有更好的准确性。

数据和算法在知识图谱中扮演的角色?

在知识图谱中,数据扮演着底部基石的作用。据智谱.AI 的创始人唐杰教授介绍,知识图谱是源于数据的,是从数据中抽取结构化信息,数据的好坏直接关系到知识图谱构建的效率和质量。比如从结构化的数据中构建知识图谱会比从非结构化的数据中构建效率和准确率要高,数据越复杂,噪音越大,构建成本也就越高。智谱.AI 的“智慧人才”项目包含了大量科研人才、政府工作数据集,这些数据通过多个渠道来获取,包括通过和相关机构合作或购买版权的形式获取的内部数据,如 Digital Science、中国工程院等等;其次是通过爬虫的形式获取网络中的开放数据,比如国家和地方政府的网站,学者个人主页等等;此外智谱.AI 还使用了信息抽取的方法从论文、专利等科研文献中抽取相关的内容。这些不同数据源的异构数据在获取以后会通过数据融合算法进行融合与关联,为知识图谱构建提供基础。

知识图谱拥有大量的实体和关系,然而大量不同的关系上很难定义逻辑规则,因此算法,尤其是深度学习算法在知识图谱中占据着举足轻重的地位。例如,Bordes 等人的知识库结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将神经网络引入知识图谱的研究,特别是后者将知识图谱中实体和关系的单词嵌入的平均作为该节点的表示,训练神经网络判断(头实体,关系,尾实体)的三元组是否为真,在知识图谱补全(推理)任务中取得了很好的效果。然而,简单用词向量表示实体本身,忽略了他们的独特的符号特征:例如美国网红“James Charles”和 20 世纪著名时尚设计师“Charles James”的词向量平均结果相同,可是其知识图谱上的相关属性必然有很大差别。后来更多的目光转向大型知识图谱自身的嵌入训练,其中最为优雅有效的开创性工作是 Bordes 等人的 TransE。算法的目的是为知识图谱中每个关系或实体学习一个 d 维向量表示,对于知识图谱中任意的三元组事实 (h,r,t),算法要求它们的向量表示满足 h+r≈t。

针对知识建模,智谱.AI 也提出了一整套知识图谱构建的流程和算法:首先,是提出多维关系依赖的概率图标注模型,可以描述实例间的序列依赖关系,以及实例间层次依赖和二维依赖关系,将语义标注错误率降低 40-56%;针对开放互联网数据噪音大、冗余的特点,提出一阶逻辑概率因子图模型,提高了标注准确率,这个模型也获得了 ICDM 的竞赛冠军。其次,是提出多策略动态选择的语义集成方法 RiMOM,根据不同集成任务动态选择集成策略,实现全局集成风险最小化;提出基于随机场的概率实体排歧模型,根据对象表示的语义聚集性及其之间的拓扑关系提升了排歧性能。6 年获得国际语义集成 OAEI 评测的第一名。

值得一提的是,唐杰教授的团队还从理论上证明已有的多种网络表示学习方法(DeepWalk、LINE 等)都可以归一化到矩阵分解理论框架下,提出了网络表示学习的新思路。基于该理论,提出一种全新的基于矩阵分解的知识网络表示学习算法 NetMF,在多个公开数据集上,算法明显优于已有方法。此外,智谱.AI 也将该方法应用异构知识融合,利用链接相似度对跨语言知识图谱进行统一建模。

工业级知识图谱的技术难点

和未来应用场景

目前,知识图谱在工业界的应用已经非常广泛,半自动化的知识图谱构建方法目前也已经基本达到了实际应用的水平。工业级的知识图谱要能够满足具体的业务需求,那么,在具体的落地应用中,又面临着哪些技术难点?

对此问题,唐杰教授表示,工业级知识图谱的应用,难点首先是知识的精准抽取与融合,多源异构数据的融合在实际应用场景中要复杂得多,而且数据质量也很难保证。可以根据各应用领域的特征有针对性的建立抽取及融合模型,也可以结合一些预训练模型进行分析。

其次是需要一个更加高效和友好的交互系统,辅助知识图谱的构建和校验,比如结合主动学习、对抗学习及小样本学习等方法,尽量减少人工的干预;利用日常工作中使用的系统,隐式的收集标注知识等等。在应用方面,目前知识推理的研究还是一个重要的难点,为此,智谱.AI 也探索了使用双系统理论进行认知推理,此外结合图神经网络及认知符号的推理方法也是一个很好的研究思路。

唐杰教授认为,目前知识图谱的应用主要还是集中在文本分析方面,将文本数据扩展到图像、语音等不同模态,多模态知识图谱的表示、获取和推理是目前值得关注的方向,学术界和工业界也都有了一些探索性的研究。尽管存在诸多技术难点,但随着深度学习的发展和算法的不断迭代,知识图谱已普遍应用在了知识融合、语义搜索和推荐、问答和对话系统中,未来将会在决策推理、深度关联挖掘等场景中发挥重要作用。

智谱.AI 首席顾问兼战略规划院名誉院长张钹院士,曾经指出知识图谱与公司的未来发展的关系:公司要办好的前提首先是发展方向正确,要将知识驱动与模型驱动相结合,走第三代人工智能之路。其次,要找到知识真正的应用场景。知识就是力量,我们要做知识的生产者,知识图谱与知识库就是财富的转换源泉。因为智谱.AI 是依托清华大学计算机系在知识图谱和智能计算方面的长期积累,是通过学校技术成果转化、在知识智能方向创立的第一家公司。张钹院士曾表示,在科技成果转化出来的公司中,最看重智谱.AI,也寄语智谱.AI:技术成果转化具有重要意义。但作为公司,还有很长的路要走,希望智谱.AI 能够像在学校里面做研究一样专注把每件事做好,创造真正的价值。

知识图谱的构建已走到下半场

从知识图谱的构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。人工构建是早期知识图谱构建的主要方法,手工构建的优点首先是准确率较高,其次是人类便于理解,缺点是效率低、成本高,构建出的图谱规模有限。

自动或半自动的构建方法,可以不同程度的提高构建效率,降低成本,目前很多方法已经能够实现亿级知识图谱的构建,这也得益于结构化和半结构化数据的积累。半自动化的知识图谱构建方法在将来一段时间内仍然会是主流,尤其对医疗、安全和金融等领域,数据质量要求较高,需要通过人工审核保证准确性。

在唐杰教授看来,认为知识图谱的构建研究已经走到下半场,知识图谱的应用还没有走到下半场,比如知识推理。目前已经有相当规模的工业级知识图谱已经落地,尤其是在金融、电商、医疗、社交、文娱、教育等领域。比如企查查、天眼查等企业知识图谱、Facebook、腾讯等社交知识图谱、美团的美食知识图谱等。

智谱.AI 也在科技情报领域构建了亿级科技知识图谱,包括技术、学者、论文、机构等实体、关系及属性信息,通过网络挖掘算法实现专家人才发现、技术洞察与趋势分析等应用。此外,公司还和阿里合作构建了千亿级的电商知识图谱,目前也已经应用于手机淘宝的推荐,将知识图谱自动构建准确率从 55% 提升到 88%,全面支撑手机淘宝搜索和推荐。

嘉宾介绍

唐杰,清华大学计算机系教授、副系主任。研究兴趣领域包括:人工智能、数据挖掘、知识图谱和社交网络。



OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478682.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 542. 01 矩阵(BFS DP)

文章目录1. 题目2. 解题2.1 BFS2.2 DP动态规划1. 题目 给定一个由 0 和 1 组成的矩阵,找出每个元素到最近的 0 的距离。 两个相邻元素间的距离为 1 。 示例 1: 输入: 0 0 0 0 1 0 0 0 0 输出: 0 0 0 0 1 0 0 0 0示例 2: 输入: 0 0 0 0 1 0 1 1 1 输出: 0 0 0 0…

美团旅行销售绩效系统研发实践

背景 O2O是目前互联网竞争最激烈的领域之一,其重要的业务特征是有大规模的线下业务团队,他们分布在五湖四海,直接服务着数以百万的商家,责任很重,管理的难度巨大。能否通过技术手段,打造高效的线下团队&…

深入解析Node.js setTimeout方法的执行过程

深入了解setTimeout源码之前,本有两个选择。一是通过chromium源码分析,二是通过Node.js源码分析。后来发现第一种方案的源码获取成本太大,于是从Node官网获取了几十兆的代码用来了解。 当前的Node版本为:v10.16.0 setTimeout方法定…

别只关注GPT3!细如发丝的模型更具现实杀伤力!

这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3;而另一种恰恰相反,是把很平常的东西做到最小。 ----王苏语录GPT3自从诞生以来,便受到…

论文浅尝 - EMNLP2020 | 基于分组式对比学习的神经对话生成

论文笔记整理:叶宏彬,浙江大学计算机博士生。论文地址:https://arxiv.org/abs/2009.07543摘要:近年来,神经对话问答的产生已广受欢迎。现有对话模型学习中广泛采用了最大似然估计目标(MLE)。但是…

LeetCode 841. 钥匙和房间(DFS/BFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 有 N 个房间,开始时你位于 0 号房间。每个房间有不同的号码:0,1,2,…,N-1,并且房间里可能有一些钥匙能使你进入下一个房间。 在形式上&#xff…

容器中用uwsgi协议部署注意的问题以及用flask部署

1 表示当前容器名 一般通过 docker exec -it 容器名 /bin/bash , 进入容器内部进行操作,比如安装环境,传输文件 2 4888 容器内部访问端口地址,如果对外开放api,需要对其进行映射,比如映射成11022,11022是对外访问的端…

美团点评金融平台Web前端技术体系

背景 随着美团点评金融业务的高速发展,前端研发数量从 2015 年的 1 个人,扩张到了现在横跨北上两地 8 个事业部的将近 150 人。业务新,团队新,前端领域框架技术又层出不穷,各个业务的研发团队在技术选择上没有明确的指…

参会邀请 - CCKS2020 | 2020全国知识图谱与语义计算大会(CCKS2020)明日开幕

本文转载自公众号: 中国中文信息学会。第十四届全国知识图谱与语义计算大会将于2020年11月12日-15日在南昌召开。会议由中国中文信息学会语言与知识计算专业委员会主办,由江西师范大学承办,智源社区提供社区支持。本次会议讲习班采用线上举行…

Linux 程 序 员 失 业 警 告

文 | 小戏有多少人期待过像贾维斯一样的强人工智能?尽管老实说看当下的技术离这一期待还很遥远,但用用类似 GPT-3 这样的技术去实现些朴素的愿望似乎并没有那么困难。就在昨天,来自 Facebook 的 Elvis 在推特上发布了一个借助 OpenAI 的 GPT-…

LeetCode 707. 设计链表(List)

文章目录1. 设计一个单链表2. 双向链表1. 设计一个单链表 在链表类中实现这些功能: get(index):获取链表中第 index 个节点的值。如果索引无效,则返回-1。 addAtHead(val):在链表的第一个元素之前添加一个值为 val 的节点。插入…

用Vue.js开发微信小程序:开源框架mpvue解析

前言 mpvue 是一款使用 Vue.js 开发微信小程序的前端框架。使用此框架,开发者将得到完整的 Vue.js 开发体验,同时为 H5 和小程序提供了代码复用的能力。如果想将 H5 项目改造为小程序,或开发小程序后希望将其转换为 H5,mpvue 将是…

对比学习有多火?文本聚类都被刷爆了…

文 | 花小花Posy大家好,我是小花。对比学习的大火???? 越来越旺了,已然从CV蔓延到NLP了。今天给大家介绍的正是一篇将对比学习应用到文本聚类上的工作,NAACL21新鲜出炉的paper——《Supporting Clustering with Contrastive Learning》。…

论文浅尝 - WWW2020 | 生成多跳推理问题以改善机器阅读理解能力

论文笔记整理:谭亦鸣,东南大学博士生。来源:WWW 2020链接:https://dl.acm.org/doi/pdf/10.1145/3366423.3380114概述这篇论文关注的任务是:基于给定文本的“多跳问题生成”(多关系问题)。作者提…

记一次Vue框架升级

框架升级背景 公司目前业务迭代很快,且大部分的流量都在公众号上。然而我们公众号所使用的框架却是3年前的Vue 1.0.16。面对Vue这3年来带来的无数新特性,我们只能望洋兴叹:看得见,摸不着,因为升级这事看起来太难了。 …

谈谈NLP下一个主战场:万亿参数的预训练模型!

自从BERT诞生以来,各大互联网巨头之间就展开了预训练语言模型军备竞赛,XLNet、ERNIE、RoBERTa、T5、GPT-3....但当事情进展到号称自己是zero-shot learner的GPT-3时,批判的声音变得明显多了。这么大,能用吗?真的能做到…

人物志 | 美团女技术总监任登君:不要给自己的人生设限

在我们美团技术团队超过6000名工程师中,有众多的女同学,她们是支撑中国领先的生活服务电子商务平台不可或缺的力量。3月8日女神节,我们专访了她们的代表——美团广告平台技术负责人任登君。登君也是我们团队里目前职位最高的女性技术Leader&a…

论文浅尝 - ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询

论文笔记整理:胡楠,东南大学博士。来源:ISWC 2020动机像Wikidata这样的现代知识图已经捕获了数十亿个RDF三元组,但是它们仍然缺乏对大多数关系的良好覆盖。同时在NLP研究的最新进展表明,可以轻松地查询神经语言模型以获…

LeetCode 92. 反转链表 II(双指针)

1. 题目 反转从位置 m 到 n 的链表。请使用一趟扫描完成反转。 说明: 1 ≤ m ≤ n ≤ 链表长度。 示例:输入: 1->2->3->4->5->NULL, m 2, n 4 输出: 1->4->3->2->5->NULL来源:力扣(LeetCode) 链接&#xf…

我对你的爱,是只为你而留的神经元

文 | 白鹡鸰有一个小轶专属神经元编 | 小轶有一个白鹡鸰专属神经元什么是苹果?红的?绿的?黄的?球状?斑点?香气?需要咬上一口才能确定?或者……其实我们在说某家技术公司?…