陈华钧 | 知识图谱构建,将成为智能金融的突破口

本文转载自公众号:恒生技术之眼



我们太容易被机器下棋这样的事所吸引,以至于现在谈到人工智能就基本都是在说机器学习和深度学习,而相对忽视了与人工智能相关的另外一个重要的方向:知识图谱。

——陈华钧


尽管人工智能依靠机器学习技术的进步取得了巨大的进展,例如,AlphaGoZero不依赖人类知识的监督,通过自我强化学习获得极高的棋力,但人工智能在很多方面,如语言理解、视觉场景理解、决策分析等,仍然举步维艰。关键问题在于,机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。


640?wx_fmt=png

人类知识与机器知识

640?wx_fmt=png


哲学家柏拉图把知识(Knowledge)定义为“Justified True Belief”,即知识需要满足三个核心要素:合理性(Justified)、真实性(True)、被相信(Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、规则或原则(Rules & Principles)的集合。人类发明了各种手段来描述、表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型 (Computable Model of Reality),广义的讲,神经网络也是一种知识表示形式。


在人工智能的早期发展流派中,符号派(Symbolism)侧重于模拟人的心智,研究怎样用计算机符号来表示人脑中的知识和模拟心智的推理过程;连接派(Connectionism)侧重于模拟人脑的生理结构,即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来,随着数据的大量积累和计算能力大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的AI,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。


符号派关注的核心是知识的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,认知科学家Allan M. Collins提出用语义网络(Semantic Network)来研究人脑的语义记忆。WordNet是典型的语义网络,它定义了名词、动词、形容词和副词之间的语义关系,例如动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等。WordNet被广泛应用于语义消歧等自然语言处理领域。


640?wx_fmt=png

从“知识库”到“推理机”

640?wx_fmt=png


1970年,随着专家系统的提出和商业化发展,知识库构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策,因此,人工智能的核心应该是用计算机符号来表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。早期专家系统最常用的知识表示方法包括基于框架的语言(Frame-based Languages)和产生式规则(Production Rules)等。框架语言主要用于描述客观世界的类别、个体、属性及关系等,较多的被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构,适合于刻画过程性知识。


经常与知识表示并提的另外一个重要概念是机器推理,实际上推理相比于机器学习对于高层AI的实现来说可能更加重要。目前AI比较前沿的研究方向都是在考虑怎样把连接主义所推动的机器学习能力与传统符号主义所关注的机器推理问题相结合,以实现感知到认知层的跨越。


640?wx_fmt=png

让机器像人类一样认知世界

知识图谱说yes

640?wx_fmt=png


知识图谱的早期理念来自于Web之父Tim Berners Lee于1998年提出的Semantic Web,其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。语义网十余年的发展积累了大量语义知识库,如:Freebase、DBpedia、Yago、WikiData等。谷歌在吸收语义网相关成果基础上于2012年推出了基于其称之为知识图谱的搜索引擎产品。随后,知识图谱逐步在语义搜索、智能问答、辅助语言理解、辅助大数据分析等很多领域发挥出越来越重要的作用。


1989年,万维网之父、图灵奖获得者Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统(Linked Information System)。任何人都可以通过添加链接把自己的文档链入其中。他认为以链接为中心和基于图的组织方式,比起基于树的层次化组织方式,更加适合于互联网这种开放的系统。这一思想逐步被人们实现,并演化发展成为今天的World Wide Web。


1994年,Tim Berners-Lee 又提出,Web不应该仅仅只是网页之间的互相链接。实际上,网页中所描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含有语义,即这些实体或概念之间的关系,然而机器却无法有效的从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web(语义互联网)的概念。Semantic Web仍然基于图和链接的组织方式,只是图中的节点代表的不只是网页,而是实体(如:人、机构、地点等),而超链接也被增加了语义描述,具体标明实体之间的关系(如:出生地是、创办人是等)。相对于传统的网页互联网,Semantic Web的本质是知识的互联网或语义互联网。


在语义互联网被提出之后,出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase,作为IBM Waston后端的DBPedia和Yago,作为Amazon Alexa后端的True Knowledge,作为苹果Siri后端的Viv等。尤其值得一提的是,2010年谷歌收购了早期语义网公司MetaWeb,并以其开发的Freebase为数据基础之一,于2012年正式推出了称为知识图谱的搜索引擎服务。谷歌知识图谱的宣传口号是:“Things, Not Strings!”。所解决的核心问题是把对文本(String)的网页搜索转化为的对事物(Things)的语义搜索,可以看做是语义互联网的一种商业化实现。


640?wx_fmt=png

从“后备”到“前锋”,现代知识图谱遇难题

640?wx_fmt=png


知识图谱并非突然出现的新技术,而是历史上很多相关技术相互影响和继承发展的结果,这包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等,有着来自Web、人工智能和自然语言处理等多方面的技术基因。


从早期的人工智能发展历史来看,Semantic Web是传统人工智能与Web融合发展的结果,是知识表示与推理在Web中的应用;RDF/OWL都是面向Web设计实现的标准化的知识表示语言;而知识图谱则可以看做是Semantic Web的一种简化后的商业实现。


但我们要强调知识图谱与传统专家系统时代的知识工程有显著的不同。首先,传统专家系统的知识库构建大多以实现高端的决策智能为目标,而知识图谱虽然也被用来实现大数据决策分析(如Plantir),其首要的应用目标是辅助搜索和智能问答。另外一方面,与传统专家系统时代主要依靠专家手工获取知识不同,现代知识图谱的显著特点是规模巨大,无法单一依靠人工和专家构建。传统的知识库,如由Douglas Lenat从1984年开始创建的常识知识库Cyc仅包含700万条的事实描述(Assertion),最新的ConceptNet 5.0也仅包含2800万RDF三元组关系描述,而现代知识图谱已经包含超过千亿级别的三元组。


640?wx_fmt=png

知识图谱的规模化发展


现代知识图谱对知识规模的要求源于“知识完备性”难题。冯诺依曼曾估计单个个体的大脑中的全量知识需要2.4*1020个bits来存储。客观世界拥有不计其数的实体,人的主观世界更加包含有无法统计的概念,这些实体和概念之间又具有更多数量的复杂关系,导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中,知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。


640?wx_fmt=png

此专家非彼专家

领域知识图谱变身“百事通”

640?wx_fmt=png


领域知识图谱是相对于通用知识图谱(如DBPedia、Yago、Wikidata等)而言,面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。

640?wx_fmt=png

通用知识图谱与领域知识图谱的比较


以比较有代表性的金融领域为例。在金融领域,围绕金融的本体知识建模一直都有不少人在做。在大约10多年前,就有一批做金融信息的结构化描述的人在尝试构建整个金融领域的本体知识模型,其中一直延续到现在的一项工作是FIBO。他们的目标就是希望能够定义整个金融域的规则,并且是采用Top-Down的做法,这是成本非常高昂的工作,而我们现在更多的强调领域知识图谱的构建应该从大量数据中去挖掘和总结。


金融领域比较典型的例子如Kensho采用知识图谱辅助投资顾问和投资研究,国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面,金融概念也具有较高的复杂性和层次性,并较多的依赖规则型知识进行投资因素的关联分析。在应用形式方面,则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性,且需要考虑知识的时效性,对金融知识的时间维度进行建模。

640?wx_fmt=png

金融知识图谱特点(细化到具体层面论述)


此外金融领域还有一些比较适合于做知识图谱的特点,如文本资源非常丰富,且动态性非常高。大量高度动态的新闻、公报、研报都是自动化获取知识图谱的有力来源,在这方面,我们可以较为深入应用实体识别、大规模自动化词库构建、结合远程监督和深度学习的关系抽取等多方面的图谱构建技术。只要一点一点积累高质量的知识图谱,结合深度学习和自然语言处理等领域的最新进展,金融知识图谱会发挥出门槛式的重大价值。


640?wx_fmt=png

结语

640?wx_fmt=png


互联网促成了大数据的集聚,大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。AI浪潮愈演愈烈,而作为底层支撑的知识图谱赛道也从鲜有问津到缓慢升温,虽然还谈不上拥挤,但作为通往未来的必经之路,注定会走上风口。


640?wx_fmt=jpeg




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480617.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万字长文梳理CTR点击预估模型发展过程与关系图谱

背景在推荐、搜索、广告等领域,CTR(click-through rate)预估是一项非常核心的技术,这里引用阿里妈妈资深算法专家朱小强大佬的一句话:“它(CTR预估)是镶嵌在互联网技术上的明珠”。本篇文章主要…

基于携程游记的出行领域顺承事件图谱项目

EvolutionaryEventGraph 项目地址:https://github.com/liuhuanyong/SequentialEventExtration Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W携程出行攻略的顺承事件抽取与事件图谱构建. 项目来源 目前,以谓词性短语…

5步教你成功求职进入BAT

有读者朋友希望我能写一部分关于BAT内部的文章,比如,怎么进入BAT,BAT内部的项目的流程,有挑战性的项目实践,大概是怎么样的? 我希望用这篇文章开启整个进入BAT系列篇,让大家更好的了解BAT内部的…

机器阅读理解任务综述

http://forum.yige.ai/thread/27 2016年 <div class"markdown-body" id"emojify">作者&#xff1a;林鸿宇 韩先培 简介 自然语言处理的长期目标是让计算机能够阅读、处理文本&#xff0c;并且理解文本的内在含义。理解&#xff0c;意味着计算机在接…

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

Citation: Hu,S., Zou, L., Yu, J. X., Wang, H., & Zhao, D. (2018). Answering natural language questions by subgraph matching over knowledge graphs. IEEE Transactions on Knowledge & Data Engineering, PP(99), 1-1.动机对于基于知识图谱的事实性问答&#…

新闻文本内容知识图谱表示项目

TextGrapher 项目地址&#xff1a;https://github.com/liuhuanyong/TextGrapher Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档&#xff0c;将文档进行关键信息提取&#xff0c;进行结构化&#xff0c;并最终组织成图谱组织形式&#xff0c;…

BAT Java面试完整汇总:面试准备(心态+简历)+面试题目+6条面试经验

今天分享的BAT面试完整内容主要包含&#xff1a; 面试前的心态准备&#xff08;3点建议&#xff09; 技术硬实力包含的范围&#xff08;50题目&#xff09; 个人简历突出和优化&#xff08;3点优化步骤&#xff09; 个人软实力的提升&#xff08;6点提升维度&#xff09; B…

算法工程师的效率神器——vim篇

一只小狐狸带你解锁炼丹术&NLP秘籍我相信&#xff0c;有很多小伙伴在看到这篇文章时就有了很多问号&#xff1a;用vim&#xff1f;疯了吧&#xff1f;sublime不香吗&#xff1f;pycharm不香吗&#xff1f;jupyter notebook不香吗&#xff1f;我这可是最新版的windows 100操…

论文浅尝 | 端到端神经视觉问答之上的显式推理

链接&#xff1a;http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf概述视觉问答(Visual Question Answering)现有两大类主流的问题, 一是基于图片的视觉问答(ImageQuestion Answering), 二是基于视频的视觉问答( Video Question Answering).而后者在实际处理过程中…

机器阅读理解首次超越人类!云从刷新自然语言处理新纪录

媒体动态发展历程资质荣誉人才招聘机器阅读理解首次超越人类&#xff01;云从刷新自然语言处理新纪录 2019-03-11 10:06 浏览&#xff1a;454 近日&#xff0c;云从科技和上海交通大学在自然语言处理领域取得重大突破&#xff0c;在卡内基-梅隆大学发起的大型深层阅读理解任务数…

刚参加完阿里Java P6面试归来,6点面试经验总结!(含必考题答案)

这是来自于优知学院一位铁粉面试回来的总结经验 刚参加完蚂蚁金服的Java P6级的面试&#xff0c;一共参加了4面。面试归来&#xff0c;总结下阿里面试流程、面试过程、以及面试题目范畴。文末有阿里Java P6面试必考题与答案参考~ 阿里面试流程 第一轮&#xff1a;电话技术初面…

如果你不小心打开了这篇文章&#xff0c;请你看完后关掉&#xff0c;不要转发&#xff0c;不要留言&#xff0c;不要问怎么了&#xff0c;不要说你还好吗&#xff0c;也不要给予任何问候。因为我还当&#xff0c;这里是那个三年前&#xff0c;只有陌生听众的地方。今天&#xf…

机器阅读(一)--整体概述

https://plmsmile.github.io/2019/03/30/54-mrc-models/ 主要包含&#xff1a;机器阅读的起因和发展历史&#xff1b;MRC数学形式&#xff1b;MRC与QA的区别&#xff1b;MRC的常见数据集和关键模型 发展动机 传统NLP任务 1) 词性分析 part-of-speech tagging &#xff1a;判断词…

论文浅尝 | 用图网络做小样本学习

链接&#xff1a; https://arxiv.org/abs/1711.04043本文提出了用 GNN(GraphNeural Network) 来解决 Few-Shot Learning 场景的分类问题。在 Few-Shot Learning 中&#xff0c;每个类别的训练样本数据较少&#xff0c;如果直接训练一个多分类模型&#xff0c;会由于每个类别的样…

史上最强Dubbo面试28题答案详解:核心功能+服务治理+架构设计等

1.Dubbo是什么&#xff1f; Dubbo 是一个分布式、高性能、透明化的 RPC 服务框架&#xff0c;提供服务自动注册、自动发现等高效服务治理方案&#xff0c; 可以和 Spring 框架无缝集成。 RPC 指的是远程调用协议&#xff0c;也就是说两个服务器交互数据。 2.Dubbo的由来&…

数据缺失、混乱、重复怎么办?最全数据清洗指南让你所向披靡

一只小狐狸带你解锁 炼丹术&NLP 秘籍正文来源&#xff1a;机器之心前言要获得优秀的模型&#xff0c;首先需要清洗数据。这是一篇如何在 Python 中执行数据清洗的分步指南。在拟合机器学习或统计模型之前&#xff0c;我们通常需要清洗数据。用杂乱数据训练出的模型无法输出…

深度学习技术在机器阅读理解应用的研究进展

深度学习解决机器阅读理解任务的研究进展:https://blog.csdn.net/malefactor/article/details/52832134 深度学习技术在机器阅读理解应用的研究进展:https://www.imooc.com/article/30060 /* 版权声明&#xff1a;可以任意转载&#xff0c;转载时请标明文章原始出处和作者信息 …

论文浅尝 | 基于开放世界的知识图谱补全

Citation: Baoxu Shi and Tim Weninger (2017). Open-World Knowledge Graph Completion 6, AAAI 2018传统的知识库补全算法如TransE等都是基于Close world assumption 的&#xff0c;也是就说补全的实体必须在知识图谱内。然而事实上大规模的知识图谱是一直进化的&#xff0c;…

快速排序quicksort算法优化

1.基本想想 快速排序使用分治的思想 通过一趟排序将待排序列分割成两部分&#xff0c;其中一部分所有元素均比基准大&#xff0c;另一部分均比基准小 分别对这两部分元素继续进行排序&#xff0c;以达到整个序列有序 2.快排的步骤 1.选择基准 在待排序列中&#xff0c;按…

阿里P8架构师谈:Dubbo的详细介绍、设计思路、以及4大适用场景

Dubbo是什么&#xff1f; Dubbo是一个分布式服务框架&#xff0c;致力于提供高性能和透明化的RPC远程服务调用方案&#xff0c;以及SOA服务治理方案。 简单的说&#xff0c;dubbo就是个服务框架&#xff0c;如果没有分布式的需求&#xff0c;其实是不需要用的&#xff0c;只有…