白硕 | 知识图谱,就是场景的骨架和灵魂

本文转载自公众号恒生技术之眼



知识图谱,目前已在全世界得到了重视和应用,成为当下人工智能热的一个重要组成部分。它究竟是怎样的一种技术?它的应用场景在哪里?未来国内企业该如何发展?让我们一起来聊聊。


从知识图谱技术的起源聊起

什么是知识图谱?

知识图谱在学界存在各种不同的定义。


按照维基百科的解释,知识图谱是谷歌公司用来从语义角度组织数据、更好地进行信息的采集、标引和搜索服务的知识库。而知识库则是一种便于对知识进行组织和管理的特殊的数据库。


我们认为,目前学界和工业界对知识图谱概念的理解较为零乱。有时它指具体的知识库,有时它指这类知识库所使用的标签体系和组织框架,也就是“本体(ontology)”。为区别起见,我们在本文中采用后一种理解,凡提到“知识图谱”时,均指知识库使用的标签体系和组织框架,而在谈到在这种框架下建立的具体知识库的时候,我们则会根据情况把它们称为“实体知识库”、“领域知识库”等。


知识图谱之所以在当下受到青睐,主要是由于它的这样几个特点:


——它提供了组织知识的基本构件,语义表达能力足够丰富,可以把触角伸进各行各业,便于基于领域知识应用落地。


——它提供了基于XML的半结构化、标签化表达方式,使得构件的外在形式得以统一,相应的配套处理工具在形式统一的基础上更加聚焦和通用。


——它提供了本质上是图(graph)的基础数据结构,结合图数据库技术的最新进展,在面向这套基础数据结构的搜索、漫游、遍历、传播以及可视化等方面形成了一整套配套技术和工具集合,为大规模跨知识单元的应用开辟了新途径。


知识图谱技术的沿革简介

虽然知识图谱的概念是谷歌提出来的,但这一概念的沿革却有着不短的历史。


知识图谱的最早前身是作为自然语言语义知识表示工具的“语义网络(semantic networks)”。早期的语义网络只存在于论文里,后来悄悄进入工程。随着人们对自然语言语义认识的深入,以及语言资源建设的扎实推进,自然语言语义知识表示进入了“本体(ontology)”阶段。国内外著名的语义本体包括WordNet和HowNet,后者即我国著名计算语言学家董振东先生开发的“知网”。


Ontology这一概念不仅在自然语言语义表示领域,也在知识工程和信息检索等领域有所推进。除了领域无关的语言学知识本体,也有大量的领域相关的本体问世。本体作为领域共享的知识组织框架,在许多行业都有推进的尝试,但由于缺乏共同标准和顶层设计,这方面工作进展并不理想。


一个标志性的转折点就是语义网(Semantic Web)的提出。这个概念的中文翻译和上面提到的语义网络虽然仅仅一字之差,但其内在含义的差别其实非常之大。语义网的想法是,与信息资源发布同步,用一套有语义深度的标签体系把信息资源组织起来,这样对信息的查询检索就可以利用标签的语义深度达到更高的精准度。这一转折,带有语义网和万维网的共同发明人Tim Berners Lee的一贯风格,并通过W3C组织扎扎实实的推进工作,逐渐形成了一整套技术体系。等到谷歌公司提出“知识图谱”的概念之时,这套技术体系已经非常成熟,虽然基于知识图谱的搜索服务还有待进一步建设,但知识图谱本身一定程度上已经可以脱离依附于信息资源的“标签体系”的从属地位,独立发展了。


由此可见,知识图谱技术的发展是有很深的历史渊源的,它源于自然语言的语义知识表示,经历互联网信息服务不断深化的需求洗礼,现在已经成为互联网知识服务的核心工具了。


知识图谱的关联技术群

知识图谱技术不是孤立的。围绕知识图谱作为知识表示和组织框架这个核心,已经形成了一个关联技术群。我们在此择其要者,略作介绍。


▲图谱发现

知识图谱技术的成功落地,离不开知识图谱最核心的标签体系构建,而长期以来,这个构建过程只能靠人工来完成。为了加速知识基础设施的建设,提高知识图谱的构建效率,自动化构建知识图谱就显得格外迫切。


各种通过外部信息源获取标签体系、构建知识图谱的技术当中,利用在线百科全书构建知识图谱的尝试被证明在一定程度上是有效的。维基百科作为最有影响的在线百科全书,通过众包模式凝结了大量志愿者的智慧,具备了用于获取标签体系的初步条件。当然,这样获取来的标签体系仍然要通过人类专家的人工清洗和确认,才能具有专业权威性。但是随着图谱发现过程自动化程度的提高,由此获取标签体系的效率和质量也都有所提高。


▲信息抽取

按本文最初约定的理解,知识图谱只是作为领域知识组织框架的标签体系。真正的具体的知识,需要在这个框架下逐条收录进“实体知识库”。一些不严格的表述把实体知识库的构建等同于知识图谱的构建。其实这是不小的区别。构建所使用的技术也完全不同。


构建实体知识库所使用的核心技术是“信息抽取(Information Extraction,简称IE)”。信息抽取是根据需要从输入文本中摘取特定部分,用以填充预先设定的抽取模板中空白槽位的过程。这一过程中,要用到一定层次的自然语言处理(NLP)技术。知识图谱的标签结构表达力越丰富,就越能容纳深层自然语言处理的成果。


信息抽取的应用场景有两类。一类是在线过滤,即只填充少数被预设条件激活的模板,一切与此无关的信息都被丢弃。另一类是实体知识库建设,即不管三七二十一,能入库的信息就先抽取入库,以备今后之用。随着大数据分析处理基础设施的不断完善,今天已经有能力进行大体量的实体知识库建设。


▲情感分析

依托知识图谱,可以进行有深度的情感分析。在知识图谱的结构制导之下,对实体的情感评价可以进一步分解为对实体的组成部分和特征属性的情感评价。比如,针对一款电脑产品,就可以从客户的投诉和调查问卷反馈中抽取出针对电脑的主频、硬盘、屏幕、散热、外形、手感、重量、电池寿命等多个侧面的评价,从而更加精准地改进产品质量及用户体验。如今,知识图谱与情感分析相伴而行已经是很多舆情类产品和服务平台的标配。


▲复杂网络分析

知识图谱的一大特点就是其网状的图结构。通过知识图谱的组织形成的实体数据库,会呈现出一种复杂的关联结构。利用近年来发展迅猛的图算法、图数据库技术,对大型实体数据库进行复杂网络分析,会得到很有价值的宏观互联特征。如果实体是个人,那么复杂网络分析就会得到人群的社交拓扑特征。如果实体是公司,那么复杂网络分析就会得到公司间的产业链对接拓扑特征。把人和公司都纳入复杂网络,又可以得到更进一步的分析结果。


▲自动推理

静态的知识固然已有其应用价值,但是知识本身可以推导出更多的知识,知识可以在一定程度上预测未来,这些都离不开推理。依托于知识图谱的自动推理,既不同于传统那种孤立专家系统的自动推理,也不同于没有推理功能的直接基于字面答案的知识服务。知识图谱为自动推理准备了现成的通道。


比如,“克林顿的夫人是从哪所大学毕业的”这样的问题,就可以通过用知识图谱组织起来的实体知识库,从“克林顿”的实体条目找到其“夫人”,再从夫人的实体条目找到其毕业的大学。通过这种顺着知识图谱结构在实体之间的“跳跃”,就可以完成字面上不曾提供的知识服务。


当然,更复杂的自动推理,比如医学上的诊断推理和经济上的产业链推理,所使用的模型比上述顺着结构“跳跃”的推理方式更加复杂。正因为这样,号称能依托知识图谱做好复杂自动推理的平台,具有重大的商业价值,受到资本的青睐。


▲命名实体消岐

命名实体消岐技术解决的是实践中经常遇到的“重名”问题。在建设实体知识库时,实体的同一性不能以人名为唯一标识,因为重名的干扰将使实体数据库严重失实。


解决命名实体消岐问题需要对命名实体出现的上下文做进一步的分析,找出实体同一性的特征,利用特征进行识别。


从以上分析可以看出:在这一波Fintech大潮中,知识图谱的应用价值格外引人关注。关注的深层原因是:随着人工智能走到台前,人们越来越认识到,场景才是盘活存量数据、吸附和创造增量数据,最终产生更加强大智能的核心。数据驱动的人工智能正在朝着场景驱动的人工智能发展。如果要用数字化给一个行业赋能,那么机器首先要理解这个行业,而理解这个行业的最直接的表现就是能够玩转这个行业的知识图谱。所以,知识图谱,就是场景的骨架和灵魂,是把更多行业知识、领域知识转化为数字化生产力的知识基础设施。


知识图谱的应用场景在哪里?

客户画像

一个金融机构对自身客户的全面了解,是对客户开展更加贴心的个性化服务的前提,也是很多金融科技创新得以推进的基础性工作。利用知识图谱进行客户画像,其实就是把客户画像的必备要素条理化、标准化、结构化、动态化的过程。证券公司、基金公司、期货公司、信托公司、银行,都有这方面的需求。


资讯整合

资讯整合是资本市场信息服务商面临的共性问题。所谓资讯整合,就是利用多渠道来源、多种数据格式的碎片化信息协同作用、互相补充,最后得出一幅全景图的过程。这种技术主要被用在情报分析领域,但资本市场也有类似的需求。比如,对并购重组意向的早期预警,对上市公司业绩疑点的多方求证,对未披露的实际控制人身份的锁定等等。


产业链建模

产业链建模能力是分析师的核心竞争力之一。在业内,产业链数据模型被视为“不传之秘”,装在有行业研究经验的研究员头脑中。往往一人跳槽导致一个行业方向垮掉。这种故事在人工智能高度发达的年代不应该再继续了。


知识图谱对于产业链建模的意义,似乎有被高估的倾向。实事求是地说,静态知识图谱,即不含推理、演化和复杂作用链传导的领域/行业知识库,对于加强投研团队的知识管理和核心竞争力传承,甚至工作效率的提高,都是有正面意义的。但是把这拔高成人工智能可以预测蝴蝶效应,可以让分析师下岗,从笔者的经验看来完全是夸大其词。业内的探索表明,在利用动态知识图谱进行源头事件沿产业链的影响传播扩散效应模拟方面,目前只有短推理具有接近实用的水平,长推理的可控性、通用性、鲁棒性表现还远未符合预期。


知识图谱在产业链建模中的应用场景包括:业绩预测、概念股提取、突发事件影响分析等等。以知识图谱为基础进行人机对话式的实时行情技术分析和基本面分析,对知识图谱和自然语言处理方面的技术积累都有很高的要求,目前还鲜有看到成功案例。最近,哈工大NLP团队推出了“事理图谱”技术,试图把面向事件的作用链传播机制跟面向实体-静态关系的知识图谱相区别并模拟其独有的传播推理机制,这个动向很值得关注。可短暂观察一个时期,遇到合适的案例和进展再跟进。


教育与培训

教育和培训虽然不是资本市场的主业,但却是资本市场的刚需。面向各类投资者的培训课程五花八门、此起彼伏。教育培训的手段正在朝着智能化、个性化的方向快速发展。实现教育培训手段智能化、个性化的一个直接的技术途径,就是使用知识图谱对培训课程的知识点、练习和考试题库的知识点以及学员对知识点的掌握状况一体化建模,通过模型揭示出来的差距来快速形成个性化教案,高度针对性地做到因材施教。



目前来看,企业要想达到共生均衡点生态,未来还需要不断提高生产效率,努力拥抱共赢的结局。


恒生技术之眼原创文章,未经授权禁止转载。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481013.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

您的DST大礼包请查收

本文转载自刘冲大佬(知乎id:呜呜哈)的知乎文章,链接:https://zhuanlan.zhihu.com/p/40988001除本文外,作者还写了很多对话相关的良心好文!做对话的小伙伴千万不要错过这位良心答主噢(&#xffe…

LSTM长短记,长序依赖可追忆(深度学习入门系列之十四)

摘要:如果你是一名单身狗,不要伤心,或许是因为你的记忆太好了。有时,遗忘是件好事,它让你对琐碎之事不再斤斤计较。然而每当自己记不住单词而“问候亲人”时,也确实气死个人。于是你懂得了如何控制好什么信…

技术动态 | 清华大学开源OpenKE:知识表示学习平台

本文转载自公众号机器之心,选自 THUNLP。 清华大学自然语言处理实验室近日发布了 OpenKE 平台,整合了 TransE、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx 等算法的统一接口高效实…

多任务学习时转角遇到Bandit老虎机

注:本文的正文干货转载并少量修改自大佬覃含章(知乎id同名,知乎必关的数值优化大佬啊啊)的一篇知乎回答,链接https://www.zhihu.com/question/53381093/answer/562235053一个转角事情是这样的,最近小夕在做…

NLP13-LDA引发的一系活动

摘要: 目标是想了解也学习LDA,寻找学习LDA相关资料,学习LDA相关的概率基础,对于LSI,pLsa,LDA作为主题模型的对比;然后到LDA本身,对LDA相关的概率基础进行学习。把相关资料疏理与集合起来。

王昊奋 | 从聊天机器人到虚拟生命:AI技术的新机遇

本文转载自公众号中国人工智能学会。 10月12-13日,第七届中国智能产业高峰论坛在佛山开幕,在NLP与服务机器人专题论坛上,深圳狗尾草CTO王昊奋发表了主题为《从聊天机器人到虚拟生命:AI技术的新机遇》的精彩演讲。 以下是王昊奋老师…

【Java】如何理解Java中的异常机制?

1 异常的概念 程序在执行过程中出现非正常线性,导致JVM非正常停止异常不是语法错误 2 异常的分类 Throwable是所有错误或异常的超类Exception是编译期间异常(写代码时IDE会报错)RuntimeException时运行期异常,程序运行时出现的…

文本匹配相关方向总结(数据,场景,论文,开源工具)

Motivation 前不久小夕在知乎上写了一个回答《NLP有哪些独立研究方向》,于是有不少小伙伴来问分类和匹配的参考资料了,鉴于文本分类的资料已经超级多了,就不写啦(不过分类相关的tricks可以看之前写的这篇文章《文本分类重要tricks…

机器学习】LDA线性判别分析

【机器学习】LDA线性判别分析1. LDA的基本思想2. LDA求解方法3. 将LDA推广到多分类4. LDA算法流程5. LDA和PCA对比【附录1】瑞利商与广义瑞利商线性判别分析 (Linear Discriminant Analysis,LDA)是一种经典的线性学习方法,在二分类问题上因为最早由[Fish…

科普 | 动态本体简介

本文转载自知乎专栏知识图谱和智能问答。 1 近年来,随着语义Web的兴起,本体技术受到了广泛关注。很多大型跨国公司都开始研究本体技术。谷歌于2012年提出了知识图谱的项目,旨在利用本体技术来提高搜索的精度和更智能化的知识浏览。国内的互联…

文本匹配相关方向打卡点总结

Motivation前不久小夕在知乎上写了一个回答《NLP有哪些独立研究方向》[1],于是有不少小伙伴来问分类和匹配的参考资料了,鉴于文本分类的资料已经超级多了,就不写啦(不过分类相关的tricks可以看之前写的这篇文章《文本分类重要tric…

深入理解K-Means聚类算法

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/taoyanqi8932/article/details/53727841 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit…

刘挺 | 从知识图谱到事理图谱

本文转载自 AI科技评论。 在“知识图谱预见社交媒体”的技术分论坛上&#xff0c;哈尔滨工业大学刘挺教授做了题为“从知识图谱到事理图谱”的精彩报告。会后AI科技评论征得刘挺教授的同意&#xff0c;回顾和整理了本次报告的精彩内容。 刘挺教授 刘挺教授的报告内容分为四部分…

我对JVM的理解

一、JVM简介 JVM总体上是由类装载子系统&#xff08;ClassLoader&#xff09;、运行时数据区、执行引擎、内存回收这四个部分组成。 其中我们最为关注的运行时数据区&#xff0c;也就是JVM的内存部分则是由方法区&#xff08;Method Area&#xff09;、JAVA堆&#xff0…

【LeetCode】4月4日打卡-Day20-接雨水

描述 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图&#xff0c;在这种情况下&#xff0c;可以接 6 个单位的雨水&#xff08;蓝色部分表示雨水&a…

算法与数据结构--空间复杂度O(1)遍历树

大家好~我叫「小鹿鹿鹿」&#xff0c;是本卖萌小屋的第二位签约作&#xff08;萌&#xff09;者&#xff08;货&#xff09;。和小夕一样现在在从事NLP相关工作&#xff0c;希望和大家分享NLP相关的、不限于NLP的各种小想法&#xff0c;新技术。这是我的第一篇试水文章&#xf…

PCA主成分分析学习总结

大概主成分分析&#xff08;Principal components analysis&#xff0c;以下简称PCA&#xff09;是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA&#xff0c;下面我们就对PCA的原理做一个总结。首先…

技术动态 | 大规模中文概念图谱CN-Probase正式发布

本文转载自公众号知识工场。 历时多年的研发&#xff0c;复旦大学知识工场实验室正式推出大规模中文概念图谱——CN-Probase&#xff0c;用于帮助机器更好的理解人类语言。概念图谱中包含实体&#xff08;比如“刘德华”&#xff09;、概念&#xff08;比如“演员”&#xff09…

生产Docker应用重启排查经历

一、现象描述 近期&#xff0c;生产云平台监控发生Docker应用重启次数过多事故报警&#xff0c;经观察发现某些Docker应用不定期地出现重启现象&#xff0c;已严重影响服务正常提供 生产应用重启的判断条件&#xff1a;健康检查连续3次检查不通过 生产健康检查间隔时间设置为…

【Java】深入理解Java线程

1 相关概念 并发&#xff1a;两个或多个事件在同一时间段内发生【多个任务交替执行】 并行&#xff1a;两个或多个事件在同一时刻发生【多个任务同时执行】 进程&#xff1a;进入内存的程序 内存&#xff1a;所有应用程序都要进入到内存中执行 临时存储RAM 线程&#xff1a;进…