本文转载自公众号恒生技术之眼
知识图谱,目前已在全世界得到了重视和应用,成为当下人工智能热的一个重要组成部分。它究竟是怎样的一种技术?它的应用场景在哪里?未来国内企业该如何发展?让我们一起来聊聊。
从知识图谱技术的起源聊起
什么是知识图谱?
知识图谱在学界存在各种不同的定义。
按照维基百科的解释,知识图谱是谷歌公司用来从语义角度组织数据、更好地进行信息的采集、标引和搜索服务的知识库。而知识库则是一种便于对知识进行组织和管理的特殊的数据库。
我们认为,目前学界和工业界对知识图谱概念的理解较为零乱。有时它指具体的知识库,有时它指这类知识库所使用的标签体系和组织框架,也就是“本体(ontology)”。为区别起见,我们在本文中采用后一种理解,凡提到“知识图谱”时,均指知识库使用的标签体系和组织框架,而在谈到在这种框架下建立的具体知识库的时候,我们则会根据情况把它们称为“实体知识库”、“领域知识库”等。
知识图谱之所以在当下受到青睐,主要是由于它的这样几个特点:
——它提供了组织知识的基本构件,语义表达能力足够丰富,可以把触角伸进各行各业,便于基于领域知识应用落地。
——它提供了基于XML的半结构化、标签化表达方式,使得构件的外在形式得以统一,相应的配套处理工具在形式统一的基础上更加聚焦和通用。
——它提供了本质上是图(graph)的基础数据结构,结合图数据库技术的最新进展,在面向这套基础数据结构的搜索、漫游、遍历、传播以及可视化等方面形成了一整套配套技术和工具集合,为大规模跨知识单元的应用开辟了新途径。
知识图谱技术的沿革简介
虽然知识图谱的概念是谷歌提出来的,但这一概念的沿革却有着不短的历史。
知识图谱的最早前身是作为自然语言语义知识表示工具的“语义网络(semantic networks)”。早期的语义网络只存在于论文里,后来悄悄进入工程。随着人们对自然语言语义认识的深入,以及语言资源建设的扎实推进,自然语言语义知识表示进入了“本体(ontology)”阶段。国内外著名的语义本体包括WordNet和HowNet,后者即我国著名计算语言学家董振东先生开发的“知网”。
Ontology这一概念不仅在自然语言语义表示领域,也在知识工程和信息检索等领域有所推进。除了领域无关的语言学知识本体,也有大量的领域相关的本体问世。本体作为领域共享的知识组织框架,在许多行业都有推进的尝试,但由于缺乏共同标准和顶层设计,这方面工作进展并不理想。
一个标志性的转折点就是语义网(Semantic Web)的提出。这个概念的中文翻译和上面提到的语义网络虽然仅仅一字之差,但其内在含义的差别其实非常之大。语义网的想法是,与信息资源发布同步,用一套有语义深度的标签体系把信息资源组织起来,这样对信息的查询检索就可以利用标签的语义深度达到更高的精准度。这一转折,带有语义网和万维网的共同发明人Tim Berners Lee的一贯风格,并通过W3C组织扎扎实实的推进工作,逐渐形成了一整套技术体系。等到谷歌公司提出“知识图谱”的概念之时,这套技术体系已经非常成熟,虽然基于知识图谱的搜索服务还有待进一步建设,但知识图谱本身一定程度上已经可以脱离依附于信息资源的“标签体系”的从属地位,独立发展了。
由此可见,知识图谱技术的发展是有很深的历史渊源的,它源于自然语言的语义知识表示,经历互联网信息服务不断深化的需求洗礼,现在已经成为互联网知识服务的核心工具了。
知识图谱的关联技术群
知识图谱技术不是孤立的。围绕知识图谱作为知识表示和组织框架这个核心,已经形成了一个关联技术群。我们在此择其要者,略作介绍。
▲图谱发现
知识图谱技术的成功落地,离不开知识图谱最核心的标签体系构建,而长期以来,这个构建过程只能靠人工来完成。为了加速知识基础设施的建设,提高知识图谱的构建效率,自动化构建知识图谱就显得格外迫切。
各种通过外部信息源获取标签体系、构建知识图谱的技术当中,利用在线百科全书构建知识图谱的尝试被证明在一定程度上是有效的。维基百科作为最有影响的在线百科全书,通过众包模式凝结了大量志愿者的智慧,具备了用于获取标签体系的初步条件。当然,这样获取来的标签体系仍然要通过人类专家的人工清洗和确认,才能具有专业权威性。但是随着图谱发现过程自动化程度的提高,由此获取标签体系的效率和质量也都有所提高。
▲信息抽取
按本文最初约定的理解,知识图谱只是作为领域知识组织框架的标签体系。真正的具体的知识,需要在这个框架下逐条收录进“实体知识库”。一些不严格的表述把实体知识库的构建等同于知识图谱的构建。其实这是不小的区别。构建所使用的技术也完全不同。
构建实体知识库所使用的核心技术是“信息抽取(Information Extraction,简称IE)”。信息抽取是根据需要从输入文本中摘取特定部分,用以填充预先设定的抽取模板中空白槽位的过程。这一过程中,要用到一定层次的自然语言处理(NLP)技术。知识图谱的标签结构表达力越丰富,就越能容纳深层自然语言处理的成果。
信息抽取的应用场景有两类。一类是在线过滤,即只填充少数被预设条件激活的模板,一切与此无关的信息都被丢弃。另一类是实体知识库建设,即不管三七二十一,能入库的信息就先抽取入库,以备今后之用。随着大数据分析处理基础设施的不断完善,今天已经有能力进行大体量的实体知识库建设。
▲情感分析
依托知识图谱,可以进行有深度的情感分析。在知识图谱的结构制导之下,对实体的情感评价可以进一步分解为对实体的组成部分和特征属性的情感评价。比如,针对一款电脑产品,就可以从客户的投诉和调查问卷反馈中抽取出针对电脑的主频、硬盘、屏幕、散热、外形、手感、重量、电池寿命等多个侧面的评价,从而更加精准地改进产品质量及用户体验。如今,知识图谱与情感分析相伴而行已经是很多舆情类产品和服务平台的标配。
▲复杂网络分析
知识图谱的一大特点就是其网状的图结构。通过知识图谱的组织形成的实体数据库,会呈现出一种复杂的关联结构。利用近年来发展迅猛的图算法、图数据库技术,对大型实体数据库进行复杂网络分析,会得到很有价值的宏观互联特征。如果实体是个人,那么复杂网络分析就会得到人群的社交拓扑特征。如果实体是公司,那么复杂网络分析就会得到公司间的产业链对接拓扑特征。把人和公司都纳入复杂网络,又可以得到更进一步的分析结果。
▲自动推理
静态的知识固然已有其应用价值,但是知识本身可以推导出更多的知识,知识可以在一定程度上预测未来,这些都离不开推理。依托于知识图谱的自动推理,既不同于传统那种孤立专家系统的自动推理,也不同于没有推理功能的直接基于字面答案的知识服务。知识图谱为自动推理准备了现成的通道。
比如,“克林顿的夫人是从哪所大学毕业的”这样的问题,就可以通过用知识图谱组织起来的实体知识库,从“克林顿”的实体条目找到其“夫人”,再从夫人的实体条目找到其毕业的大学。通过这种顺着知识图谱结构在实体之间的“跳跃”,就可以完成字面上不曾提供的知识服务。
当然,更复杂的自动推理,比如医学上的诊断推理和经济上的产业链推理,所使用的模型比上述顺着结构“跳跃”的推理方式更加复杂。正因为这样,号称能依托知识图谱做好复杂自动推理的平台,具有重大的商业价值,受到资本的青睐。
▲命名实体消岐
命名实体消岐技术解决的是实践中经常遇到的“重名”问题。在建设实体知识库时,实体的同一性不能以人名为唯一标识,因为重名的干扰将使实体数据库严重失实。
解决命名实体消岐问题需要对命名实体出现的上下文做进一步的分析,找出实体同一性的特征,利用特征进行识别。
从以上分析可以看出:在这一波Fintech大潮中,知识图谱的应用价值格外引人关注。关注的深层原因是:随着人工智能走到台前,人们越来越认识到,场景才是盘活存量数据、吸附和创造增量数据,最终产生更加强大智能的核心。数据驱动的人工智能正在朝着场景驱动的人工智能发展。如果要用数字化给一个行业赋能,那么机器首先要理解这个行业,而理解这个行业的最直接的表现就是能够玩转这个行业的知识图谱。所以,知识图谱,就是场景的骨架和灵魂,是把更多行业知识、领域知识转化为数字化生产力的知识基础设施。
知识图谱的应用场景在哪里?
客户画像
一个金融机构对自身客户的全面了解,是对客户开展更加贴心的个性化服务的前提,也是很多金融科技创新得以推进的基础性工作。利用知识图谱进行客户画像,其实就是把客户画像的必备要素条理化、标准化、结构化、动态化的过程。证券公司、基金公司、期货公司、信托公司、银行,都有这方面的需求。
资讯整合
资讯整合是资本市场信息服务商面临的共性问题。所谓资讯整合,就是利用多渠道来源、多种数据格式的碎片化信息协同作用、互相补充,最后得出一幅全景图的过程。这种技术主要被用在情报分析领域,但资本市场也有类似的需求。比如,对并购重组意向的早期预警,对上市公司业绩疑点的多方求证,对未披露的实际控制人身份的锁定等等。
产业链建模
产业链建模能力是分析师的核心竞争力之一。在业内,产业链数据模型被视为“不传之秘”,装在有行业研究经验的研究员头脑中。往往一人跳槽导致一个行业方向垮掉。这种故事在人工智能高度发达的年代不应该再继续了。
知识图谱对于产业链建模的意义,似乎有被高估的倾向。实事求是地说,静态知识图谱,即不含推理、演化和复杂作用链传导的领域/行业知识库,对于加强投研团队的知识管理和核心竞争力传承,甚至工作效率的提高,都是有正面意义的。但是把这拔高成人工智能可以预测蝴蝶效应,可以让分析师下岗,从笔者的经验看来完全是夸大其词。业内的探索表明,在利用动态知识图谱进行源头事件沿产业链的影响传播扩散效应模拟方面,目前只有短推理具有接近实用的水平,长推理的可控性、通用性、鲁棒性表现还远未符合预期。
知识图谱在产业链建模中的应用场景包括:业绩预测、概念股提取、突发事件影响分析等等。以知识图谱为基础进行人机对话式的实时行情技术分析和基本面分析,对知识图谱和自然语言处理方面的技术积累都有很高的要求,目前还鲜有看到成功案例。最近,哈工大NLP团队推出了“事理图谱”技术,试图把面向事件的作用链传播机制跟面向实体-静态关系的知识图谱相区别并模拟其独有的传播推理机制,这个动向很值得关注。可短暂观察一个时期,遇到合适的案例和进展再跟进。
教育与培训
教育和培训虽然不是资本市场的主业,但却是资本市场的刚需。面向各类投资者的培训课程五花八门、此起彼伏。教育培训的手段正在朝着智能化、个性化的方向快速发展。实现教育培训手段智能化、个性化的一个直接的技术途径,就是使用知识图谱对培训课程的知识点、练习和考试题库的知识点以及学员对知识点的掌握状况一体化建模,通过模型揭示出来的差距来快速形成个性化教案,高度针对性地做到因材施教。
目前来看,企业要想达到共生均衡点生态,未来还需要不断提高生产效率,努力拥抱共赢的结局。
恒生技术之眼原创文章,未经授权禁止转载。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客