肖仰华 | 大规模、高质量的金融知识图谱,如何自动化构建?

               

本文转载自公众号:恒生技术之眼


         

◆本文根据2019恒生技术开放日肖仰华教授演讲整理

◆肖仰华:复旦大学教授、博士生导师,复旦大学知识工场实验室创始人。

知识图谱(Knowledge Graph, KG)本质上是一种大规模语义网络,包含实体、概念及其之间的各类语义关系,目前已经成为认知智能的基石,是发展人工智能的核心技术,它让机器语言认知、可解释人工智能成为可能,能够显著增强机器学习的能力,将成为与数据驱动相并列的一种非常重要的解决问题的方式。

最近几年,以知识图谱为代表的智能化技术正在触及越来越多领域,许多企业都已将人工智能升格为企业的核心战略。目前在金融领域,知识图谱等人工智能技术也正在赋能越来越多的业务,推动金融更加智能化。

金融KG的挑战与机遇

在金融知识图谱构建的早期探索中,有人认为只有股票、期货、上市公司与金融密切相关。但是在实际应用中,几乎万事万物在某种意义下都与金融相关,比如某地区突发一场龙卷风,可能影响农作物产量,进而影响农业机械的出货量,最终影响某家生产农用发动机的上市公司股价。

类似这样的关联分析,正是我们期望智能金融实现的,而这样的深度关联分析,显然十分容易超出任何专家系统的预先设定的知识边界。因此,某种意义上,知识是普遍关联的,金融领域知识库的构建,也要面临与通用知识库相同的挑战。

此外,需求多样、规模巨大、要支撑的业务系统很庞杂、企业能够投入的资源有限等问题,在金融知识图谱的构建中也带来了一定的挑战,尤其在数据方面,一旦具体到某个特定金融场景,数据可能很稀疏,并且分布不均匀,质量低下。

不过,在金融领域数据不足的场景,往往专家知识丰富,结构化数据不多的场景,往往文本数据丰富,这些都是金融知识图谱的机遇。再加上目前深度模型丰富,各种方法并存,互联网上已经存在一些高质量图谱可以充分利用,都为图谱的构建提供了有利条件。

金融KG的构建需要大规模自动化吗?

知识图谱源于传统知识工程,在上世纪七十年代,传统知识工程主要依赖专家去描述某个领域的本体,通过人工的方式来完成知识的表达和获取。很显然,现今金融场景的数据规模非常大,需要发展数据驱动的、自下而上的自动化方法,来高效地实现图谱构建。

知识图谱的构建有三大关键要素:人——整个知识图谱构建的发起者、是数据的标注者,并且支持最终的验证;模型——现在大量采用的知识图谱构建方法,主要是机器学习的模型;数据——模型使用的是有标注数据或者无标注数据。

大规模自动化知识图谱的构建同样需要考虑到上述三要素,控制人力成本、实现大规模知识获取,同时保证知识图谱的质量,构建足够普适、轻量、廉价的知识图谱。根据目前学界的经验,可以参考以下一些基本原则。

端到端模型优于流水线方案

所谓“端到端”,就是从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的。流水线(pipeline)技术是指在程序执行时多条指令重叠进行操作的一种准并行处理实现技术,相对来说容易导致错误的传播和积累,导致最后的准确率不佳。在准确率差不多的情况下,可以优先考虑采用端到端的方案,降低特征工程的人工代价,避免错误传播。

有海量数据时,无监督方法更合适

无监督方法和有监督方法的选择是有条件的,在有海量数据的情况下,无监督方法是比较合适的。近年来行业中发展了大量的无监督词汇挖掘方法,尤其在实体识别方面,目前已有不错的效果。融合多种统计特征是取得较好效果的关键,同时需要注意,特征比模型重要。

任何一个领域的智能化,往往都是从这个领域的词汇知识挖掘开始的,金融领域也应如此。这跟人的学习类似,人去了解一个新的领域,也是先学习这个领域的基本词汇,了解词汇的概念、上下位词、同意词、简称等。让机器获取词汇知识,往往需要无监督的方法,因为很多场景缺少标准数据,但是往往有充足的文本,只要文本量足够大,通过使用无监督的办法可以高效、准确地挖掘出该领域的词汇。

充分利用行为数据

知识图谱的构建,除了从文本里挖,或者从已有的关系表格里转换,还可以通过深挖用户的行为数据来构建。诸如电商、搜索等场景,有丰富的用户行为数据,这些搜索日志可以很好地帮助我们构建词汇之间的一些关系,比如搜索“Fintech”的人总是会点开金融科技相关的文档,那么“Fintech”很有可能就是“金融科技”的同义词。

很多企业内部也有搜索平台,对于知识图谱的构建同样具有价值。通过充分挖掘搜索日志等用户行为数据,挖掘词汇之间的关系,有助于知识图谱的构建。

统计模型需与符号知识结合

相比于单一的统计模型,统计模型与符号知识相结合会更加有效。金融领域有丰富的符号知识,例如专家规则等,这些知识可以帮助提升统计模型的效果。例如在给实体打标签的时候,可以初步构造出一些约束,举个简单的例子,如果xx是个人,他肯定不会是一本书;如果他是一名企业家,他肯定是个人物。这些约束的本质是符号化的知识,充分利用先验知识构造各种约束,是有效提升模型效果的关键思路。

符号知识还可以用来构造注意力机制。现在注意力对于深度学习模型来说很重要,简单地说就是打权重。比如在“她已经用苹果十年了”这句话中,当我们给“苹果”这个词打标签,“移动电话”的标签要比“水果”的标签合适。利用符号知识去构造深度模型里面的注意力机制,有助于做到真正的知识引导,使得效果更好。

间接知识引导优于直接数据驱动

深度学习模型本质上是直接数据驱动,但在一些情况下,需要先从数据中去挖掘一些pattern,再把pattern融合到深度模型中,会取得更好的效果。有的人在做关系抽取的时候,会将其建模成关系分类,但是事实上可以从语料中挖掘主题词增强输出描述,使用主题模型挖掘关系标签的相关主题词,利用主题词增强关系标签描述,从而显著提升关系抽取的准确率。

用图模型增强可解释性

图模型很普适,有非常强的表达能力,并且可解释、可控,便于调整。可解释性决定了人工智能系统的决策结果能否被人类采信。比如在金融领域的智能投资决策,即便人工智能决策的准确超过90%,但是如果系统不能给出作出决策的理由,投资经理或者用户恐怕也是十分犹豫的。

专家知识库可作为种子样本

在数据样本标注方面,如果既有专家构建的知识体系,也有自动构建的知识体系,利用专家构建的小规模知识体系作为数据驱动的种子样本,是有效降低人工标注的重要思路之一,可以降低模型构建的代价。

此外,对于实际落地来说,复合架构非常重要,比如统计+规则可以有效解决样本分布不均匀给单一模型带来的挑战;众包化验证不可或缺,因为总有一些知识正确与否的验证是要交给人类自身的;在知识图谱的更新方面,可以利用互联网热点来驱动图谱更新,因为只有互联网上的热点实体,其事实才有可能改变,冷门实体(例如秦始皇这种历史词条)一般不会发生变化。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479366.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android官方开发文档Training系列课程中文版:构建第一款安卓应用之启动另一个Activity

原文地址:http://android.xsoftlab.net/training/basics/firstapp/starting-activity.html#CreateActivity 在完成了上一节课之后,你有了一个带有输入框和按钮的单屏幕Activity。在这节课中,你将会在MyActivity中添加一些代码,以…

美团点评Kubernetes集群管理实践

背景 作为国内领先的生活服务平台,美团点评很多业务都具有非常显著、规律的”高峰“和”低谷“特征。尤其遇到节假日或促销活动,流量还会在短时间内出现爆发式的增长。这对集群中心的资源弹性和可用性有非常高的要求,同时也会使系统在支撑业务…

论文浅尝 | 基于知识图谱 Embedding 的问答

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答。来源:WSDM 2019链接:https://dl.acm.org/citation.cfm?doid3289600.3290956目前知识图谱问答(本文简写为QA-KG,question answeri…

NeurIPS 2020 | 没有乘法的神经网络,照样起飞?

文:苏剑林编:兔子酱单位:追一科技今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》[1],作者是John N. Mitchell,他在里边提出了一个相当有意思的算法:在二…

LeetCode 1160. 拼写单词

文章目录1. 题目2. 解题1. 题目 给你一份『词汇表』(字符串数组) words 和一张『字母表』(字符串) chars。 假如你可以用 chars 中的『字母』(字符)拼写出 words 中的某个『单词』(字符串&…

MTFlexbox自动化埋点探索

1. 背景 跨平台动态化技术是目前移动互联网领域的重点关注方向,它既能节约人力,又能实现业务快速上线的需求。经过十年的发展,美团App已经变成了一个承载众多业务的超级平台,众多的业务方对业务形态的快速迭代和更新提出了越来越高…

Android官方开发文档Training系列课程中文版:添加ActionBar之设置ActionBar

导言- 添加ActionBar 原文地址:http://android.xsoftlab.net/training/basics/actionbar/index.html ActionBar是很多重要的特性之一,你可以用它实现用户的自定义行为。它提供了若干的用户界面特性,以便你的应用可以很快的提供与其它应用很…

论文浅尝 | 具有图卷积网络和顺序注意力机制的应用于目标导向的对话系统

论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理。来源:2019 Association for Computational Linguistics论文链接:https://www.mitpressjournals.org/doi/full/10.1162/tacl_a_00284开放源码&#…

Docker的基本使用(部署python项目)+两个奇技淫巧,将 Docker 镜像体积减小 99%

两个奇技淫巧,将 Docker 镜像体积减小 99% 使用Docker运行程序 Docker的基本使用(部署python项目) 一、准备项目 我写的是一个爬取某ppt网站的代码,就一个ppt1.py是爬虫,然后,ppts是存放下载的ppt的 二、准备requirement.txt文件…

Pytorch与Tensorflow,哪个更适合你?

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

LeetCode 500. 键盘行

文章目录1. 题目2. 解题1. 题目 给定一个单词列表,只返回可以使用在键盘同一行的字母打印出来的单词。键盘如下图所示。 示例: 输入: ["Hello", "Alaska", "Dad", "Peace"] 输出: ["Alaska", &quo…

XGBoost缺失值引发的问题及其深度分析

1. 背景 XGBoost模型作为机器学习中的一大“杀器”,被广泛应用于数据科学竞赛和工业领域,XGBoost官方也提供了可运行于各种平台和环境的对应代码,如适用于Spark分布式训练的XGBoost on Spark。然而,在XGBoost on Spark的官方实现中…

Android官方开发文档Training系列课程中文版:添加ActionBar之添加Action按钮

原文地址 : http://android.xsoftlab.net/training/basics/actionbar/adding-buttons.html 添加Action按钮 ActionBar允许在当前的APP上下文内添加很多重要的功能按钮。这样便可以通过图标或者文字作为功能按钮直接展示在ActionBar上。功能按钮如果没有足够空间或无足轻重的按…

快手搜索技术部招聘NLP算法工程师!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术工作职责快手搜索技术部招聘,负责研发快手主APP搜索中的关键NLP模型/算法,包括但不限于:适合快手数据生态的NLP预训练语言模型,并推动预训练模型在query解析&am…

论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题

论文笔记整理:汪寒,浙江大学硕士。链接:https://www.aclweb.org/anthology/P19-1024.pdf动机KG的分布遵循长尾分布,大部分关系只有很少的三元组,且大体趋势是关系出现的频率和与之相关的不常见实体的比例呈反比关系。而…

LeetCode 944. 删列造序

1. 题目 题目链接 每个单词的位组成的列非降,最少删除几列。 示例 1:输入:["cba", "daf", "ghi"] 输出:1 解释: 当选择 D {1},删除后 A 的列为:["c&quo…

Android官方开发文档Training系列课程中文版:添加ActionBar之自定义ActionBar样式

原文地址 : http://android.xsoftlab.net/training/basics/actionbar/styling.html ActionBar的样式 ActionBar提供了为用户提供了常见的习惯性的用户界面以及按钮功能。但是这并不意味着必须要和其它APP看起来一模一样。如果需要设计更符合产品品牌样式风格的话,…

美团 iOS 工程 zsource 命令背后的那些事儿

zsource 命令是什么? 美团 App 在 2015 年就已经基于 CocoaPods 完成了组件化的工作。在组件化的改造过程中,为了能够加速整体工程的构建速度,我们对需要集成进美团 App 的组件进行了二进制化,同时提供一个叫做 cocoapods-binary …

互联网大厂CTR预估前沿进展

文 | Ruhjkg编 | 小鹿鹿lulu源 | 知乎前言CTR(click through rate)预估模型是广告推荐领域的核心问题。早期主要是使用LR(线性回归)人工特征工程的机器学习方法,但是存在人工组合特征工程成本较高,不同任务…

以史为鉴 | 为什么要将「知识图谱」追溯到1956年?

本文转载自公众号:AI科技评论。作者 | Claudio Gutierrez 编译 | MrBear编辑 | Tokai以史为鉴,可以知兴替。纵观近期包括 AAAI、NeurIPS、IJCAI 在内的AI顶级会议,对图结构模型的研究是一个绕不开的话题,大量学者涌入这个赛道&…