以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上两个问题进行研究和实践,积累了一些认识,写出来与大家分享。
一、事理图谱本质的类型和认知
目前提到“事理图谱”这个名词时,大家或许在认知上会有很大的差异,并会伴随着如“事件图谱”、“事件知识图谱”等众多别名的出现。从图像感官上,“事理图谱”与知识图谱外观相似,如下图1所示的典型事理图谱印象。
图1-事理图谱印象
当然,要找到一个标准统一的定义是较难的,本质和定义会随着外部环境和应用场景而发生变化,若应用到深度学习图神经网络当中,事理图谱是一种图模型结构,在文本分析中,事理图谱可以是一种时间线或故事线叙事链条,在流程性业务中,事理图谱可以是业务状态序列,等等。我们在实践过程当中,总结性地认为,根据事件外部表示以及关系的不同,事件类知识图谱主要包括事件知识图谱、抽象事理图谱、事件逻辑知识图谱、领域状态事件决策图谱四种类型。
1、 事件知识图谱(event knowledge graph)
事件知识图谱,在这里,我们认为这个图谱本身更倾向于为一个事件知识库,事件知识图谱的工作主要围绕事件知识本身进行展开,关注点在于事件内部信息,如ACE中的8大类事件,将这几类事件中的信息进行抽取和填充就能够得到一个以特定事件类型作为分类标准的事件知识库,如婚姻事件库、爆炸事件库等。最近的工作包括金融事件知识图谱的工作,集中于资产冻结等少数几个特定事件的事件知识图谱。这种事件知识图谱中的事件由特定的事件类型及其事件论元槽构成,内部关系主要考虑包括事件论元之间的关联,对外部事件之间的关联关注较少。
2、抽象事理图谱(abstract event evolutionary graph)
抽象事理图谱,最早由哈工大信息检索实验室在narrative chain的基础上提出,目标是揭示事件之间的演化性,关系上主要考虑顺承和因果两种,在事件节点的设置上倾向于事件的抽象性,以原文短句的形式作为字符串表示,这种抽象性质决定了该事件不具备更为细致的内部事件信息,形式上很为简洁。但存在的挑战很多,例如如何抽象,抽象的力度如何控制,不同的抽象粒度会得到不同的抽象结果,适用场景也会因此而相对受限。
3、 事件逻辑知识图谱(event logic knowledge graph)
事件逻辑知识图谱,是综合事件知识图谱和抽象事理图谱之间的一种知识图谱类型,该知识图谱既保留了事件知识图谱中事件内部信息的完备性,又保留了抽象事理图谱中外部事件表示的抽象性,具有完备性和抽象性双重特征。不过,事件逻辑知识图谱与事件图谱不同,事件逻辑知识图谱规避了事件知识图谱的领域特征,而采用统一的事件槽,即通用的事件N个论元组对事件表示,其中论元的设置综合考虑了回答5个W,1个H的问题的同时,更考虑事件的情绪、确定性、完成性、主观性、权威性等信息,并通过领域实体的增加与替换来达到对不同领域的适配。本质上来说,事件逻辑知识图谱的核心在于逻辑,而这种逻辑的本质特性是抽象性,因此事件之间的逻辑关系需要从底层的事件进行高度抽象而成,这种抽象主要体现在事件逻辑知识库中事件外部形式的表示上。与抽象事理图谱不同,由于有了底层具有丰富内部属性的实例事件作为支撑,可用于事件抽象的信息更多,在事件融合方面带来了极大的便利,另外在事件之间的关系上,进一步进行扩展,可以形成对立、条件、部分与整体等多种逻辑网络。我们团队目前主要在这一类事理图谱上做了大量基础和探索性的工作。
4、领域状态事件决策图谱
领域状态事件决策图谱,主要侧重状态事件和决策图谱两个部分,更偏向于描述具有典型业务流程的领域,状态事件部分完成对业务流程的抽象和梳理,如电器维修场景下,电器维修整个业务询问链条的构建,什么电器,什么故障,如果是冰箱制冷故障的话,是制冷机坏了,还是供电问题,将这些步骤进行梳理,抽象成一个个事件状态,并为后期的决策部分提供基础事件性的支持。这种事件决策图谱在业务流程较为规范的场景下可以有一定应用,通过对业务流程抽象出来,能够提升业务买方和业务卖方之间的沟通效率。
二、事理图谱的领域性分类
作为知识图谱的一个变体,事理图谱很自然地继承了知识图谱的性质,这种性质更多的体现在知识的领域性,知识图谱根据不同的领域可以进一步细分为百科类常识知识图谱、语法语义类知识图谱、金融领域知识图谱、医疗领域知识图谱等等,不同的知识图谱类型决定了其应用场景的可行性、难易度以及广度。事理图谱在领域上主要可以分成常识性事理图谱、风险类事理图谱以及触发类事理图谱。
1、常识类事理图谱
常识类事理图谱,与百科类知识图谱类似,主要目的是刻画具有常识性的逻辑,如不喝水会很渴;长时间不睡觉会犯困;吃饭之前得先做饭;炒菜之前需要准备食材;打雷时先看到闪电再听到雷声等等,这类常识性的逻辑能够应用于闲聊问答任务。例如:
问题:为什么要读书
回答: [‘赚钱!’, ‘读书改变命运’, ‘读书可以改变你的容貌’, '为了融入社会,必须读书]
问题:为什么要有女朋友
回答: [‘为下一代’, ‘因为你需要女朋友’, ‘男女搭配.干活不累’]
以上列举了两个闲聊式问答的例子,这种闲聊问答方式能够补充静态性的简单百科知识问答,增加问题域的广度和提升用户提问积极性。
2、风险类事理图谱
风险类事理图谱,根源于决策逻辑,目的于风险控制,以提前掌握事件演化规律为前提,对未来发生的事情进行提前预知并防患于未然,它作为人们对现有逻辑知识的总结和归纳,并指导未来工作,是涉及范围最广的一种事理图谱。从技术实现方式上来看,包括事件逻辑建立和事件风险分类两个子任务。事件逻辑建立可以通过机器进行自动挖掘,也可以使用人工手动编辑录入,依靠后套逻辑知识数据进行推荐摘录的方式进行。由于就风险控制而言,风险事件之间的影响事件会有很多,因此构建起来的数据大多是一种局部、分散的事理影响逻辑。为了规避这种问题,在风险我们做了一定的尝试,放在本文第三个部分详细叙述。
3、触发类事理图谱
触发类事理图谱,通常指在业务流程型较强的一种图谱,主要有三大要素构成,分别是原事件、触发条件以及触发结果事件。这类图谱在医疗领域和司法领域使用较多,比如医疗领域之间的药物病理触发图谱、挂号流程触发图谱,司法领域的处罚条例事理图谱等在建成后将有重要应用价值。
以司法领域的触发事理图谱为例,可以构建起罪行触发规则和条件逻辑知识网络。以普通道路交通安全处罚依据和标准为文本来源,将条例中的事件进行抽象化,形成“罚款”、“拘留”、“吊销驾驶证”、“记分”、“把机动车交给无驾驶证的人驾驶”、“挪用、转借机动车牌证或者驾驶证”、“驾驶无牌无证机动车”、“不按规定超车或让车”、“超载”、“超速”等事件,并进一步细分成违规事件和处罚事件两类,违规事件通常会触发处罚类事件。这两类事件自身带有数据属性,如典型的“超速”事件会导致“罚款”这一事件,但不同的超速情况所触发的“罚款”金额数值不一,因此,在描述“超过规定时速不足50%的处以200元罚款,机动车行驶超过规定时速50%的500元起”这一条款下,可以形式化表示成<超速,超速<50%,罚款200元>,<超速,超速>50%,罚款500元>,其中超速比作为两个事件的触发条件,罚款200元和罚款500元是“罚款”事件的两个子事件。当然,当这个处罚逻辑知识图谱很健全时,我们可以发现同一个原因事件可以根据不同的触发条件直接触发不同的结果事件,也可以间接地触发另一个原因事件,从而再抵达结果事件。在应对复杂事件类型时,可以将复杂事件细分成多个事件,并通过触发类条件之间的传递关系,最终满足各类业务需求。
三、风险事理图谱与标签分类结合的应用
为了进一步探究事理图谱在金融领域中的应用,我们尝试更换文本领域,设计事件标签体系,通过选定文本领域,构建金融领域因果事件库,在此基础上进行打标签操作,形成一个可供检索、分析的事理图谱应用范式。
1、公司因果逻辑事件的风险分类
我们以A股3600多家公司为例,采集了从2009年至今10年共计1200万的公司个股新闻资讯,应用因果事件抽取方法,抽取形成了唯一事件规模约400万,因果事件关系240万的因果事理图谱,在因果事件抽取准确率方面,通过人工标注9000条因果对,准确率达到86.4%。以此图谱数据作为后台数据,设计风险分类方法,对400万事件数据进行了风险分类,得到共计73万,风险细类别数目达到140类的A股事件风险库。图2列举了部分公司逻辑事件风险分类结果。
图2-A股公司事件风险分类结果(部分)
从图中我们可以看出,我们从行业与政策、经营、合规、财务、投资并购等层面对风险进行了分类,并在这个分类层级上进一步划分了行业改善、行业恶化、产品问题等分类标签,通过标签将事件进行标引可以从事件的角度对公司个方面风险的情况进行追踪。
2、行业因果逻辑事件的风险分类
除此之外,我们还对行业新闻进行分类,以包装行业作为试点,通过采集包装行业文本数据,提取该行业的因果事件。针对行业与公司的差异性,我们制定了包括市场风险、产品风险、经营风险、财务风险等11个类别的行业风险体系,并以此为依据对事件进行分类,形成行业领域事件风险分类结果。如图3所示:
图3-包装行业领域事件风险分类结果(部分)
3、公司、人物主体风险分类
除风险标签之外,由于研究对象是金融领域中的公司,我们设计了以公司主体为核心的公司层面标签体系,包括公司实体、高管实体以及财务实体等,通过使用实体链接技术和标签技术对事理图谱中的事件进行进一步标签细分类。有了完善的多维度事件标签体系,可以实现不同标签下的逻辑性事件进行追踪和分析。例如,图4展示了以比亚迪、复星医药为中心的相关风险事件。
图4-公司主体事件风险分类结果(部分)
下图5展示了以孟晚舟、刘强东两位公众人物为核心的风险事件例子,联合上述公司为核心的风险事件,形成人-公司-风险三维一体的事理标签体系,可以最大化地描述整个事理信息。
图5-人物实体事件风险分类结果(部分)
4、风险分类体系自动梳理
在公司、行业之外,我们还在债券领域进行了探索性的工作,通过收集公开的债券文本,包括债券新闻、债券研究报告等,运用事理抽取技术和风险分类技术,我们构建起了一套可自动梳理风险体系的方法,如图6展示了债券领域风险体系自动梳理和可视化的部分结果。
图6-债券领域风险分类体系自动梳理结果(部分)
从上图中我们可以发现,债券风险包括债券利率风险、债券收益率风险、债券市场风险以及债券评级风险等几个风险类别,其中每个风险类别又下分成不同的子风险类别,通过对子风险类别下的事件进行关联,可以迅速找到该事件类别下所对应的原因事件和结果事件。通过这样的风险知识组织和展现形式,自动化的发现和梳理,并进行可视化,可以将不同标的类型的风险体系一目了然地呈现在相关从业人员眼前。
四、总结
针对不同的业务场景催生了不同的“事理图谱”变体以及大家对“事理图谱”概念认知的差异性,本文介绍了我们在实际的实践过程中对不同事理图谱概念的认识,以及事理图谱的领域类别,并着重对在风险类别事件中的工作进行了介绍。
与知识图谱类似,事理图谱由于技术所限以及复杂业务场景对技术的严苛要求,大规模应用事理图谱的道路还很漫长,将事理图谱的领域特性考虑进去,并结合具体业务的需求,才能找到更好的应用落地场景。检索和推荐类应用可能是事理图谱短期可以落地的一个方向,运用事理图谱抽取技术,对领域内逻辑知识进行加工,配合知识标签技术,形成一个领域业务完整的知识网络,提供具有前瞻性和推荐性的知识服务,将具有重大市场价值。
当然,从实现技术而言,人机互助的方式是最佳选择和唯一出路。由于事理图谱构建技术本身面临着处理文本来源内容的真实性和不确定性,使用人工来对源头进行控制,在知识抽取阶段使用人工干预的方式进行校验,逐步迭代完善,这样才能保证数据的准确性和可信度,推进业务的进展和落地。总而言之,事理图谱技术本身以及应用落地都需要学界和业界一同发力,技术端和产品业务端进行密切沟通和交流,形成合力。我们团队将持续致力于信息抽取、知识图谱、事理图谱相关技术的研究,并密切关注与实际应用场景的结合,欢迎持续关注我们的工作,联系邮箱:mkt@datahorizon.cn
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io。
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com