事理图谱概念辨析及其与风险标签分类结合的应用探讨

以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上两个问题进行研究和实践,积累了一些认识,写出来与大家分享。

一、事理图谱本质的类型和认知
目前提到“事理图谱”这个名词时,大家或许在认知上会有很大的差异,并会伴随着如“事件图谱”、“事件知识图谱”等众多别名的出现。从图像感官上,“事理图谱”与知识图谱外观相似,如下图1所示的典型事理图谱印象。

在这里插入图片描述
图1-事理图谱印象
当然,要找到一个标准统一的定义是较难的,本质和定义会随着外部环境和应用场景而发生变化,若应用到深度学习图神经网络当中,事理图谱是一种图模型结构,在文本分析中,事理图谱可以是一种时间线或故事线叙事链条,在流程性业务中,事理图谱可以是业务状态序列,等等。我们在实践过程当中,总结性地认为,根据事件外部表示以及关系的不同,事件类知识图谱主要包括事件知识图谱、抽象事理图谱、事件逻辑知识图谱、领域状态事件决策图谱四种类型。
1、 事件知识图谱(event knowledge graph)
事件知识图谱,在这里,我们认为这个图谱本身更倾向于为一个事件知识库,事件知识图谱的工作主要围绕事件知识本身进行展开,关注点在于事件内部信息,如ACE中的8大类事件,将这几类事件中的信息进行抽取和填充就能够得到一个以特定事件类型作为分类标准的事件知识库,如婚姻事件库、爆炸事件库等。最近的工作包括金融事件知识图谱的工作,集中于资产冻结等少数几个特定事件的事件知识图谱。这种事件知识图谱中的事件由特定的事件类型及其事件论元槽构成,内部关系主要考虑包括事件论元之间的关联,对外部事件之间的关联关注较少。

2、抽象事理图谱(abstract event evolutionary graph)
抽象事理图谱,最早由哈工大信息检索实验室在narrative chain的基础上提出,目标是揭示事件之间的演化性,关系上主要考虑顺承和因果两种,在事件节点的设置上倾向于事件的抽象性,以原文短句的形式作为字符串表示,这种抽象性质决定了该事件不具备更为细致的内部事件信息,形式上很为简洁。但存在的挑战很多,例如如何抽象,抽象的力度如何控制,不同的抽象粒度会得到不同的抽象结果,适用场景也会因此而相对受限。

3、 事件逻辑知识图谱(event logic knowledge graph)
事件逻辑知识图谱,是综合事件知识图谱和抽象事理图谱之间的一种知识图谱类型,该知识图谱既保留了事件知识图谱中事件内部信息的完备性,又保留了抽象事理图谱中外部事件表示的抽象性,具有完备性和抽象性双重特征。不过,事件逻辑知识图谱与事件图谱不同,事件逻辑知识图谱规避了事件知识图谱的领域特征,而采用统一的事件槽,即通用的事件N个论元组对事件表示,其中论元的设置综合考虑了回答5个W,1个H的问题的同时,更考虑事件的情绪、确定性、完成性、主观性、权威性等信息,并通过领域实体的增加与替换来达到对不同领域的适配。本质上来说,事件逻辑知识图谱的核心在于逻辑,而这种逻辑的本质特性是抽象性,因此事件之间的逻辑关系需要从底层的事件进行高度抽象而成,这种抽象主要体现在事件逻辑知识库中事件外部形式的表示上。与抽象事理图谱不同,由于有了底层具有丰富内部属性的实例事件作为支撑,可用于事件抽象的信息更多,在事件融合方面带来了极大的便利,另外在事件之间的关系上,进一步进行扩展,可以形成对立、条件、部分与整体等多种逻辑网络。我们团队目前主要在这一类事理图谱上做了大量基础和探索性的工作。

4、领域状态事件决策图谱
领域状态事件决策图谱,主要侧重状态事件和决策图谱两个部分,更偏向于描述具有典型业务流程的领域,状态事件部分完成对业务流程的抽象和梳理,如电器维修场景下,电器维修整个业务询问链条的构建,什么电器,什么故障,如果是冰箱制冷故障的话,是制冷机坏了,还是供电问题,将这些步骤进行梳理,抽象成一个个事件状态,并为后期的决策部分提供基础事件性的支持。这种事件决策图谱在业务流程较为规范的场景下可以有一定应用,通过对业务流程抽象出来,能够提升业务买方和业务卖方之间的沟通效率。

二、事理图谱的领域性分类
作为知识图谱的一个变体,事理图谱很自然地继承了知识图谱的性质,这种性质更多的体现在知识的领域性,知识图谱根据不同的领域可以进一步细分为百科类常识知识图谱、语法语义类知识图谱、金融领域知识图谱、医疗领域知识图谱等等,不同的知识图谱类型决定了其应用场景的可行性、难易度以及广度。事理图谱在领域上主要可以分成常识性事理图谱、风险类事理图谱以及触发类事理图谱。

1、常识类事理图谱
常识类事理图谱,与百科类知识图谱类似,主要目的是刻画具有常识性的逻辑,如不喝水会很渴;长时间不睡觉会犯困;吃饭之前得先做饭;炒菜之前需要准备食材;打雷时先看到闪电再听到雷声等等,这类常识性的逻辑能够应用于闲聊问答任务。例如:

问题:为什么要读书
回答: [‘赚钱!’, ‘读书改变命运’, ‘读书可以改变你的容貌’, '为了融入社会,必须读书]

问题:为什么要有女朋友
回答: [‘为下一代’, ‘因为你需要女朋友’, ‘男女搭配.干活不累’]

以上列举了两个闲聊式问答的例子,这种闲聊问答方式能够补充静态性的简单百科知识问答,增加问题域的广度和提升用户提问积极性。

2、风险类事理图谱
风险类事理图谱,根源于决策逻辑,目的于风险控制,以提前掌握事件演化规律为前提,对未来发生的事情进行提前预知并防患于未然,它作为人们对现有逻辑知识的总结和归纳,并指导未来工作,是涉及范围最广的一种事理图谱。从技术实现方式上来看,包括事件逻辑建立和事件风险分类两个子任务。事件逻辑建立可以通过机器进行自动挖掘,也可以使用人工手动编辑录入,依靠后套逻辑知识数据进行推荐摘录的方式进行。由于就风险控制而言,风险事件之间的影响事件会有很多,因此构建起来的数据大多是一种局部、分散的事理影响逻辑。为了规避这种问题,在风险我们做了一定的尝试,放在本文第三个部分详细叙述。

3、触发类事理图谱
触发类事理图谱,通常指在业务流程型较强的一种图谱,主要有三大要素构成,分别是原事件、触发条件以及触发结果事件。这类图谱在医疗领域和司法领域使用较多,比如医疗领域之间的药物病理触发图谱、挂号流程触发图谱,司法领域的处罚条例事理图谱等在建成后将有重要应用价值。

以司法领域的触发事理图谱为例,可以构建起罪行触发规则和条件逻辑知识网络。以普通道路交通安全处罚依据和标准为文本来源,将条例中的事件进行抽象化,形成“罚款”、“拘留”、“吊销驾驶证”、“记分”、“把机动车交给无驾驶证的人驾驶”、“挪用、转借机动车牌证或者驾驶证”、“驾驶无牌无证机动车”、“不按规定超车或让车”、“超载”、“超速”等事件,并进一步细分成违规事件和处罚事件两类,违规事件通常会触发处罚类事件。这两类事件自身带有数据属性,如典型的“超速”事件会导致“罚款”这一事件,但不同的超速情况所触发的“罚款”金额数值不一,因此,在描述“超过规定时速不足50%的处以200元罚款,机动车行驶超过规定时速50%的500元起”这一条款下,可以形式化表示成<超速,超速<50%,罚款200元>,<超速,超速>50%,罚款500元>,其中超速比作为两个事件的触发条件,罚款200元和罚款500元是“罚款”事件的两个子事件。当然,当这个处罚逻辑知识图谱很健全时,我们可以发现同一个原因事件可以根据不同的触发条件直接触发不同的结果事件,也可以间接地触发另一个原因事件,从而再抵达结果事件。在应对复杂事件类型时,可以将复杂事件细分成多个事件,并通过触发类条件之间的传递关系,最终满足各类业务需求。

三、风险事理图谱与标签分类结合的应用
为了进一步探究事理图谱在金融领域中的应用,我们尝试更换文本领域,设计事件标签体系,通过选定文本领域,构建金融领域因果事件库,在此基础上进行打标签操作,形成一个可供检索、分析的事理图谱应用范式。

1、公司因果逻辑事件的风险分类
我们以A股3600多家公司为例,采集了从2009年至今10年共计1200万的公司个股新闻资讯,应用因果事件抽取方法,抽取形成了唯一事件规模约400万,因果事件关系240万的因果事理图谱,在因果事件抽取准确率方面,通过人工标注9000条因果对,准确率达到86.4%。以此图谱数据作为后台数据,设计风险分类方法,对400万事件数据进行了风险分类,得到共计73万,风险细类别数目达到140类的A股事件风险库。图2列举了部分公司逻辑事件风险分类结果。
在这里插入图片描述
图2-A股公司事件风险分类结果(部分)

从图中我们可以看出,我们从行业与政策、经营、合规、财务、投资并购等层面对风险进行了分类,并在这个分类层级上进一步划分了行业改善、行业恶化、产品问题等分类标签,通过标签将事件进行标引可以从事件的角度对公司个方面风险的情况进行追踪。

2、行业因果逻辑事件的风险分类
除此之外,我们还对行业新闻进行分类,以包装行业作为试点,通过采集包装行业文本数据,提取该行业的因果事件。针对行业与公司的差异性,我们制定了包括市场风险、产品风险、经营风险、财务风险等11个类别的行业风险体系,并以此为依据对事件进行分类,形成行业领域事件风险分类结果。如图3所示:

在这里插入图片描述
图3-包装行业领域事件风险分类结果(部分)

3、公司、人物主体风险分类
除风险标签之外,由于研究对象是金融领域中的公司,我们设计了以公司主体为核心的公司层面标签体系,包括公司实体、高管实体以及财务实体等,通过使用实体链接技术和标签技术对事理图谱中的事件进行进一步标签细分类。有了完善的多维度事件标签体系,可以实现不同标签下的逻辑性事件进行追踪和分析。例如,图4展示了以比亚迪、复星医药为中心的相关风险事件。
在这里插入图片描述
图4-公司主体事件风险分类结果(部分)

下图5展示了以孟晚舟、刘强东两位公众人物为核心的风险事件例子,联合上述公司为核心的风险事件,形成人-公司-风险三维一体的事理标签体系,可以最大化地描述整个事理信息。
在这里插入图片描述
图5-人物实体事件风险分类结果(部分)

4、风险分类体系自动梳理
在公司、行业之外,我们还在债券领域进行了探索性的工作,通过收集公开的债券文本,包括债券新闻、债券研究报告等,运用事理抽取技术和风险分类技术,我们构建起了一套可自动梳理风险体系的方法,如图6展示了债券领域风险体系自动梳理和可视化的部分结果。

图6-债券领域风险分类体系自动梳理结果(部分)

从上图中我们可以发现,债券风险包括债券利率风险、债券收益率风险、债券市场风险以及债券评级风险等几个风险类别,其中每个风险类别又下分成不同的子风险类别,通过对子风险类别下的事件进行关联,可以迅速找到该事件类别下所对应的原因事件和结果事件。通过这样的风险知识组织和展现形式,自动化的发现和梳理,并进行可视化,可以将不同标的类型的风险体系一目了然地呈现在相关从业人员眼前。

四、总结
针对不同的业务场景催生了不同的“事理图谱”变体以及大家对“事理图谱”概念认知的差异性,本文介绍了我们在实际的实践过程中对不同事理图谱概念的认识,以及事理图谱的领域类别,并着重对在风险类别事件中的工作进行了介绍。

与知识图谱类似,事理图谱由于技术所限以及复杂业务场景对技术的严苛要求,大规模应用事理图谱的道路还很漫长,将事理图谱的领域特性考虑进去,并结合具体业务的需求,才能找到更好的应用落地场景。检索和推荐类应用可能是事理图谱短期可以落地的一个方向,运用事理图谱抽取技术,对领域内逻辑知识进行加工,配合知识标签技术,形成一个领域业务完整的知识网络,提供具有前瞻性和推荐性的知识服务,将具有重大市场价值。

当然,从实现技术而言,人机互助的方式是最佳选择和唯一出路。由于事理图谱构建技术本身面临着处理文本来源内容的真实性和不确定性,使用人工来对源头进行控制,在知识抽取阶段使用人工干预的方式进行校验,逐步迭代完善,这样才能保证数据的准确性和可信度,推进业务的进展和落地。总而言之,事理图谱技术本身以及应用落地都需要学界和业界一同发力,技术端和产品业务端进行密切沟通和交流,形成合力。我们团队将持续致力于信息抽取、知识图谱、事理图谱相关技术的研究,并密切关注与实际应用场景的结合,欢迎持续关注我们的工作,联系邮箱:mkt@datahorizon.cn

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io。
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一篇文章带你熟悉 TCP/IP 协议(网络协议篇二)

涤生_Woo2017年11月11日阅读 15544关注一篇文章带你熟悉 TCP/IP 协议&#xff08;网络协议篇二&#xff09;同样的&#xff0c;本文篇幅也比较长&#xff0c;先来一张思维导图&#xff0c;带大家过一遍。一图看完本文一、 计算机网络体系结构分层计算机网络体系结构分层计算机网…

PyTorch数据Pipeline标准化代码模板

前言PyTorch作为一款流行深度学习框架其热度大有超越TensorFlow的感觉。根据此前的统计&#xff0c;目前TensorFlow虽然仍然占据着工业界&#xff0c;但PyTorch在视觉和NLP领域的顶级会议上已呈一统之势。这篇文章笔者将和大家聚焦于PyTorch的自定义数据读取pipeline模板和相关…

2019 最全支付宝高级Java现场面试37题

支付宝现场三面面试题目,文末有福利&#xff1a;阿里经典面试88题目答案 01 支付宝一面 介绍一下自己。 项目参与的核心设计有哪些 ArrayList和LinkedList底层 HashMap及线程安全的ConcurrentHashMap&#xff0c;以及各自优劣势 Java如何实现线程安全 Synchronized和Lock…

腾讯互娱刘伟 | 知识图谱在运维中的应用

本文转载自公众号&#xff1a;InfoQ。随着业务监控建设不断完善&#xff0c;海量业务故障时产生成百上千条告警&#xff0c;如何智能定位故障根源、实时统计业务影响是现阶段运营面临的一个难题。Google 利用知识图谱优化了其搜索服务以来&#xff0c;知识图谱得到了迅速发展。…

中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)

ChinesePersonRelationGraph ChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用…

2019 最新阿里中间件Java 4轮面试题!60万年薪起步~

Java中间件一面 1.技术一面考察范围&#xff1a; 重点问了Java线程锁&#xff1a;synchronized 和ReentrantLock相关的底层实现 线程池的底层实现以及常见的参数 数据结构基本都问了一遍&#xff1a;链表、队列等 Java内存模型&#xff1a;常问的JVM分代模型&#xff0c;以…

0011【冥想】87天冥想感悟汇总

0011【冥想】87天冥想感悟汇总 2018.1.6 Day1图片发自简书App1.7 Day2图片发自简书App❤️1.8冥想Day3❤️听了谷老师的分享&#xff0c;挺受益的。当我们的心越来越柔软&#xff0c;身体也会越来越柔软&#xff0c;所谓相由心生&#xff0c;冥想的时候&#xff0c;身体也会听从…

这个自然语言处理“工具”,玩得停不下来

今天推荐一个有趣的自然语言处理公众号「AINLP」&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定…

观点 | 抛开炒作看知识图谱,为什么现在才爆发?

本文转载自公众号&#xff1a;AI前线。 作者 | George Anadiotis 译者 | 无明 导读&#xff1a;知识图谱究竟是什么&#xff0c;都有哪些围绕它们的炒作&#xff1f;如果你想要像 Airbnb、亚马逊…

算法--排序--寻找数组内第K大的元素

此题目&#xff0c;需要用到快速排序里的划分数组操作&#xff1a; 快排参考&#xff1a;https://blog.csdn.net/qq_21201267/article/details/81516569#t2 先选取一个合适的哨兵&#xff08;三数取中法&#xff09;将数组分成三部分【小于哨兵的】【哨兵】【大于等于哨兵的】…

淘宝网Java五面:现场面试49题含答案!

淘宝一面: 面试介绍 1&#xff09;自我介绍&#xff1f; 2&#xff09;项目介绍&#xff1f; 3&#xff09;遇到的最大困难是什么&#xff1f;怎么解决的&#xff1f; 4&#xff09;你觉得你能怎么优化这个项目&#xff1f; 面试题目 1&#xff09;讲一下JVM 2&#xff…

告别自注意力,谷歌为Transformer打造新内核Synthesizer

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;今天给大家介绍一篇来自Google的最新论文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models》[4]&#xff0c;该论文重新探索了T…

50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)

AbstractKnowledgeGraph AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱&#xff0c;目前规模50万&#xff0c;支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象…

算法--排序--大小写字母数字分离(桶排序思想)

题目&#xff1a; 对D&#xff0c;a&#xff0c;F&#xff0c;B&#xff0c;c&#xff0c;A&#xff0c;z这个字符串进行排序&#xff0c;要求将其中所有小写字母都排在大写字母的前面&#xff0c;但小写字母内部和大写字母内部不要求有序。比如经过排序之后为a&#xff0c;c&a…

2019 最新蚂蚁花呗Java三面题目:红黑树+并发容器+CAS+Solr+分布式等

蚂蚁金服专场 涵盖了蚂蚁金服从Java工程师到技术专家面试题目 支付宝高级Java三面题目&#xff1a;线程锁事务雪崩Docker等 蚂蚁花呗团队面试题&#xff1a;LinkedHashMapSpringCloud线程锁分布式 蚂蚁金服高级Java面试题目 支付宝Java开发四面:NgnixMQ队列集群并发抢购 蚂…

论文浅尝 | 实体图的预览表格生成

链接&#xff1a;ranger.uta.edu/~cli/pubs/2016/tabview-sigmod16-yan.pdf动机对于结构化数据和关系数据&#xff0c;通常使用Schema图为数据库的使用者提供基本信息。因此&#xff0c;作者提出了生成预览表格&#xff08;preview table&#xff09;的方法&#xff0c;为实体图…

万能的BERT连文本纠错也不放过

一只小狐狸带你解锁炼丹术&NLP秘籍作者&#xff1a;孙树兵学校&#xff1a;河北科技大学方向&#xff1a;QA/NLU/信息抽取编辑&#xff1a;小轶背景文本纠错&#xff08;Spelling Error Correction&#xff09;技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着…

POJ 1664 苹果放盘子(递归)

题目链接&#xff1a;http://poj.org/problem?id1664 m个相同的苹果放在n个相同的盘子里&#xff0c;有多少种不一样的方法。 例如&#xff0c;3个苹果放在4个盘子里有&#xff08;3&#xff0c;0&#xff0c;0&#xff0c;0&#xff09;&#xff08;1&#xff0c;1&#xf…

蚂蚁金服4轮面经(Java研发):G1收集器+连接池+分布式架构

一面 线程池有哪些参数&#xff1f;分别有什么用&#xff1f;如果任务数超过的核心线程数&#xff0c;会发生什么&#xff1f;阻塞队列大小是多少&#xff1f; 数据库连接池介绍下&#xff0c;底层实现说下 hashset底层实现&#xff0c;hashmap的put操作过程 说说HaspMap底层…

算法--二分查找--求平方根(循环法/递归法)

二分查找&#xff1a; 数据需要是顺序表&#xff08;数组&#xff09;数据必须有序可以一次排序&#xff0c;多次查找&#xff1b;如果数据频繁插入&#xff0c;删除操作&#xff0c;就必须保证每次操作后有序&#xff0c;或者查找前继续排序&#xff0c;这样成本高&#xff0…