运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成

        目前,事理图谱在描述领域事件时空信息上具有独特性,这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息。从学术的角度上来说,事理图谱与事件抽取、事件关系抽取、脚本学习、事件链生成、篇章句间关系识别、图谱图结构运算等多个研究方向关系密切,具有很强的理论和技术挑战以及研究价值;与学界不同,工业界则更多地考虑事理图谱的落地实现,即解决抽象技术理论与实际业务场景之间的结合问题。我们目前在事理图谱中积累了一些经验,并积累形成了400W规模的全行业事理图谱,实现了从领域事理到领域知识图谱(公司知识图谱、产业链知识图谱)的通路,并在此基础上,不断寻求应用场景,下面是我们目前已经或正在尝试的应用点,供大家一起讨论。

一、基于金融事理图谱的新闻预警
        事件预警是目前我们使用事理图谱的应用尝试,事件预警是一个面向商品领域的重要资讯预警产品。我们通过监控上千家全行业网站,实时采集相关资讯,通过抽取识别资讯中的事件,将事件与事理图谱中的事件进行链接,结合情感分析技术、文本标签技术、文本重要性判定技术对具有影响力的资讯进行过滤,最终为用户实现自定义标地的预警资讯筛选以及基于该预警资讯的影响寻迹探索。
在这里插入图片描述
图1
如下图1所示,对于采集到的资讯,我们会对其进行判定,给出该资讯所能造成的影响,为了能够对最终结果给出影响的原因解释,我们给出了该影响所遵循的事理图谱链条,如页面的右侧所示的事理图谱缩略图。在点击事理图谱缩略图后,可进入详情页

在这里插入图片描述
图2
如图2所示,页面给出资讯全文,影响事件事理图谱(可支持全屏点击拓展查看),在页面的右侧,我们列举了与当前资讯具有事件影响相关的历史资讯,类似于kensho的做法,通过这种方式,我们尝试将历史事件影响应用于当前的资讯推荐与风险预警当中。事件预警是其中的一个应用例子,此外我们还正在开展事理图谱在其他领域的尝试,如文本理解可视化系统等,欢迎持续关注我们的工作。

二、基于事理抽取技术的文本可视化
        文本可视化技术是自然语言处理技术在信息抽取领域与信息领域中的一项重要技术,涉及文本分析、数据挖掘、数据可视化、计算机图形学、人际交互等理论方法,通过该技术,可以进一步将人从大段文本中解放出来,从而更好的理解复杂的文本内容、结构以及内在规律,目前文本可视化的方法[1]主要包括基于此品的可视化(标签云);以网络图、后缀树、链路图等表示方法来展示文本内在关系;利用网络图等反映文本间的饮用等外在关系。将事理图谱和文本可视化技术进行融合,可以提供一种新型的文本可视在这里插入图片描述化方法。
        接下来,我们对比两种可视化的方法。一种是对文本进行关键词提取、命名实体识别(人名、地名、机构名)进行事件识别,形成的知识网络,这种网络化展示方式能够借助知识实体、实体所属的知识类型、实体之间的归属关系对文章进行一种结构化的信息展示,如图3所示。


另一种是通过提取文章中的实体性事件,抽取事件之间的关系,并以此形成事件链的形式,这种形式与前一种方式相比,更具有逻辑性和时空属性,如图4所示。

在这里插入图片描述

四、基于出行事理的路径规划与推荐
        事理图谱本身所刻画的是一种具有时空属性的关系型知识,而在我们现实生活当中,具有时空属性(包括先后顺序,空间的先后顺序)的例子有许多。

在这里插入图片描述
图5

根据火车网huoche.net中有所有车次的信息显示,其中T字头的有564趟,D字头有3712趟,C字头1538趟,G字头3011趟,K字头2968趟,Z字头354趟,L字头418趟,Y字头55趟,S字头30趟。 这些火车在既定的路线上行驶,形成一个庞大的有向环图,而如果对这个有向环图的关系边进行标注,我们可以形成一个以火车站点为节点的火车出行事理图谱,基于这个事理图谱,我们可以进行多种有意义的探索。基于一个地点,我们通过这张图谱,可以知道在理论时间之后另一个地点上可能触发的动作,如酒店、换乘等,这利于我们进行路径规划和推荐。

在这里插入图片描述

图6
实际上,火车票,汽车票,飞机票,城市信息等在网络上也较为全面,这些都为出行领域应用场景提供了数据基础。目前,我在出行领域知识图谱中将对该想法进行尝试。参见:https://github.com/liuhuanyong/TravelKnowledgeGraph。
五、基于事理图谱模型的历时事件流生成
        目前快讯在当前的流媒体中使用较多,是事件流的一种形式,快讯形式主要包括文章首句、文章摘要、基于特定模版生成的文本等。其中,文章首句这种方式是对篇章部分的截取,文章摘要通常基于textrank等方法找出文章中最重要的句子返回;基于特定模版的方式接近于基于元数据的句式生成,这通常需要人工事先进行编辑。事理图谱为快讯的生成提供了另一种可能,通过对领域新闻报道(主要指记叙文)进行事理建模,如体育新闻中的比赛流程、地震报道中的地震->救援->重建等流程等。基于领域事理模型,将能够更好地进行事件流。
        历时事件流,基于历时语料,可以对特定实体的事件线进行抽取,形成以实体entity为核心的历时事件流,这个历时事件是特定时间内与该实体相关的重要事件,有点类似于维基百科中的人物大事记,如下图7所示。

在这里插入图片描述
图7
维基百科中的大事记这种展示方式存在两个主要不足:一是展示的粒度太大,还可以进一步进行细化处理;而是人工编辑方式,不够自动化。因此,使用事理抽取技术,在大规模的历时语料库中进行抽取,可以实现许多有趣的应用,对于英文来说,可以使用纽约时报,纽约时报从1851年创刊至今有两百多年的历时语料库;对于中文来说,有人民日报语料,从1953年至今共60余年的语料;主流网络新闻媒体如腾讯新闻有从2006年至今共12年的历时语料,这些语料都为我们进行历时事件抽取、事理抽取等提供了基础,如图8、图9分别展示了第一次和第二次世界大战的一个事件流。

在这里插入图片描述
图8
基于该技术,我们可以形成一个历史事件流知识库,基于该事件流知识库,可以支持百科知识补全、人物事件检索及问答等服务。

在这里插入图片描述
图9

总结
        事理图谱,本身是个学术概念和学术热点,其中所涉及到的自身技术细节以及关联学科方向决定了这个研究问题本身的困难性,在实际的研究过程中会发现诸如事件表示方式、事件关系识别、领域事件演化模型建模等多方面的技术难题,正如目前的知识图谱一样,我们必须承认这一点。而如何结合应用,来对事理图谱进行检验,进一步倒逼技术的进步,或许是一个出路,本文主要为了解决这一问题,介绍了我们目前正在尝试的应用场景,包括新闻预警、文本可视化、事件监测、摘要生成、历史事件流生成等几个应用场景,供大家讨论,欢迎各位批评指正。如有合作等方面的需求,可欢迎与我们联系,一起推动事理图谱相关技术的进步以及在实际应用场景中的运用。

参考文献:
[1]唐家渝, 刘知远, 孙茂松. 文本可视化研究综述[J]. 计算机辅助设计与图形学学报, 2013, 25(3): 273-285.
[2]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjN2IPJ9vbfAhXIybwKHf5yBLoQjB16BAgBEAQ&url=https%3A%2F%2Fwww.tigermoon.co.uk%2Fproducts%2Fworld-war-1-timeline&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
[3]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjbkJjN_PbfAhVS5rwKHeVwBmUQjhx6BAgBEAM&url=http%3A%2F%2Fwww.creativoeducation.co.uk%2Fworld-war-two-timeline-wall-panel%2F&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
文章为原创,如有转载,请注明出处。
作者简介:
刘焕勇,中国科学院软件研究所,主要从事信息抽取、社会计算、知识图谱与事理图谱相关研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系作者:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480473.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CCKS 2018 | 最佳论文:南京大学提出 DSKG,将多层 RNN 用于知识图谱补全

本文转载自公众号:机器之心。 选自CCKS 2018作者:Lingbing Guo、Qingheng Zhang、Weiyi Ge、Wei Hu、Yuzhong Qu机器之心编译参与:Panda、刘晓坤2018 年 8 月 14-17 日,主题为「知识计算与语言理解」的 2018 全国知识图谱…

计算机软件系统

计算机软件系统按其功能可分为系统软件和应用软件两大类。1、系统软件系统软件是指管理、控制、和维护计算机及其外部设备,提供用户与计算机之间操作界面等方面的软件,它并不专门针对具体的应用问题。代表性的系统软件有:操作系统、数据库管理…

数据结构--栈--浏览器前进后退应用

浏览器前进后退: 当你依次浏览a,b,c,然后回到b,再浏览d,就只能查看a,b,d,了。 原理: 利用两个栈A,B 浏览新网页的时候,压入栈A,清空栈B前进&…

关于BERT,面试官们都怎么问

1.BERT 的基本原理是什么?BERT 来自 Google 的论文Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT 是“Bidirectional Encoder Representations from Transformers”的首字母缩写,整体是一个自编码语言模…

牛逼!支付宝高级Java三面题目:线程锁+事务+雪崩+Docker等

支付宝高级Java一面 JVM中的老年代在什么情况下会触发GC? CMS的垃圾回收步骤,G1和CMS的区别? CMS哪个阶段是并发的,哪个阶段是串行的? 谈谈Java线程池,线程池中几个参数含义 谈谈你了解的J.U.C包的JDK源…

鲍捷 | 深度解析知识图谱发展关键阶段及技术脉络

本文转载自公众号: AI科技大本营 。 分享嘉宾 | 鲍捷(文因互联CEO)出品 | AI科技大本营(公众号ID:rgznai100)知识图谱是人工智能三大分支之一——符号主义——在新时期主要的落地技术方式。该技术虽然在 20…

8大常用数据库管理系统简介

转自:http://vps.zzidc.com/vpsjishu/817.html 数据库管理系统(Database Management System)是种操纵和管理数据库的大型软件,是用于建立、使用和维护数据库,简称DBMS。是企业进行数据管理及维护不可或缺的数据管理软件。 8大常用数据库管理系…

知识图谱之语言计算与信息抽取

语言计算与信息抽取是自然语言处理中两块重要内容。本文将根据自己的工作总结,形成了语言计算与信息抽取的知识图谱分布图。 一、总体图谱 二、概念抽取 三、实体抽取 四、事件抽取 五、语言监测 六、文本计算内容 七、文本内容计算应用 总结 本文介绍了关于语言…

数据结构--队列Queue--链式队列、顺序队列

队列:先进先出,就如排队一样,先到的,先排上 1.链式队列 1.1 头文件 listQueue.h /*** description: 链式队列* author: michael ming* date: 2019/4/1 22:47* modified by:*/#ifndef QUEUE_LISTQUEUE_H #define QUEUE_LISTQUEU…

技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

本文转载自公众号:中国人工智能开源软件发展联盟,欢迎大家点击文末二维码关注。知识图谱 (Knowledge Graph)是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”&#xff0c…

2018 支付宝Java开发四面:Ngnix+MQ队列+集群+并发抢购

一面 介绍项目 java 线程池的实现原理,threadpoolexecutor关键参数解释 hashmap的原理,容量为什么是2的幂次 为什么要同时重写hashcode和equals ConcurrentHashMap如何实现线程安全? 介绍Java多线程的5大状态,以及状态图流转…

ACL2020 | 线上搜索结果大幅提升!亚马逊提出对抗式query-doc相关性模型

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:机智的叉烧(OPPO算法工程师,擅长Query理解方向)背景搜索和推荐经常会被放在一起对比,其中最突出的区别就是搜索中存在query,需要充分考虑召回内容和query之间的…

微型计算机性能指标以及分类

衡量微型计算机的主要技术指标是?特点是? 2018-11-29 20:38:08 来源:贤集网 赵媛 微型计算机大家应该耳熟能详,它又比称为“微型机”,由于其具备人脑的某些功能,所以也称其为“微电脑”。现在流行的微…

领域应用 | 为电商而生的知识图谱,如何感应用户需求?

本文转载自公众号:阿里技术(ali_tech)。 阿里妹导读:本文从需求分析和体系化构建的角度出发,阐述在电商这一特殊领域的知识图谱构建过程中,形成的一整套概念体系,还有在此过程中,通过算法、工程、产品、…

史上最全阿里Java面试题目大汇总!强烈建议收藏~

阿里面试题目目录 技术一面(基础面试题目) 技术二面(技术深度、技术原理) 项目实战(项目模拟面试) JAVA开发技术常问的问题 阿里必会知识 阿里面试范畴 阿里面试总结 一:阿里技术一面&…

数据结构与算---重点复习知识

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/sakurakider/article/details/82924371 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoeni…

GPT-3诞生,Finetune也不再必要了,NLP领域又一核弹

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&…

POJ 1363 火车厢排队问题(栈)

题目链接&#xff1a;http://poj.org/problem?id1363 题目大意&#xff1a; A站有编号为1到N&#xff0c;N最大1000&#xff0c;的车厢&#xff0c;车厢进入中转station了就不能回到A&#xff0c;只能停在station内或者进入B站&#xff0c;问能不能按照给定的顺序排成那样的车…

徐阿衡 | 知识抽取-实体及关系抽取(一)

本文转载自公众号&#xff1a;徐阿衡。 这一篇是关于知识抽取&#xff0c;整理并补充了上学时的两篇笔记 NLP笔记 - Information Extraction 和 NLP笔记 - Relation Extraction&#xff0c;梳理了知识抽取的基本方法&#xff0c;包括传统机器学习及经典的深度学习方法。知识抽取…

非常全面的阿里的Java面试题目,涵盖Java基础+高级+架构

阿里技术一面 自我介绍 Java中多态是怎么实现的 Java中的几种锁 数据库隔离级别 脏读 幻读 ACID mysql的隔离级别 mysql索引实现&#xff0c;如何解决慢查询 数据库锁是怎么实现的 死锁的条件&#xff0c;进程和线程区别 tcp/ip模型&#xff0c;tcp和udp区别 Linux查看…