目前,事理图谱在描述领域事件时空信息上具有独特性,这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息。从学术的角度上来说,事理图谱与事件抽取、事件关系抽取、脚本学习、事件链生成、篇章句间关系识别、图谱图结构运算等多个研究方向关系密切,具有很强的理论和技术挑战以及研究价值;与学界不同,工业界则更多地考虑事理图谱的落地实现,即解决抽象技术理论与实际业务场景之间的结合问题。我们目前在事理图谱中积累了一些经验,并积累形成了400W规模的全行业事理图谱,实现了从领域事理到领域知识图谱(公司知识图谱、产业链知识图谱)的通路,并在此基础上,不断寻求应用场景,下面是我们目前已经或正在尝试的应用点,供大家一起讨论。
一、基于金融事理图谱的新闻预警
事件预警是目前我们使用事理图谱的应用尝试,事件预警是一个面向商品领域的重要资讯预警产品。我们通过监控上千家全行业网站,实时采集相关资讯,通过抽取识别资讯中的事件,将事件与事理图谱中的事件进行链接,结合情感分析技术、文本标签技术、文本重要性判定技术对具有影响力的资讯进行过滤,最终为用户实现自定义标地的预警资讯筛选以及基于该预警资讯的影响寻迹探索。
图1
如下图1所示,对于采集到的资讯,我们会对其进行判定,给出该资讯所能造成的影响,为了能够对最终结果给出影响的原因解释,我们给出了该影响所遵循的事理图谱链条,如页面的右侧所示的事理图谱缩略图。在点击事理图谱缩略图后,可进入详情页
图2
如图2所示,页面给出资讯全文,影响事件事理图谱(可支持全屏点击拓展查看),在页面的右侧,我们列举了与当前资讯具有事件影响相关的历史资讯,类似于kensho的做法,通过这种方式,我们尝试将历史事件影响应用于当前的资讯推荐与风险预警当中。事件预警是其中的一个应用例子,此外我们还正在开展事理图谱在其他领域的尝试,如文本理解可视化系统等,欢迎持续关注我们的工作。
二、基于事理抽取技术的文本可视化
文本可视化技术是自然语言处理技术在信息抽取领域与信息领域中的一项重要技术,涉及文本分析、数据挖掘、数据可视化、计算机图形学、人际交互等理论方法,通过该技术,可以进一步将人从大段文本中解放出来,从而更好的理解复杂的文本内容、结构以及内在规律,目前文本可视化的方法[1]主要包括基于此品的可视化(标签云);以网络图、后缀树、链路图等表示方法来展示文本内在关系;利用网络图等反映文本间的饮用等外在关系。将事理图谱和文本可视化技术进行融合,可以提供一种新型的文本可视在这里插入图片描述化方法。
接下来,我们对比两种可视化的方法。一种是对文本进行关键词提取、命名实体识别(人名、地名、机构名)进行事件识别,形成的知识网络,这种网络化展示方式能够借助知识实体、实体所属的知识类型、实体之间的归属关系对文章进行一种结构化的信息展示,如图3所示。
另一种是通过提取文章中的实体性事件,抽取事件之间的关系,并以此形成事件链的形式,这种形式与前一种方式相比,更具有逻辑性和时空属性,如图4所示。
四、基于出行事理的路径规划与推荐
事理图谱本身所刻画的是一种具有时空属性的关系型知识,而在我们现实生活当中,具有时空属性(包括先后顺序,空间的先后顺序)的例子有许多。
图5
根据火车网huoche.net中有所有车次的信息显示,其中T字头的有564趟,D字头有3712趟,C字头1538趟,G字头3011趟,K字头2968趟,Z字头354趟,L字头418趟,Y字头55趟,S字头30趟。 这些火车在既定的路线上行驶,形成一个庞大的有向环图,而如果对这个有向环图的关系边进行标注,我们可以形成一个以火车站点为节点的火车出行事理图谱,基于这个事理图谱,我们可以进行多种有意义的探索。基于一个地点,我们通过这张图谱,可以知道在理论时间之后另一个地点上可能触发的动作,如酒店、换乘等,这利于我们进行路径规划和推荐。
图6
实际上,火车票,汽车票,飞机票,城市信息等在网络上也较为全面,这些都为出行领域应用场景提供了数据基础。目前,我在出行领域知识图谱中将对该想法进行尝试。参见:https://github.com/liuhuanyong/TravelKnowledgeGraph。
五、基于事理图谱模型的历时事件流生成
目前快讯在当前的流媒体中使用较多,是事件流的一种形式,快讯形式主要包括文章首句、文章摘要、基于特定模版生成的文本等。其中,文章首句这种方式是对篇章部分的截取,文章摘要通常基于textrank等方法找出文章中最重要的句子返回;基于特定模版的方式接近于基于元数据的句式生成,这通常需要人工事先进行编辑。事理图谱为快讯的生成提供了另一种可能,通过对领域新闻报道(主要指记叙文)进行事理建模,如体育新闻中的比赛流程、地震报道中的地震->救援->重建等流程等。基于领域事理模型,将能够更好地进行事件流。
历时事件流,基于历时语料,可以对特定实体的事件线进行抽取,形成以实体entity为核心的历时事件流,这个历时事件是特定时间内与该实体相关的重要事件,有点类似于维基百科中的人物大事记,如下图7所示。
图7
维基百科中的大事记这种展示方式存在两个主要不足:一是展示的粒度太大,还可以进一步进行细化处理;而是人工编辑方式,不够自动化。因此,使用事理抽取技术,在大规模的历时语料库中进行抽取,可以实现许多有趣的应用,对于英文来说,可以使用纽约时报,纽约时报从1851年创刊至今有两百多年的历时语料库;对于中文来说,有人民日报语料,从1953年至今共60余年的语料;主流网络新闻媒体如腾讯新闻有从2006年至今共12年的历时语料,这些语料都为我们进行历时事件抽取、事理抽取等提供了基础,如图8、图9分别展示了第一次和第二次世界大战的一个事件流。
图8
基于该技术,我们可以形成一个历史事件流知识库,基于该事件流知识库,可以支持百科知识补全、人物事件检索及问答等服务。
图9
总结
事理图谱,本身是个学术概念和学术热点,其中所涉及到的自身技术细节以及关联学科方向决定了这个研究问题本身的困难性,在实际的研究过程中会发现诸如事件表示方式、事件关系识别、领域事件演化模型建模等多方面的技术难题,正如目前的知识图谱一样,我们必须承认这一点。而如何结合应用,来对事理图谱进行检验,进一步倒逼技术的进步,或许是一个出路,本文主要为了解决这一问题,介绍了我们目前正在尝试的应用场景,包括新闻预警、文本可视化、事件监测、摘要生成、历史事件流生成等几个应用场景,供大家讨论,欢迎各位批评指正。如有合作等方面的需求,可欢迎与我们联系,一起推动事理图谱相关技术的进步以及在实际应用场景中的运用。
参考文献:
[1]唐家渝, 刘知远, 孙茂松. 文本可视化研究综述[J]. 计算机辅助设计与图形学学报, 2013, 25(3): 273-285.
[2]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjN2IPJ9vbfAhXIybwKHf5yBLoQjB16BAgBEAQ&url=https%3A%2F%2Fwww.tigermoon.co.uk%2Fproducts%2Fworld-war-1-timeline&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
[3]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjbkJjN_PbfAhVS5rwKHeVwBmUQjhx6BAgBEAM&url=http%3A%2F%2Fwww.creativoeducation.co.uk%2Fworld-war-two-timeline-wall-panel%2F&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
文章为原创,如有转载,请注明出处。
作者简介:
刘焕勇,中国科学院软件研究所,主要从事信息抽取、社会计算、知识图谱与事理图谱相关研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系作者:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126.com