[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab:

ACL 2018DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data
AuthorHang Yang, Yubo Chen, Kang Liu, Yang Xiao and Jun Zhao 中科院自动化所
paperhttps://www.aclweb.org/anthology/P18-4009

本文提出了一个事件抽取框架来从文档级财经新闻中检测事件提及并提取事件。目前为止,基于有监督学习的方法在开放数据集上表现最好。这些方法依赖人工标注的数据。但是在金融、医疗等特定领域,由于数据标记过程的成本太高,目前没有足够的标记数据。而且现有的方法大多集中在从一个句子中抽取事件,但实际上,一个事件通常由文档中的多个句子来表达。为了解决这些问题,我们提出了一个文档级中文金融事件抽取系统(DCFEE),该系统可以自动生成大规模的标记数据并从整个文档中抽取事件。实验结果证明了该方法的有效性。

1 引言

金融事件能够帮助用户获得竞争对手的策略,预测股市,做出正确的投资决策。例如,股权冻结事件的发生将对公司产生不良影响,股东应迅速做出正确的决策,以避免损失。

金融事件抽取存在的问题:

  • 训练语料较少:有监督学习需要大量标注语料
  • 文档级事件抽取:当前的事件抽取方法大多都是抽取句子中的事件,但是大多数情况下,一个事件是由多个句子描述的。在金融领域,91%的事件论元是分布在多个句子中的。

在这里插入图片描述

Figure 1: Example of an Equity Freeze event triggered by “frozen” and containing five arguments.

为解决这两个问题,本文做了以下工作:

  • 提出了一个DCFEE模型,可以基于自动生成的标注数据从金融领域公告中完成文档级事件抽取
  • 介绍了一种用于事件抽取的数据自动标注方法,并给出了构建中文金融事件数据集的一系列有用的技巧。我们提出了一个基于神经网络序列标注模型、关键事件检测模型和参数填充策略的文档级EE系统。实验结果表明了该方法的有效性
  • DCFEE系统已成功构建为一个在线应用程序,可以快速从金融公告中抽取事件信息

2 方法

下图是DCFEE模型的结构图,主要分为两个部分:
1)数据生成:利用远程监督的方式对整个文档(文档级数据)中的事件提及,以及事件提及(句子级数据)的触发词和论元进行标注
2)事件抽取系统:包括基于句子级标注数据的句子级事件抽取(SEE)和基于文档级标注数据的文档级事件抽取(DEE)
在这里插入图片描述

Figure 2: Overview of the DCFEE framework

2.1 数据生成

图3 数据生成过程

Figure 3: The process of labeled data generation.

数据来源:

自动生成数据需要两种类型的数据资源:包含大量结构化数据信息的金融事件知识库和包含事件信息的非结构化文本数据。

  • 结构化数据来源于财务事件知识库,包含9种常见的财务事件类型,并以表格形式存储。这些包含关键事件论元的结构化数据是从金融专业人士的公告中总结出来的。以股权质押事件为例,如图3左侧所示,其中关键参数包括股东名称(名称)、质押机构(ORG)、质押股份数量(NUM)、质押开始日期(BEG)、质押结束日期(End)。
  • 非结构化文本数据来源于企业发布的官方公告,以非结构化形式存储在网络上,我们从搜狐证券网获得这些文本数据。

数据生成方法:

标注数据主要包括两部分:通过标注事件触发词事件论元生成的句子级数据;通过标注文档级公告中的事件提及生成的文档级数据
现在的问题在于如何找到事件触发词。与结构化事件知识库相对应的事件论元和事件提及是从大量的公告中总结出来的。远程监督的方法在关系抽取和事件抽取上均表现出来其在自动标注数据上的有效性。受远程监督的启发,我们假设一个句子包含最多的事件参数,并且在特定触发器的驱动下,很可能是公告中提到的事件。事件提及中的论元很有可能在事件中扮演相应的角色。对于每一类金融事件,我们构建了一个事件触发词典,如股权冻结事件中的冻结事件和股权质押事件中的质押事件。因此,可以通过查询预先定义的词典从公告中自动标记触发词。通过这些预处理,结构化数据可以映射到公告中的事件论元。因此,我们可以自动识别事件提及并标记事件触发词和其中包含的事件论元,以生成句子级别的数据,如图3底部所示。然后,对于一个文档,作者定义其中的一个句子作为文档中的正例,即最能表达文档中事件的一句话,其他句子均为负例。自此,对一篇文档的标注就完成了。文档级数据和句子级数据一起构成了EE系统所需的训练数据。

技巧:

实际情况下,数据标注存在一些挑战:财务公告与事件知识库的对应性;事件论元的模糊性和缩写性。我们使用了一些技巧来解决这些问题,示例如图3所示。

  • 减少搜索空间:通过检索关键事件论元(如公告的发布日期和股票代码),可以减少候选公告的搜索空间
  • 正则表达式:通过正则表达式可以匹配到更多的事件论元,提高标注数据的召回率。例如LONCIN CO LTD (Role=Shareholder Name)在金融事件数据库中,但是LONCIN在公告中。我们可以通过正则表达式来解决这个问题,并将LONCIN标记为事件论元。
  • 规则:一些任务驱动的规则可用于自动标注数据。例如,我们可以通过计算 2017-02-23 (Role=Pledging Start Date) 和2018-02-23(Role=Pledging End Date)之间的间隔标记出12 months (Role=Pledging End Date)

2.2 事件抽取

图4描述了本文提出的事件抽取系统的总体架构,主要包括以下两个组件:旨在从单个句子中抽取出事件论元事件触发词的句子级事件抽取;旨在基于关键事件检测模型和论元填充策略从整个文档中提取事件参数的文档级事件抽取。
图4 事件抽取系统的总体架构

Figure 4: The architecture of event extraction.

2.2.1 句子级事件抽取

我们将句子级事件抽取作为一个序列标注任务,并对基于句子级标注数据的训练数据进行了描述。句子使用BIO标注模式进行标注。如图4左侧所示,模型使用BiLSTM+CRF进行句子级事件抽取,抽取出句子中的候选论元及触发词

2.2.2 文档级事件抽取

文档级事件抽取包括两部分:旨在从文档中发现事件提及的关键事件检测模型;用于填充事件论元的论元补足策略。

关键事件检测:

如图4右侧所示,事件检测的输入由两部分组成:一部分是来自句子级事件抽取输出的事件论元和事件触发器的表示(蓝色),另一部分是当前句子的向量表示(红色)。将两部分串联起来作为CNN的输入特征。然后将当前句分为两类:关键事件与否,即是否为文档中的正例。

论元填充策略:

我们通过文档级事件抽取获得了包含大部分事件论元的关键事件,并通过句子级事件抽取获得了文档中每个句子的事件抽取结果。为了获得完整的时间信息,我们使用论元填充策略,该策略可以自动地从周围句子中填充缺失的事件论元。如图4所示,一个完整的质押事件包括事件提及Sn​中的事件论元,以及根据事件提及中填充的事件论元12months。Sn​中的事件论元,以及根据事件提及 中填充的事件论元 12 months。Sn12months

3 评估

3.1 数据集

我们对四类金融事件进行了实验:股权冻结事件、股权质押事件、股权回购事件和股权增持事件。共有2976份公告通过自动生成数据进行了标记。我们将标记的数据分为三个子集:训练集(占公告总数的80%)、开发集(10%)和测试集(10%)。表1显示了数据集的统计信息。NO.ANN表示可以为每个事件类型自动标注的公告的数量。NO.POS表示正样本句子(事件提及)的数量,相反,NO.NEG表示负样本句子的数量。正负样本句子构成文档级数据,作为文档级事件抽取的训练数据。包含事件触发词和一系列事件论元的正样本句子,标记为SEE的句子级训练数据。
在这里插入图片描述

我们随机选取了200个样本(包含862个事件论元)来手动评估自动标注数据的准确率。平均精度见表2,这表明我们的自动标注数据具有较高的质量。
在这里插入图片描述

3.2 模型效果

我们使用准确率(P)、召回率(R)和(F1)来评估DCFEE系统。表3显示了基于模式的方法和DCFEE在提取股权冻结事件时的性能。实验结果表明,在大多数事件论元提取中,DCFEE的性能优于基于模式的方法。
在这里插入图片描述

表4显示了SEE和DEE在不同事件类型上的P、R、F1。值得注意的是,SEE阶段使用的黄金数据是自动生成的数据,DEE阶段使用的黄金数据来自金融事件知识库。实验结果表明,SEE和DEE的有效性,精度可以接受。
在这里插入图片描述

实验表明,基于远程监督的方法可以自动生成高质量的标注数据,避免了人工标注。同时验证了本文提出的DCFEE能够有效地从文档级角度中提取事件。

4 应用

DCFEE系统的应用:中文财经文本的在线电子商务服务。它可以帮助金融专业人士从财务公告中快速获取事件信息。图5显示了在线DCFEE系统的截图。不同颜色的单词代表不同的事件参数类型,下划线句子代表文档中提到的事件。如图5所示,我们可以从非结构化文本(关于股权冻结的公告)中获得一个完整的股权冻结事件。
在这里插入图片描述

5 相关工作

目前的EE方法主要分为统计方法、基于模式的方法和混合方法。统计方法可以分为两类:基于特征提取工程的传统机器学习算法和基于自动特征提取的神经网络算法。基于模式的方法通常在工业上被使用,因为它可以获得更高的准确率,但同时具有较低的召回率。为了提高召回率,主要有两个研究方向:建立相对完整的模式库和采用半自动的方法建立触发器词典。混合事件提取方法将统计方法和基于模式的方法结合在一起。据我们所知,在中文金融领域,还没有一个系统能够自动生成标注数据,并从公告中自动提取文档级事件。

6 结论

本文提出了DCFEE框架,该框架能够基于自动标注的数据从中国财务公告中提取文档级事件。实验结果表明了系统的有效性。我们成功地将系统上线,用户可以通过该系统从财务公告中快速获取事件信息。

原文链接:https://blog.csdn.net/qq_34838643/article/details/107795253

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478461.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全

笔记整理 | 谭亦鸣,东南大学博士生概述预测图谱中缺失的事实(fact)是知识图谱构建与推理中的一个重要任务,近年来也被许多KG embedding研究的关注对象。虽然目前的KG embedding方法主要学习和预测的是单个图谱中的事实,但是考虑到KG之间不同规…

LsLoader——通用移动端Web App离线化方案

由于JavaScript(以下简称JS)语言的特性,前端作用域拆分一直是前端开发中的首要关卡。从简单的全局变量分配,到RequireJS实现的AMD模块方式,browserify/webpack实现的静态引用方式。前端的业务逻辑也从一个个精心按顺序…

ACL'21 | debug完的神经网络,如何测试是否仍然存在bug?

文 | Sherry回归测试熟悉软件工程的小伙伴们一定知道回归测试:修改了旧代码后,重新进行测试以确认修改没有引入新的错误或导致其他代码产生错误。它可以大幅降低系统测试、维护升级等阶段的成本。随着深度学习网络的不断发展,越来越多的系统都…

LeetCode 198. 打家劫舍(DP)

1. 题目 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。 给定一个代表每个房屋存…

论文浅尝 - ACL2020 | 利用常识知识图对会话流进行显式建模

笔记整理 | 韩振峰,天津大学硕士链接:https://arxiv.org/pdf/1911.02707.pdf动机人类对话自然地围绕相关概念发展,并分散到多跳概念。本文提出了一种新的会话生成模型——概念流(ConceptFlow),它利用常识知识图对会话流进行显式建…

百度NLP、视频搜索团队招聘算法实习生!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1问答工作职责研发文本问答、多模态问答、阅读理解、端到端问答等技术,利用NLP理论和方法解决实际问题结合数据、算力优势,在百度的搜索、凤巢等产品和业务实现技术落地研究问答、…

人工智能在线特征系统中的数据存取技术

主流互联网产品中,不论是经典的计算广告、搜索、推荐,还是垂直领域的路径规划、司机派单、物料智能设计,建立在人工智能技术之上的策略系统已经深入到了产品功能的方方面面。相应的,每一个策略系统都离不开大量的在线特征&#xf…

论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

笔记整理 | 谭亦鸣,东南大学博士来源: ACL 2020链接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf资源:https://github.com/bernhard2202/intkb.概述知识库作为许多下游NLP任务的资源基础,存在的一个普遍缺陷是它…

预训练模型的前世今生(有福利!)

近年来,在深度学习和大数据的支撑下,自然语言处理技术迅猛发展。而预训练语言模型把自然语言处理带入了一个新的阶段,也得到了工业界的广泛关注。通过大数据预训练加小数据微调,自然语言处理任务的解决,无须再依赖大量…

LeetCode 337. 打家劫舍 III(记忆化+递归)

文章目录1. 题目1.1 相关题目:2. 解题2.1 递归2.2 记忆化递归1. 题目 在上次打劫完一条街道之后和一圈房屋后,小偷又发现了一个新的可行窃的地区。这个地区只有一个入口,我们称之为“根”。 除了“根”之外,每栋房子有且只有一个…

孵化业务快速落地与优化

海外酒店是酒旅事业群第一个孵化的业务,从2016年9月份开始到现在已经半年多的时间。在业务后台搭建、成长、优化过程中,经历了很多的思考与选择。 主要分为下面几个阶段: 初建:调研、落地,合理复用,高效自建…

TPLinker 联合抽取 实体链接方式+源码分析

关系抽取–TPLinker: https://blog.csdn.net/weixin_42223207/article/details/116425447 Tagging TPLinker模型需要对关系三元组(subject, relation, object)进行手动Tagging,过程分为三部分: (1)entity head to enti…

论文浅尝 | KGAT: 用于推荐的知识图注意力网络

笔记整理 | 李爽,天津大学链接:https://arxiv.org/pdf/1905.07854v1.pdf动机为了提供更准确、多样化和可解释的推荐,必须超越对用户-项目交互的建模,并考虑辅助信息。传统的方法,如因子分解机(FM),将其视为…

对话系统答非所问?快试试这篇ACL'21的连贯性评估大法

文 | 页眉3编 | 小轶背景当我们在绞尽脑汁地想怎么设计一个对话系统的时候,我们当然希望最后训练出来的系统能越像人越好,输出的回复很连贯,很有趣,很体贴。而其中,连贯性可以说是最基本的要求之一了,毕竟不…

LeetCode 384. 打乱数组(rand)

1. 题目 打乱一个没有重复元素的数组。 示例:// 以数字集合 1, 2 和 3 初始化数组。 int[] nums {1,2,3}; Solution solution new Solution(nums);// 打乱数组 [1,2,3] 并返回结果。任何 [1,2,3]的排列返回的概率应该相同。 solution.shuffle();// 重设数组到它的初始状态[…

论文浅尝 - ACL2020 | 知识图谱补全方法的再评估

笔记整理 | 谭亦鸣,东南大学博士来源:ACL 2020链接:https://www.aclweb.org/anthology/2020.acl-main.489.pdf源码:http://github.com/svjan5/kg-reeval概述图谱补全(KGC)的目标是自动的预测大规模知识图谱…

美团数据库高可用架构的演进与设想

本文介绍最近几年美团MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新。同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望。 在2015年之前,美团&…

恕我直言,很多小样本学习的工作就是不切实际的

文 | ????????????????编 | 小轶以前的小样本学习(Few-shot Learning),是需要用一个巨大的训练集训练的。测试时只给出 n-way k-shot,在这 N * k 个样本上学习并预测。我第一次看到这种任务设定的时候真是非常失望…

LeetCode 204. 计数质数(质数的倍数不是质数)

1. 题目 统计所有小于非负整数 n 的质数的数量。 示例:输入: 10 输出: 4 解释: 小于 10 的质数一共有 4 个, 它们是 2, 3, 5, 7 。2. 填表解题 2的倍数不是质数3的倍数不是质数5的倍数,7的倍数,11的倍数。。。质数的倍数不是质数 class Solution { p…

论文浅尝 | 六篇2020年知识图谱预训练论文综述

转载公众号 | AI机器学习与知识图谱本文介绍六篇有关知识图谱预训练的优秀论文,大致上可分为两类,生成学习模型和对比学习模型。其中GPT-GNN模型是生成学习模型,模型灵感来源于自然语言处理中的GPT模型;GCC,GraphCL&am…