论文浅尝 | Doc2EDAG:一种针对中文金融事件抽取的端到端文档级框架

论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱、自然语言处理。


640?wx_fmt=png

链接:https://arxiv.org/pdf/1904.07535.pdf

背景

大多数现有的事件提取(EE)方法仅提取句子范围内的事件参数。但是,此类句子级的EE方法难以处理来自新兴应用领域(例如金融,法律,健康等)的大量文档,其中事件论元分散在不同的句子中,甚至多个事件实例在同一文档中同时存在。为了应对这些挑战,本文提出了一种新颖的端到端解决方案 Doc2EDAG,该解决方案可以有效地生成基于实体的有向无环图,以实现文档级事件抽取。

动机

本文的附录部分展示了中文金融事件抽取的几个难点,并用之前的 DCFEE模型作了对比分析:1)在多事件任务下,尽管 DCFEE-O 可以正确地识别关键语句,但它无法决定此语句表示多少事件,DCFEE-M 会产生多个部分正确的事件,但是 DCFEE-M 的论元补全阶段是上下文无关的;2)对于不同的句子多次提及同一事件的环境下,DCFEE 模型的关键句子检测模块无法有效地区分重复的事件实例,造成抽取事件冗余;3)当一个文档由多个简单的句子片段构成时,事件的论元散落在各个句子中,DCFEE 模型无法有效地将这些零碎的信息整合起来识别完整的事件论元及事件角色。

模型

640?wx_fmt=png

模型分为四个阶段的处理流程:

1)预处理模块:通过词嵌入矩阵将文档中的句子序列 [s1; s2; · · · ; sNs ] 转化为词向量表示的嵌入矩阵 si ∈ Rdw×Nw,并采用 Transformer 作为上下文编码器对实体单位进行编码训练,hi = Transformer-1(si)。在训练过程中,使用事件论元的角色信息作为实体标签,使用经典的BIO(Begin,Inside, Other)方案,并用 crf 层将其封装起来,以获得实体识别 Loss 函数。

2)文档级信息融合模块:为了有效地解决论元分散的挑战,必须利用全局上下文来更好地识别一个实体是否扮演特定的事件角色。因此,该文档级别实体编码阶段的目标是用这样的上下文对提取的实体提及进行编码,并为每个实体提到的内容生成大小为dw的嵌入。由于涉及的实体通常包含多个可变长度的令牌,因此采用注意力加权平均(AWA)模块,为每个实例获得一个固定大小的嵌入ei∈ Rdw,对于每一个句子,也用另一个AWA模块来获得每个句子的固定大小的嵌入ci∈ Rdw。为了提高对文档级上下文的认识,作者使用了第二个 transformer 模块,以方便所有实例和句子之间的信息交换。模型中还增加了句子的嵌入位置来指示句子的顺序。在转换器编码之后,作者还使用一个AWA模块将相同实例的嵌入聚合到单个嵌入中。在这个阶段之后,获得了文档级上下文有关的实例和句子表示,并对每种事件类型进行事件触发分类。

3)文档级信息记忆模块:在依次生成基于实体的有向无环图(EDAG)时,必须同时考虑文档级上下文和路径中已经存在的实体。因此,作者设计了一种内存机制,初始化为句子的嵌入向量。更新 EDAG 时需要追加已经识别的实体嵌入或零矩阵向量(假如识别的是NA argument)。

4)路径扩展模块:当扩展事件路径时,对每个实体进行二进制分类,展开(1)或不展开(0),结合当前路径状态、历史上下文和当前角色信息。首先连接记忆张量m和实体张量 ed,然后用event-role-indicator 嵌入它们,并将它们送入第三个 transformer 模块。然后,从 transformer-3 的输出中提取出丰富的实体张量 er,并在此基础上进行路径扩展分类。

实验

ChFinAnn 数据集(本文使用的)与 DCFEE 使用的数据集相比,ChFinAnn 要大十倍,其中约 30% 的文档包含多个事件记录。文中实验表明,当面对DEE(文档级事件抽取)任务时,Doc2EDAG 获得当前最好的结果。

640?wx_fmt=png

640?wx_fmt=png

总结 

本文的贡献包括:

1)提出了一种新颖的解决方案 Doc2EDAG,该解决方案可以在给定文档的情况下直接生成事件表,以有效应对 DEE 的独特挑战。

2)重新设计了无需触发词的 DEE 任务,以简化基于 DS 的文档级事件标记。

3)为 DEE 建立了一个大规模的现实世界数据集,它面临着事件论元分散和多事件的挑战,并进行广泛的实验证明了 Doc2EDAG 的优越性。

 


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NeurIPS'20 | 通过文本压缩,让BERT支持长文本

作者 | wangThr来源 | 知乎这是今年清华大学及阿里巴巴发表在NIPS 2020上的一篇论文《CogLTX: Applying BERT to Long Texts》,介绍了如何优雅地使用bert处理长文本。作者同时开源了不同NLP任务下使用COGLTX的代码:论文题目:CogLTX: Applying…

福利!Android官方网站出现中文版本!

这两天在Android开发者网站上查东西的时候发现有中文的搜索结果,点开结果全是中文的,以后可以畅通无阻的看文档了,快来围观。

自然场景人脸检测技术实践

一、 背景 人脸检测技术是通过人工智能分析的方法自动返回图片中的人脸坐标位置和尺寸大小,是人脸智能分析应用的核心组成部分,具有广泛的学术研究价值和业务应用价值,比如人脸识别、人脸属性分析(年龄估计、性别识别、颜值打分和…

LeetCode 257. 二叉树的所有路径(DFS)

文章目录1. 题目2. DFS解题1. 题目 给定一个二叉树,返回所有从根节点到叶子节点的路径。 说明: 叶子节点是指没有子节点的节点。 示例:输入:1/ \ 2 3\5输出: ["1->2->5", "1->3"]解释: 所有根节点到叶子节点的路径为: 1->…

JAVA BIO

JAVA BIO深入剖析1. Java BIO 基本介绍2. Java BIO 工作机制3. 传统BIO编程4. BIO模式下的多发和多收消息5. BIO模式下接收多个客户端6. 伪异步I/O编程7. 基于BIO的文件上传8. Java BIO模式下的端口转发9. 基于BIO模式下的即时通信功能清单简单说明项目启动与演示1. Java BIO 基…

速览EMNLP 2020上录取的知识图谱相关论文

文 | 泽宇源 | 知乎前不久,自然语言处理领域三大顶会之一的 EMNLP 2020 发布了论文录取的结果。在EMNLP 2020论文正式出版之前,泽宇搜集了目前Arxiv上已经发布出来的录取在EMNLP 2020上所有和知识图谱相关的论文,下面我们就一起来一睹为快。1…

技术动态 | 数据库研究者视角下的知识图谱研究

本文转载自公众号:图谱学苑 。本次讲解的是数据库领域的三大会(SIGMOD、VLDB、ICDE)近两年关于图数据的研究进展,特别是知识图谱的最新研究。知识图谱是2012年Google为改进其搜索引擎而提出的概念,其本质是一个描述事物…

MultiDex

原文转自:http://coolpers.github.io/multidex/2015/04/13/multidex.html 1.MultiDex的产生背景 当Android系统安装一个应用的时候,有一步是对Dex进行优化,这个过程有一个专门的工具来处理,叫DexOpt。DexOpt的执行过程是在第一次加…

PYTHON得到pdf页数、遍历当前文件夹

#第一步安装PyPDF2 pip install PyPDF2#第二步导入相应的模块 from PyPDF2 import PdfFileReader#第三步:定义相对应的函数 def get_num_pages(file_path):"""获取文件总页码:param file_path: 文件路径:return:"""reader PdfFileRe…

LeetCode 814. 二叉树剪枝(递归)

文章目录1. 题目2. 递归解题1. 题目 给定二叉树根结点 root ,此外树的每个结点的值要么是 0,要么是 1。 返回移除了所有不包含 1 的子树的原二叉树。 把只包含0的子树删除(断开) 来源:力扣(LeetCode&…

怎样缓解灾难性遗忘?持续学习最新综述三篇

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

美团点评技术年货:900+页电子书,覆盖前端、后台、大数据、算法……

新年将至,年味渐浓。 美团点评技术年货如期而至。 从2013年12月4日发布第一篇文章,一直到今天,美团技术团队官方博客已经走过了6个春秋。 截止目前,我们共发布376篇技术文章,微信公众号(meituantech&#x…

论文浅尝 | 基于用户反馈的交互式自然语言回答系统提升机制

本文转载自公众号:图谱学苑。今天介绍的工作是An Interactive Mechanism to Improve Question Answering Systems via Feedback,作者:张欣勃,邹磊,胡森,被CIKM2019接收。本文是一篇与知识库自然语言问答系统…

Android控件默认风格解析之SeekBar

在我们开发的时候常常需要更改原生控件的默认效果,有时候某些控件改起来挺费劲的,比如SeekBar的背景与其ProgressBar的进度粗细或者thumb居中现实与否如果弄错,都是个大麻烦,我曾经就为thumb的居中显示问题浪费了很多很多的时间&a…

基于模板的文字识别结果结构化处理技术

原文链接:https://cloud.tencent.com/developer/article/1425800 嘉宾 | 向宇波编辑 | suiling来源 | AI科技大本营在线公开课出品 | AI科技大本营(ID:rgznai100)随着行业的发展和技术的成熟,文字识别(OCR&…

LeetCode 1008. 先序遍历构造二叉树(已知先序,求二叉搜索树)

文章目录1. 题目2. 解题1. 题目 返回与给定先序遍历 preorder 相匹配的二叉搜索树(binary search tree)的根结点。 示例:输入:[8,5,1,7,10,12],已知二叉搜索树的先序(根左右) 输出&#xff1a…

美团开源 Logan Web:前端日志在 Web 端的实现

1.前言 Logan 是美团点评推出的大前端日志系统,支持多端环境运行,可为客户端、Web、小程序等用户端环境提供前端日志的存储、收集、上报及分析能力,能够帮助开发人员快速定位并解决端上问题,便于及时响应用户反馈与排除异常。 201…

推荐一个快速定位深度学习代码bug的炼丹神器!

文 | McGL源 | 知乎写深度学习网络代码,最大的挑战之一,尤其对新手来说,就是把所有的张量维度正确对齐。如果以前就有TensorSensor这个工具,相信我的头发一定比现在更浓密茂盛!TensorSensor,码痴教授 Teren…

研讨会 | 知识图谱引领认知智能+

本文转载自公众号:中国计算机学会。本论坛将于 CNCC2019 中国计算机大会第一天(10月17日)在苏州金鸡湖国际会议中心 A102 会议室举行,共邀微软、阿里巴巴、华为、小米、浙江大学、苏州大学等机构的专家与你探讨。知识图谱是一种用…

LeetCode 617. 合并二叉树

文章目录1. 题目2. 递归解题1. 题目 给定两个二叉树,想象当你将它们中的一个覆盖到另一个上时,两个二叉树的一些节点便会重叠。 你需要将他们合并为一个新的二叉树。合并的规则是如果两个节点重叠,那么将他们的值相加作为节点合并后的新值&…