论文浅尝 | 用于嵌套命名实体识别的二部平面图网络(BiFlaG)

笔记整理 | 栾岱洋,东南大学


来源:ACL 2020

链接:https://www.aclweb.org/anthology/2020.acl-main.571.pdf

本文提出了一种可以实现重叠主体的识别的BiFlaG(bipartite flatgraph network)模型,包含两个子图模块:用于外层实体的flat NER模块以及用于所有内层实体的图模块。双向LSTM以及图卷积网络被用于联合学习flat entity以及它们的内部依赖。不同于过去的方法,本文同时考虑了内外层的双向交互,flat NER模块识别的实体首先被用于构建实体图,然后反馈到图模块,后者得到涵盖了内部实体依赖信息的强化表示学习,并用于增强外部实体的预测,在三个NER数据集上的实验结果表明,本文模型优于已有SotA方法。

本文提出的命名实体识别模型可以实现重叠主体的识别。NER可以识别出包含预定义类别的实体(如位置、组织等),Nested NER用于处理重叠主体的问题。

模型

1) 标志表示:假定给定序列长度为N,对于每一个token,我们使用词嵌入和字母嵌入表

示????$ = [????i; ????i],前者表示word-level embedding,后者为character-level embedding.使用

BiLSTM捕获序列信息????i = BiLSTM(????i).

2) BiLSTM-CRF结构:包括一个双向LSTM编码器和条件随机场解码器。

BiLSTM获取序列的双向背景文本信息,其输出为CRF的输入,隐藏层状态为

条件随机场中使用Viterbi算法获取在解码过程中概率最大的标签序列,其评分函数为:

其中????yi,yi+1表示从????i到????i+1的转移评分,????i,yi表示标签????i对应第i个BiLSTM编码的词的评分。

图模块

使用BiGCN提取图中的特征。

算法:

实验

数据集:

GENIA 基于GENIA corpus3.02p,包含5种实体类型并切分为8.1:0.9:1的训练/验证/测试子集

ACE2005 包含7种实体类型,按8:1:1切分训练/验证/测试集

KBP2017 作者在英语评价数据集上验证了本文模型,训练集和验证集包含了之前的RichERE标注集

评价指标:

准确率及召回率和F1值

实验结果见表2


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478354.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不是所有问题都适合用神经网络去搞!

文 | YukiRain知乎不是所有问题都适合用神经网络预测,YukiRain总结了以下几种不适合用神经网络做预测的场景:小样本情况,无论是低维还是高维,不如SVM和贝叶斯模型低维数据,大样本量,不如各种ensemble类算法…

从Google白皮书看企业安全最佳实践

前不久Google发布了一份安全方面的白皮书Google Infrastructure Security Design Overview,直译的版本可以参考“网路冷眼”这版《Google基础设施安全设计概述》,直译点评的版本可以参考“职业欠钱”的《Google基础设施安全设计概述翻译和导读》。 此前G…

LeetCode 415. 字符串相加(大数加法)

1. 题目 给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和。 注意:num1 和num2 的长度都小于 5100. num1 和num2 都只包含数字 0-9. num1 和num2 都不包含任何前导零。 你不能使用任何內建 BigInteger 库, 也不能直接将输入的字符串…

会议交流 | 智能风控技术峰会(请关注图分析相关论坛)

2021年5月15日,9:00-18:00,DataFunSummit——智能风控技术峰会将如约而至,本次峰会由3位主席和8位出品人精心策划而成,邀请来自业界的40余位嘉宾从风控系统的架构,到智能风控的核心算法,再到内容、金融、交…

深度学习,路在何方?

文 | Severus最近,AI领域的三位图灵奖获得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同发表了一篇文章,名为Deep Learning for AI,文中讨论了深度学习的起源、发展、成就及未来。文章标题:Deep Learning for AI原文链接&…

前端渲染引擎doT.js解析

背景 前端渲染有很多框架,而且形式和内容在不断发生变化。这些演变的背后是设计模式的变化,而归根到底是功能划分逻辑的演变:MVC—>MVP—>MVVM(忽略最早混在一起的写法,那不称为模式)。近几年兴起的R…

elasticsearch7使用指导

目录结构: 一、es概述 二、es安装/head插件安装/kibana安装 三、es核心概念 四、IK分词器 五、RestFul操作 六、CRUD(增删改查) 七、Springboot集成es ---------------------------------------分割线:正文------------------------------------…

开源开放 | 欢迎选修浙江大学《知识图谱》开放共享慕课

点击“阅读原文”或扫描图中二维码进入课程教学计划第一章知识图谱概论1.1 语言与知识1.2 知识图谱的起源1.3 知识图谱的价值1.4 知识图谱的技术内涵第二章知识图谱的表示2.1 什么是知识表示2.2 人工智能历史发展长河中的知识表示2.3 知识图谱的符号表示方法2.4 知识图谱的向量…

LeetCode 43. 字符串相乘(大数乘法)

文章目录1. 题目2. 小学竖式乘法2.1 普通版2.2 优化版1. 题目 给定两个以字符串形式表示的非负整数 num1 和 num2,返回 num1 和 num2 的乘积,它们的乘积也表示为字符串形式。 示例 1: 输入: num1 "2", num2 "3" 输出: "6&q…

旅游推荐系统的演进

度假业务在整个在线旅游市场中占据着非常重要的位置,如何做好做大这块蛋糕是行业内的焦点。与美食或酒店的用户兴趣点明确(比如找某个确定的餐厅或者找某个目的地附近的酒店)不同,旅游场景中的用户兴趣点(比如周末去哪…

预训练卷不动,可以卷输入预处理啊!

文 | 德志编 | 小戏目前伴随着预训练预言模型的兴起,越来越多的 NLP 任务开始脱离对分词的依赖。通过 Fine-Tune Bert 这类预训练预言模型,能直接在下游任务上取得一个很好的结果。同时也有文章探讨中文分词在神经网络时代的必要性。对于分词任务本身也是…

检索式问答以及评论观点抽取+情感分析

3款开发者神器,快速搭建「检索、问答、情感分析」应用! 人工智能与算法学习 于 2021-12-30 08:10:00 发布 26 收藏 文章标签: 百度 大数据 机器学习 人工智能 数据分析 原文链接:https://mp.weixin.qq.com/s?__bizMzIyOTkyOTE…

征稿 | Call for papers on Knowledge Graphs

Knowledge graph是Data Intelligence的核心主题和期刊特色之一。为持续展示这一领域的最新进展和前沿成果,Data Intelligence正在与国际学者一道策划两期Knowledge graph专辑。期待大家关注并积极投稿参与!DI专辑Special Issue on Personal Health Knowl…

LeetCode 179. 最大数(自定义谓词函数--Lambda表达式--排序)

1. 题目 给定一组非负整数,重新排列它们的顺序使之组成一个最大的整数。 示例 1: 输入: [10,2] 输出: 210示例 2: 输入: [3,30,34,5,9] 输出: 9534330 说明: 输出结果可能非常大,所以你需要返回一个字符串而不是整数。来源:力扣&#xff08…

python实现requests访问接口,比如es接口

首先我们先引入requests模块 import requests一、发送请求 r requests.get(https://api.github.com/events) # GET请求 r requests.post(http://httpbin.org/post, data {key:value}) # POST请求 r requests.put(http://httpbin.org/put, data {key:value}) # PUT请求 r…

拿下字节offer,这些面试题命中率高达90%以上

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力?其中一个最热门的回答是:“其实,无论你是前端还是后端、想进大厂还是拿高薪,算法都一定很重要。”为什么,算法会如此重要?不…

HDFS NameNode重启优化

本文已发表于InfoQ,下面的版本又经过少量修订。 一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所…

LeetCode 4. 寻找两个有序数组的中位数(二分查找,难)

文章目录1. 题目2. 解题2.1 合并数组2.2 优化2.1解法,双指针2.3 二分法(找第k个数)2.4 切分法1. 题目 给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(mn…

论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测

笔记整理 | 潘晓梅,东南大学硕士,研究方向为知识图谱构建、自然语言处理。来源:EMNLP 2020.论文下载地址: https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf项目源码地址: https://github.com/ccclyu/ComHyp…

LeetCode 887. 鸡蛋掉落(DP,难、不懂)

1. 题目 你将获得 K 个鸡蛋&#xff0c;并可以使用一栋从 1 到 N 共有 N 层楼的建筑。 每个蛋的功能都是一样的&#xff0c;如果一个蛋碎了&#xff0c;你就不能再把它掉下去。 你知道存在楼层 F &#xff0c;满足 0 < F < N 任何从高于 F 的楼层落下的鸡蛋都会碎&…