论文浅尝 | 融合多粒度信息和外部语言知识的中文关系抽取

论文笔记整理:吴涵,天津大学硕士,研究方向:自然语言处理



Paper:https://www.aclweb.org/anthology/P19-1430/

Code:https://github.com/thunlp/Chinese_NRE

 

引入

中文NER问题在很大程度上取决于分词的效果,所以在中文NER问题中,学者们通常先对文本进行分词然后再预测序列中单词的类别。这样一来会导致一个问题,即在分词中造成的错误会影响到NER的结果。

如果单纯采用字向量的话会导致拆开了很多并不应该拆开的词语,从而丢失了它们本身的内在信息(比如“人生”这个词如果拆成字向量就成了“人”和“生”,这两个字的单独含义明显与它们组合起来的词的含义大相径庭)。为了解决这个问题,该论文使用了一种新型的格子结构(latticestructure),它能够将单词本身的含义加入基于字向量的模型中,并引入义原作为外部知识。

 

文章摘要

    本文在ACL2018的一篇论文《ChineseNER Using Lattice LSTM》上加以改进,加入了义原作为外部知识,可以更好地理解语义信息。

由于同时考虑了词格作为一个cell,自然网络中路径就变多,所以要对于基本的LSTM网络的计算公式加以修改:

 

对词格结尾的字符(如图中的“市”)进行计算时,会有一点不同:由于向“市”的cell有两个信息流的输入,故需要再加一个inputgate,两个门同时通过不同的信息流,需要设置权重:

本文模型:引入义原作为外部知识

 

加入义原后,计算时,在词格cell状态的计算上考虑不同义项带来的影响,并为不同的义项设置不同的权重:

 

 

实验结果

 

  通过与基于词粒度和字符粒度模型进行比较,可以得出,加入义原的多粒度模型可以获得更好的效果,同时,词格模型也是性能提升的重要原因。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能写作

6.2万字报告剖析「智能写作」全貌,从落地产品看NLP商业化突破:

论文拒稿的评价可以有多狠?

文 | 自然卷知乎自古严师出高徒,“天将降大任于是人也,必先苦其心志,劳其筋骨……”。然而,这并不能作为审稿人走向“键盘侠”之路的理由!让我们这些卑微投稿人心里真是好凉凉!ಥ_ಥ 大家来看看&#xff0c…

全链路压测自动化实践

背景与意义 境内度假是一个低频、与节假日典型相关的业务,流量在节假日较平日会上涨五到十几倍,会给生产系统带来非常大的风险。因此,在2018年春节前,我们把整个境内度假业务接入了全链路压测,来系统性地评估容量和发现…

论文浅尝 | GMNN: Graph Markov Neural Networks

论文笔记整理:吴锐,东南大学硕士研究生,研究方向为自然语言处理来源:ICML 2019链接:http://proceedings.mlr.press/v97/qu19a/qu19a.pdf问题定义弱监督下的在关系数据中的对象分类。形式化地来说,给定一个图…

五笔字根表口诀的通俗易懂讲解

五笔字根表口诀的通俗易懂讲解 从上面五笔学习导图,我们不难看出,五笔只包含两个部分,一是独立字。二是字根字。 1 先来讲解独立字。 独立字就是不用字根就可以输出的汉字,独立字包含一级简码,按键字两种。…

论文浅尝 | 基于知识图谱难度可控的多跳问题生成

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答。来源:ISWC 2019链接:https://link.springer.com/content/pdf/10.1007%2F978-3-030-30793-6_22.pdf本文提出一个end2end神经网络模型以知识图谱…

LeetCode 933. 最近的请求次数(queue)

1. 题目 写一个 RecentCounter 类来计算最近的请求。 它只有一个方法:ping(int t),其中 t 代表以毫秒为单位的某个时间。 返回从 3000 毫秒前到现在的 ping 数。 任何处于 [t - 3000, t] 时间范围之内的 ping 都将会被计算在内,包括当前&…

如何融合深度学习特征向量?

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

将军令:数据安全平台建设实践

背景 在大数据时代,数据已经成为公司的核心竞争力。此前,我们介绍了美团酒旅起源数据治理平台的建设与实践,主要是通过各种数据分析挖掘手段,为公司发展决策和业务开展提供数据支持。 近期,业内数据安全事件频发&#…

Android官方开发文档Training系列课程中文版:与其它APP交互之将用户带到其它的APP

原文地址:http://android.xsoftlab.net/training/basics/intents/index.html 导言 一个Android APP应用通常会有若干个Activity。每一个Activity所展示的用户界面用于允许用户执行特定的任务(比如浏览地图或者是拍照)。为了把用户从一个activity带到另一个activit…

开源开放 | 图数据交互可视化分析框架 InteractiveGraph v0.3 版本发布

图数据交互可视化分析框架 InteractiveGraph 日前发布 v0.3 版本,下载地址:https://github.com/grapheco/InteractiveGraph/releases/tag/0.3.1图数据模型具有对实体关系的表达能力强、属性 及结构可扩展性好、关联查询高效等优势。在对海量 的多元异构信…

LeetCode 589. N叉树的前序遍历(前序遍历)

文章目录1. 题目2. 解题2.1 递归2.2 循环1. 题目 2. 解题 2.1 递归 class Solution { public:vector<int> preorder(Node* root) {vector<int> ans;preRec(root,ans);return ans;}void preRec(Node* root, vector<int> &ans) {if(root NULL)return;ans…

打脸!一个线性变换就能媲美“最强句子embedding”?

文 | 苏剑林&#xff08;追一科技&#xff09;编 | 小轶小编&#xff1a;前几周小屋刚推完《还在用[CLS]&#xff1f;从BERT得到最强句子Embedding的打开方式&#xff01;》&#xff0c;苏神就来打脸了_(:з」∠)_BERT-flow来自论文《On the Sentence Embeddings from Pre-trai…

AI Challenger 2018:细粒度用户评论情感分析冠军思路总结

2018年8月-12月&#xff0c;由美团点评、创新工场、搜狗、美图联合主办的“AI Challenger 2018全球AI挑战赛”历经三个多月的激烈角逐&#xff0c;冠军团队从来自全球81个国家、1000多所大学和公司的过万支参赛团队中脱颖而出。其中“后厂村静静”团队-由毕业于北京大学的程惠阁…

论文浅尝 | 融入知识的弱监督预训练语言模型

论文笔记整理&#xff1a;叶群&#xff0c;浙江大学计算机学院&#xff0c;知识图谱、NLP方向。会议&#xff1a;ICLR 2020链接&#xff1a;https://arxiv.org/pdf/1912.09637.pdf Abstract预训练语言模型不仅在传统的语言学任务上取得了很好的表现&#xff0c;在一些涉及到背景…

2021 年 1 月程序员薪资出炉,持续上涨!你过平均线了吗?

瑟瑟发抖&#xff01;程序员薪资报告又来了。2021 年 1 月的薪资报告一定能给你个大惊喜&#xff01;程序员薪资扶摇直上。&#xff08;2021年1月程序员收入情况&#xff09;1 月全国程序员平均工资 14915 元&#xff0c;工资中位数 12500 元&#xff0c;其中 96% 的人工资介于…

LeetCode 590. N叉树的后序遍历(后序遍历)

文章目录1. 题目2. 解题2.1 递归2.2 循环1. 题目 2. 解题 2.1 递归 class Solution { public:vector<int> postorder(Node* root) {vector<int> ans;postRec(root, ans);return ans;}void postRec(Node* root, vector<int> &ans){if (root NULL)return…

人物志 | MIT 科技创新“远见者”:美团 NLP 负责人王仲远

2019 年 1 月 21 日&#xff0c;《麻省理工科技评论》发布了 2018 年“35 岁以下科技创新 35 人”&#xff08;35 Innovators Under 35&#xff09;中国榜单&#xff0c;美团点评AI平台部 NLP 中心负责人、点评搜索智能中心负责人王仲远获评为“远见者”。 Innovators Under 35…

论文浅尝 | GraphSAINT—基于图采样的归纳学习方法

论文笔记整理&#xff1a;杨海宏&#xff0c;浙江大学博士生&#xff0c;研究方向为开放世界下的多语言知识问答。1. 简介受显存的因素限制&#xff0c;应用图神经网络于大规模图学习任务上面临“邻居爆炸&#xff08;Neighbor Explosion&#xff09;”问题&#xff0c;导致网络…

LeetCode 105. 已知前序中序 求二叉树

文章目录1. 题目2. 解题1. 题目 类似POJ 2255 Tree Recovery 2. 解题 class Solution { public:TreeNode* buildTree(vector<int>& preorder, vector<int>& inorder) {unordered_map<int,int> m;//哈希表for(int i 0; i < inorder.size(); i) {…