nlp 命名实体识别 算法_中文命名实体识别算法 Lattice LSTM

中文命名实体识别 (NER) 算法按照输入的类型,可以大致分为 Character-based (字符) 和 Word-based (单词) 两种。这两种方法都存在一些缺陷,Character-based 不能利用词汇和词汇序列信息;Word-based 需要分词,分词的错误会对 NER 结果产生较大影响。因此新加坡的研究者在 2018 年提出了一种 Lattice LSTM 的算法,可以利用词汇信息,也可以避免分词错误对模型的影响。

1.前言

1c05df30dd8638124ade411e8eec04d1.png

基于字符和基于单词的 LSTM 模型

如上图所示,中文命名实体识别 NER 主要有 Character-based (基于字符) 方法和 Word-based (基于单词) 方法:基于单词的方法首先会利用分词模型对句子分词,然后把分好的单词序列传递到 NER 模型中预测实体。基于字符的方法不对句子分词,每一个 token 就是一个汉字,直接将 token 序列传递到 NER 模型预测实体。但是这两种方法都存在一些问题:

  • 基于字符的方法不能利用词汇和词汇序列的信息,而这些信息对于实体识别通常很重要。
  • 基于单词的方法需要经过分词模型和 NER 模型,分词中产生的错误会传递到 NER 模型中。这种分词边界的错误会导致 NER 模型出错,这种情况在开放领域的 NER 任务中尤其严重。

基于上面的原因,新加坡的研究人员于 2018 年提出了 Lattice LSTM 模型,论文《Chinese NER Using Lattice LSTM》。Lattice LSTM 会利用词典匹配句子中的单词,然后构造出字符和单词的网格 (Lattice)。Lattice LSTM 的神经元会同时接收字符和单词的信息,自动选择合适的字符或单词,实现消除歧义的功能,如下图所示。

63179c0211a495e7b76efdf877e0c762.png

单词-字符 Lattice

2.Lattice LSTM

78c7f03a0a13860f93ad6ee173796d21.png

Lattice LSTM 结构图

上图展示了 Lattice LSTM 的结构,可以看成是 Char-LSTM 的扩展版。Lattice LSTM 在 Char-LSTM 的基础上增加了 word-base cell 和额外的门结构,用于控制和选择信息流。

Lattice LSTM 用到的一些数学符号如下图所示:

b9c503c069d965e9d33543035dbdc213.png

Lattice LSTM 数学符号

我们首先看一下传统 Char-LSTM 的计算公式,对于 LSTM 不熟悉的童鞋可以参考之前的文章《循环神经网络 RNN、LSTM、GRU》。Char-LSTM 输出主要包括 cell state c 和 hidden state h,计算公式如下:

63ece52976cb80d91a80eb4e6e1b9fdd.png

传统 Char-LSTM 计算公式

上面是 Char-LSTM 的计算公式,Lattice LSTM 在这基础上增加了 word-base cell,用于计算单词子序列的 cell state c。下面的图展示了 word-base cell 的结构:

3fd8fe7f909748c49e732b42dde3fd72.png

Lattice LSTM 细节图

Word-base cell 计算公式如下,生成一个包含单词信息的 cell state:

e5eb355ecf91d65e4d9f2e8c66b05df8.png

word-base cell 计算 cell state

在上式中,word-base cell 是不包括输出门向量的,因为 Lattice LSTM 只在 Char-LSTM 上输出。得到 word-base 的 cell state 后,Lattice 需要融合到 Char-LSTM 的 cell state 上,这一过程需要增加一个输入门向量,并且要对输入门向量进行归一化,如下所示:

eb6b383459c80dac5aa815148e3b82b9.png

输入门向量归一化

最终 Lattice LSTM 得到第 j 个字符的 cell state 如下:

0a5e76447e45be1ab3e344242827024d.png

Lattice LSTM cell state 计算

Lattice LSTM 的 hidden state h 计算公式和 Char-LSTM 是一样的,最终把 h 传递到 CRF 层即可进行命名实体识别。

3.总结

Lattice LSTM 优点:

  • 可以同时利用中文字符和单词的信息,通过增加 word-base cell 和控制门,对字符和单词的信息进行选择,消除歧义。

Lattice LSTM 缺点:

  • 因为字符之间增加单词节点的个数是不同的,因此 Lattice LSTM 不支持 batch 训练。
  • 如果句子中匹配的单词过多,会导致 Lattice LSTM 效果变差 (可能会退化成为基于单词的 LSTM),受到分词错误的影响。

4.参考文献

Chinese NER Using Lattice LSTM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431211.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字能查出笔迹吗_大家都知道文字可以做笔迹鉴定,我想问一下专家阿拉伯数字是否也可以做笔迹鉴定正确率高吗?...

匿名用户1级2008-07-02 回答笔迹是书写人利用笔或其他书写工具,写在纸张或者其他材料上,反映书写人书写习惯特征的一种文字符号。由于每个人生理特征、心理因素和学习写字时的方式、方法、环境、条件的不同,由这些因素所决定的书写习惯也不相…

中国电子计算机大学竞赛安徽分赛,我院学子喜获第十二届全国大学生数学竞赛安徽赛区15项一等奖...

本网讯近日,第十二届全国大学生数学竞赛安徽赛区结果正式揭晓,我校数学与统计学院、电子信息与电气工程学院、物理与材料工程学院、计算机学院共72名学生获安徽赛区奖项,包括安徽省一等奖15项,二等奖15项,三等奖42项&a…

margin background_margin:auto与布局展示

margin:auto 的作用机制。使用margin:auto居中,是css的基本操作。但会发现时不时的失灵。 这篇文章是对该属性的深度分析。首先,以下事实(自动填充)必须明确(1)有时候元素就算没有设置width 或height&#…

智能客户端ios_为什么现在的客户端开发越来越不吃香了

这是Kevin的第 672 篇原创,持续日更,做产品经理的创业斜杠青年。年底上线APP,是我们今年PMTalk在产品研发上的一个最终目标。启动这个项目前,团队、和身边创业朋友都不看好这件事,因为客户端开发太重了,小公…

用计算机录制声音让音质更好,电脑如何录屏?电脑录屏如何把声音也录制下来...

电脑如何录屏?电脑录屏如何把声音也录制下来2019年09月24日 14:25作者:黄页编辑:黄页分享电脑如何录屏?当你看到精彩的视频内容时,往往经常会出现,无法下载视频或者是下载很麻烦的问题。那么这个时候,可以…

第九周 10.25-10.31

10.25 HDU 4117 GRE Words 卡了很久的一个题目。比较综合。 看了很久题解还是各种写挫。 毕竟除了模拟题都没敲过那么长的。 题意:按顺序给N个单词,每个单词有权值,删去其中任意单词,使得前面的单词为后面单词的子串,求…

芯片设计中的latch_Latch-up (闩锁效应)

------------------------------------WeChat subscription account:Analog CMOS------------------------------------每周分享Analog IC学习资料/笔记。关注获取。。。。。00 - 本文内容CMOS 中的闩锁效应(latch-up)的来源具体的避免 latch…

pythonopencv算法_python opencv之SURF算法示例

本文介绍了python opencv之SURF算法示例,分享给大家,具体如下: 目标: SURF算法基础 opencv总SURF算法的使用 原理: 上节课使用了SIFT算法,当时这种算法效率不高,需要更快速的算法。在06年有人提…

计算机如何用vb文本加密,信息加密与隐藏工具的设计与实现VB231

摘 要当今时代,随着电脑的普及应用和互联网的快速发展,网络中露出的安全问题引起普遍关注,网络的安全,主要是网络信息安全,需要采取相应的保护措施,提供适合的安全服务,加密机制和信息隐藏技…

c++判断ftp服务器文件存在性判断_BitTorrent协议与传统文件分发协议对比

一、文件传输前端时间做了和文件传输相关的工作,今天抽空做个总结。总结一下平常使用的几种协议以及BtTorrent协议。其实BitTorrent协议也不是什么新协议,它诞生也十几年了。咱也蹭个热点,最近几年大火的区块链技术也和BitTorrent协议有着异曲…

java基础全套

这是我自己早前听课时整理的java基础全套知识 使用于初学者 也可以适用于中级的程序员 我做成了chm文档的类型 你们可以下载 笔记是比较系统全面,可以抵得上市场上90%的学习资料。讨厌那些随便乱写的资料还有拿出来卖钱的人!在这里我免费的分享出来供…

顺丰快递单号的规律_顺丰速运顺丰快递单号查询大全

如何一键查询快递单号顺丰快递单号查询跟踪,鸡蛋是我们日常生活当中最为常见的一种食材啦,相信在每一个家庭当中每天都会吃到鸡蛋,因为鸡蛋的营养价值非常高,它含有丰富的蛋白质,可以为我们身体提供能量,别…

用计算机求正有理数算术平方根的步骤,用计算器求算数平方根、用有理数估计算数平方根的大小.ppt...

用计算器求算数平方根、用有理数估计算数平方根的大小.ppt 上传人:jw****88文档编号:85573818上传时间:2020-06-11格式:PPT页数:20大小:2.14MB下载提示(请认真阅读)1.请仔细阅读文档,确保文档完…

【整理】强化学习与MDP

【入门,来自wiki】 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期&#x…

爬虫技术python流程图_基于Python的网络爬虫技术研究

基于Python的网络爬虫技术研究王碧瑶【摘要】摘要:专用型的网络爬虫能够得到想要的返回结果,本文就以拉勾网作为例子,对基于Python的网络爬虫技术进行研究和分析。【期刊名称】数字技术与应用【年(卷),期】2017(000)005【总页数】1【关键词】Python;网络…

python显示文件夹图片_如何显示文件夹中的随机图片(Python)

需要指定正确的相对路径:random.choice([x for x in os.listdir("path") if os.path.isfile(os.path.join("path", x))]) 否则,代码将尝试在当前目录中找到文件(image.jpg),而不是"path"…

nginx 根证书 服务器证书,Nginx双向证书校验(服务器验证客户端证书)

1、创建Root CA私钥openssl genrsa -out root-ca.key 10242、创建Root CA证书请求openssl req -new -out root-ca.csr -key root-ca.key3、签发Root CA根证书openssl x509 -req -in root-ca.csr -out root-ca.crt -signkey root-ca.key -CAcreateserial -days 36505、生成服务器…

移动app测试的多样性_做移动APP功能测试,这些因素你得都考虑到~

对于刚入行的测试新手来说,无论是做手动测试还是自动化测试,前期都避免不了学习前人经验,从而尽可能减少自己的漏测问题。作为一个过来人,今天,我就将自己的移动APP功能测试分享给大家,希望对新手有一定帮助…

pytorch dropout_PyTorch初探MNIST数据集

前言:本文主要描述了如何使用现在热度和关注度比较高的Pytorch(深度学习框架)构建一个简单的卷积神经网络,并对MNIST数据集进行了训练和测试。MNIST数据集是一个28*28的手写数字图片集合,使用测试集来验证训练出的模型对手写数字的识别准确率…

DQL查询语句内容整理

select * from t_hq_ryxx;select bianh,xingm from t_hq_ryxx;--为字段名定义别名 select bianh as 编号,xingm as 姓名 from t_hq_ryxx;select bianh 编号 from t_hq_ryxx;select bianh || xingm as 编号和姓名 from t_hq_ryxx;select bianh as bh, t.* from t_hq_ryxx t ord…