基于BiLSTM-CRF的中文电子病历命名实体识别

声明:博客未经允许禁止抄袭转载。

前言

最近有粉丝在后台私信我能不能更一篇关于命名实体识别(NER,Named Entity Recognition)的经典模型BiLSTM-CRF的实战文章,前段时间有点忙所有一直没有更新,趁着最近有点空,满足一下这个粉丝的愿望,话不多说直接上干货。

说明:为方便起见,本文沿用了之前的博客NLP实战:面向中文电子病历的命名实体识别中的数据集。关于命名实体识别的概念、实验评价指标、数据集介绍以及数据预处理的详细信息,同样可以参考我上面发布的博客。

词嵌入

关于词嵌入,本文的重点是探索条件随机场(Conditional Random Field, CRF)对命名实体识别的影响,因此弱化了词嵌入,直接采用了可学习的词嵌入nn.Embedding。为此,需要在预处理的过程中在训练数据集语料上构建字符到数字的映射词典,其中每个数字都对应词嵌入矩阵中一个可学习词嵌入的索引。

def get_dict(data, filter_word_num):# 统计词频word_count = {}for sample in data:text = sample.get('originalText')for word in text:word_count[word] = word_count.get(word, 0) + 1# 过滤低频词word2id = {"PAD": 0, "UNK": 1}for word, count in word_count.items():if count >= filter_word_num:word2id[word] = len(word2id)print("Total %d tokens, filter count<%d tokens, save %d tokens."%(len(word_count)+2, filter_word_num, len(word2id)))with open("processed/word2id.json", "w", encoding="utf-8") as fp:json.dump(word2id, fp, ensure_ascii=False)return word2id

模型设计与实现

BiLSTM-CRF是NER任务的经典模型(模型架构图如下),该模型利用双向LSTM从正向和逆向来更好的捕获语料序列的上下文关系,然后利用CRF来添加规则约束,避免许多不合理的预测,从而使得预测更加准确。

BiLSTM-CRF

条件随机场

在早期,NER通常直接使用循环神经网络来对序列进行编码,然后利用MLP来独立地预测各个token属于各个类别的概率。这种方式并没有考虑序列级别的相关性。例如对于某预测序列的当前词,若其正确标签为B-Disease&Dianonsis,那么当前词的下一个词的正确标签极大概率为I-Disease&Dianonsis,而不可能是B-Inspection等等。而引入CRF便可以从序列级别来添加类似这种的规则约束,从而提升分类准确率。

x = { x 1 , x 2 , . . . , x T } \mathbf{x}=\{x_1, x_2, ..., x_T\} x={x1,x2,...,xT}表示输入序列, y = { y 1 , y 2 , . . . y T } \mathbf{y}=\{y_1,y_2,...y_T\} y={y1,y2,...yT}表示输入序列对应的真实标签序列, P ∈ R T × n P\in\mathbb{R}^{T\times n} PRT×n表示将 x \mathbf{x} x经过BiLSTM编码后经MLP分类的预测概率矩阵, P i , j P_{i,j} Pi,j表示将序列的第 i i i个词预测为类别 j j j的概率,其中 n n n表示类别数, T T T表示序列的长度。对于CRF而言,它需要学习一个转移概率矩阵 A ∈ R n × n A \in \mathbb{R}^{n \times n} ARn×n A i , j A_{i,j} Ai,j表示若当前词预测类别为 i i i,下一个词预测预测为类别 j j j的概率。CRF会对整个序列的预测结果进行打分,以输入序列与真实标签序列为例,其得分 S ( x , y ) S(\mathbf{x},\mathbf{y}) S(x,y)的计算公式为:
S ( x , y ) = ∑ i = 0 T A y i , y i + 1 + ∑ i = 1 T P i , y i S(\mathbf{x}, \mathbf{y})=\sum_{i=0}^T A_{y_i, y_{i+1}}+\sum_{i=1}^T P_{i, y_i} S(x,y)=i=0TAyi,yi+1+i=1TPi,yi

上述计算公式不仅考虑了每个词的概率,还考虑了词与词之间的转移概率。对于CRF,其优化目标便是最大化 S ( x , y ) S(\mathbf{x}, \mathbf{y}) S(x,y)在所有可能出现的预测序列中的概率:
p ( y ∣ x ) = e S ( x , y ) ∑ y ′ ∈ y e S ( x , y ′ ) p(\mathbf{y} \mid \mathbf{x})=\frac{e^{S(\mathbf{x}, \mathbf{y})}}{\sum_{y^{\prime} \in \mathbf{y}} e^{S\left(\mathbf{x}, \mathbf{y}^{\prime}\right)}} p(yx)=yyeS(x,y)eS(x,y)
其中 y ′ \mathbf{y}\prime y表示所有可能的预测序列。转化为损失函数便是最小化如下的损失函数:
L = − ln ⁡ ( p ( y ∣ x ) ) = ln ⁡ ∑ y ′ ∈ y e S ( x , y ′ ) − S ( x , y ) \mathcal{L}=-\ln\left(p(\mathbf{y} \mid \mathbf{x})\right) = \ln \sum_{y^{\prime} \in \mathbf{y}} e^{S\left(\mathbf{x}, \mathbf{y}^{\prime}\right)}-S(\mathbf{x}, \mathbf{y}) L=ln(p(yx))=lnyyeS(x,y)S(x,y)

模型实现

根据上述介绍,利用Pytorch实现的BiLSTM-CRF模型代码如下所示:

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchcrf import CRFclass BiLSTMCRF(nn.Module):def __init__(self,output_size,embed_size,num_layers,hidden_size,drop_prob,vocab_size,use_crf=False):super(BiLSTMCRF, self).__init__()self.output_size = output_sizeself.use_crf = use_crfself.vocab_size = vocab_sizeself.word_embs = nn.Embedding(self.vocab_size, embed_size)# 定义BiLSTM层self.bilstm = nn.LSTM(bidirectional=True,num_layers=num_layers,input_size=embed_size,hidden_size=hidden_size,batch_first=True,dropout=drop_prob)# 定义全连接层self.fc = nn.Linear(2 * hidden_size, output_size)# 定义CRF层if use_crf:self.crf = CRF(self.output_size, batch_first=True)def forward(self, x, y, mask=None):x = self.word_embs(x)lstmout, _ = self.bilstm(x)emissions = self.fc(lstmout)if self.use_crf:loss = -self.crf(emissions=emissions, tags=y, mask=mask)else:loss = F.cross_entropy(emissions.reshape(-1, self.output_size), y.reshape(-1))return lossdef predict(self, x, mask=None):x = self.word_embs(x)lstmout, _ = self.bilstm(x)emissions = self.fc(lstmout) if self.use_crf:preds = self.crf.decode(emissions, mask)else:preds = torch.argmax(emissions, dim=-1).detach().cpu().numpy()return predsif __name__ == "__main__":pass

实验

本文的实验的环境为:

操作系统: Win10
Python版本:
Pytorch版本: 1.8
主要依赖库: seqeval-1.2.2, pytorch-crf-0.7.2

实验参数设置为:

params = {"lr": 0.001,"batch_size": 128,"epochs": 50,"output_size": len(LABEL),"embed_size": 256,"hidden_size": 256,"num_layers": 2,"drop_prob": 0.5,"use_crf": True # 是否添加CRF
}

限于时间原因,并没有进行细致调参,仅随便设置了一组参数,然后对使用和不使用CRF的模型进行对比。下图为对应的实验结果,从结果可以看出,不管是单个独立的类别还是整体,添加了CRF的效果基本上都要比不加CRF要好,由此验证了CRF设计的有效性。

BiLSTM-CRF-exp1

结语

完整源代码:地址

参考资料:

  • Bidirectional LSTM-CRF for Named Entity Recognition

以上便是本文的全部内容,要是觉得不错的话,可以点个赞或关注一下博主,你们的支持是博主进步的不竭动力,当然要是有问题的话也敬请批评指正!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/888942.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s 优雅监控jvm及dump heap的方案探讨

背景 k8s cluster 的健康检测失败会主动重启pod&#xff0c;而大部份情况下健康检测失败都是由full gc引起的。往往发生重启时已经没有条件dump heap排查full gc的原因。 如何监控 为了避免因健康检测失败而导致的pod重启&#xff0c;我们需要实施有效的监控策略&#xff0c;这…

TPM 2.0:安全固件的新标准

得益于可信计算组 ( TCG ) 推出的全新 TPM 2.0规范&#xff0c;联网设备可以更好地抵御网络攻击&#xff0c;并且不太可能受到错误的攻击。 制造商将可信平台模块 (TPM) 附加到设备上&#xff0c;以帮助用户和管理员验证其身份、生成和存储加密密钥以及确保平台完整性。 在 T…

ensp实验-vrrp多网关配置

一、交换机与路由的配置区别 1. 角色定义交换机&#xff1a; Master 或 Backup: 交换机通常作为 Master 或 Backup 设备参与 VRRP&#xff0c;负责在主设备故障时接替其工作。路由器&#xff1a; Master 或 Backup: 路由器同样可以作为 Master 或 Backup 设备…

黑盒测试方法

‌黑盒测试是一种软件测试方法&#xff0c;它通过向系统提供输入并检查输出结果来验证系统的功能是否符合需求。‌黑盒测试主要关注软件的功能性&#xff0c;而不是其内部结构或工作原理。以下是几种常见的黑盒测试顺序方法&#xff1a; 场景设计法‌&#xff1a; 通过模拟实际…

游戏引擎学习第38天

仓库: https://gitee.com/mrxiao_com/2d_game 回顾上次的内容。 我们之前讨论了将精灵放在屏幕上&#xff0c;但颜色错误的问题。问题最终查明是因为使用了一个调整工具&#xff0c;导致文件的字节顺序发生了变化。重新运行“image magic”工具对一些大图像进行重新处理后&am…

aws(学习笔记第十六课) 使用负载均衡器(ELB)解耦webserver以及输出ELB的日志到S3

aws(学习笔记第十六课) 使用负载均衡器(ELB)以及输出ELB的日志到S3 学习内容&#xff1a; 使用负载均衡器(ELB)解耦web server输出ELB的日志到S3 1. 使用负载均衡器(ELB) 全体架构 使用ELB(Elastic Load Balancer)能够解耦外部internet访问和web server之间的耦合&#xff0c…

深入理解C#的TCPIP通信机制

本文还有配套的精品资源&#xff0c;点击获取 简介&#xff1a;在分布式系统和实时数据交换应用中&#xff0c;C#作为一种现代面向对象编程语言&#xff0c;利用其***命名空间下的Socket类&#xff0c;提供强大的TCP/IP通信功能。本文将探讨C#中TCP/IP通信的基本概念、使用方…

高项 - 项目管理原则与项目绩效域

个人总结&#xff0c;仅供参考&#xff0c;欢迎加好友一起讨论 博文更新参考时间点&#xff1a;2024-12 高项 - 章节与知识点汇总&#xff1a;点击跳转 文章目录 高项 - 项目管理原则与项目绩效域项目管理12条原则原则1&#xff1a;成为勤勉、尊重和关心他人的管家 (p202)原则…

仿真技术助力高尔夫球打破传统设计局限,实现球杆强大的功能

Altair近日宣布与业内领先的高尔夫装备制造商 Cleveland Golf 开展合作&#xff0c;以设计新款 HiBore XL 球杆。借助 Altair 先进的仿真与设计技术&#xff0c;Cleveland Golf 不断刷新高尔夫装备的行业标准&#xff0c;并在球杆产品设计方面实现突破。 Cleveland Golf 借助 A…

python字符串处理基础操作总结

1.去掉空格或者特殊符号 input_str.strip() #去掉所有空格 input_str.lstrip() #去掉左边空格 input_str.rstrip() #去掉右边空格 def print_hi():input_str 今天天气不错&#xff0c;风和日丽 out input_str.strip()print(input_str)print(out)if __name__ __main__:print…

Trimble X9三维激光扫描仪高效应对化工厂复杂管道扫描测绘挑战【沪敖3D】

化工安全关系到国计民生&#xff0c;近年来随着化工厂数字化改革不断推进&#xff0c;数字工厂逐步成为工厂安全管理的重要手段。而化工管道作为工厂设施的重要组成部分&#xff0c;由于其数量多、种类繁杂&#xff0c;一直是企业管理的重点和难点。 传统的化工管廊往往缺乏详…

日志基础示例python和c++

文章目录 0. 引言1. python2. c 0. 引言 本文主要记录python版本和c版本常用的日志基础示例。 1. python python版本常用的是logging库&#xff0c;结合colorlog库&#xff0c;可根据不同日志级别打印不同颜色的日志&#xff0c;为了便于分析问题&#xff0c;还添加了日志保…

【Linux】基础IO-----文件详解

目录 一、文件理解&#xff1a; 二、C语言的文件操作&#xff1a; 1、fopen&#xff1a; 什么是当前路径&#xff1a; 2、fclose&#xff1a; 3、fwrite&#xff1a; 4、默认打开的三个流&#xff1a; 三、系统文件&#xff1a; 1、open&#xff1a; 2、close&#xf…

第7章:响应式设计 --[CSS零基础入门]

什么是响应式设计 响应式设计&#xff08;Responsive Web Design, RWD&#xff09;是一种网页设计和开发的方法&#xff0c;它使网站能够根据用户的设备特性&#xff08;如屏幕尺寸、分辨率、方向等&#xff09;自动调整其布局和内容。响应式设计的目标是确保网站在不同类型的…

探索 ONLYOFFICE 8.2 版本:更高效、更安全的云端办公新体验

引言 在当今这个快节奏的时代&#xff0c;信息技术的发展已经深刻改变了我们的工作方式。从传统的纸质文件到电子文档&#xff0c;再到如今的云端协作&#xff0c;每一步技术进步都代表着效率的飞跃。尤其在后疫情时代&#xff0c;远程办公成为常态&#xff0c;如何保持团队之间…

Vue-打印自定义HTML表格

自定义打印方法 1. 准备HTML结构 首先&#xff0c;构造了一个基本的HTML页面框架&#xff0c;并设置了页面的字符编码为UTF-8&#xff0c;以确保中文和其他特殊字符能正确显示。页面的标题设置为传入的 title 参数值。 let printStr "<html><head><met…

http1.0、1.1、2.0、 3.0

http1.0、1.1、2.0、 3.0 http1.1 引入长连接&#xff0c;在1.0&#xff0c;每次请求都需要建立新的TCP连接&#xff0c;处理请求完毕后立即断开。就导致处理大量图片&#xff0c;链接等资源&#xff0c;需要大量的连接与断开&#xff0c;造成资源浪费和时间延迟。而长连接允许…

跟着问题学15——GRU网络结构详解及代码实战

1 RNN的缺陷——长期依赖的问题 &#xff08;The Problem of Long-Term Dependencies&#xff09; 前面一节我们学习了RNN神经网络&#xff0c;它可以用来处理序列型的数据&#xff0c;比如一段文字&#xff0c;视频等等。RNN网络的基本单元如下图所示&#xff0c;可以将前面的…

pytest中使用conftest做测试前置和参数化

pytest中比较高阶的应用是&#xff0c;使用conftest去做测试前置工作、测试收尾工作和参数化。conftest是pytest的一个组件&#xff0c;用于配置测试环境和参数。通过conftest, 可以创建一个可复用的测试配置文件&#xff0c;以便在多个测试模块之间共享配置信息。即&#xff0…

04 创建一个属于爬虫的主虚拟环境

文章目录 回顾conda常用指令创建一个爬虫虚拟主环境Win R 调出终端查看当前conda的虚拟环境创建 spider_base 的虚拟环境安装完成查看环境是否存在 为 pycharm 配置创建的爬虫主虚拟环境选一个盘符来存储之后学习所写的爬虫文件用 pycharm 打开创建的文件夹pycharm 配置解释器…