【医学嵌入模型】中文医疗文本处理大模型 PCL-MedBERT

中文医疗文本处理大模型 PCL-MedBERT

    • 提出背景
      • 对ELECTRA限制的深入分析
      • eHealth的创新方法
      • 实体识别
      • 关系抽取
    • 总结

 


最近再做医学项目,需要从文本中抽取医学概念和关系,通用模型的抽取效果还可以。

但还想找医学嵌入模型,能够更准确地从文本中识别出医学实体(如病症、药物、治疗方法等)并理解实体间的关系(如疾病与症状之间的关系)。

提出背景

论文:https://arxiv.org/pdf/2110.07244v1.pdf

代码:https://github.com/trueto/medbert

本文介绍了eHealth,一个新的中文生物医学预训练语言模型,旨在解决中文生物医学领域缺乏高质量、公开可用的预训练模型的问题。

通过采用一个创新的自监督学习框架,该模型实现了在令牌级别和序列级别对生物医学文本的深入理解。

该框架包括一个用于生成损坏输入的生成器和一个通过多层次文本鉴别进行训练的鉴别器,使得eHealth能够在不依赖外部知识的情况下,仅通过文本本身学习语言语义。

这个框架有两个主要部分:一个生成器和一个鉴别器。

生成器的工作就像是在一个完整的句子中故意搞乱一些词语,而鉴别器的任务就是找出这些被搞乱的词语,并尝试修正它们。

  • 生成器:它创建测试题目,通过对原始文本中的词语或句子进行随机修改,生成“损坏”的输入。这就像是给文本加上谜题,让模型去解决。
  • 鉴别器:它尝试解决这个谜题,通过识别出哪些部分是被搞乱的,并且尽可能找出正确的原始形式。在这个过程中,鉴别器通过两个层面进行学习:一是找出单个词语(令牌级别)哪里不对劲,二是整个句子(序列级别)的结构是否有问题。

通过这种方式,eHealth模型可以更深入地理解文本的含义,因为它不仅学会了识别单个词语的正确与否,还学会了理解整个句子或文本段落的大致意图和结构,而且它不需要任何额外的信息或知识库,完全依赖于它所分析的文本本身来学习。

这种方法让eHealth能够有效地理解并处理生物医学领域的中文文本。

 
在11项中文生物医学语言理解任务上的测试结果显示,eHealth一致性地超越了同等规模的现有模型,包括那些专门针对生物医学领域或通用领域的模型。

在6.5亿字符中文临床自然语言文本语料上基于BERT模型,预训练获得了MedBERT模型。

本工作的主要贡献在于提出了一种新的预训练算法,并验证了其在生物医学领域内的有效性,同时展示了该算法的通用性,为将来将此类方法扩展到其他领域提供了可能。

 

近年来,预训练语言模型(PLMs)已在自然语言处理(NLP)领域取得显著成功。这些模型,如BERT和其变种,通过在大规模的未标注文本上进行自监督学习来训练,学会了理解和生成语言。

这些文本主要来自一般领域,比如Wikipedia、新闻稿和网页内容。通过这种方法,PLMs能够捕获广泛的语言特征和模式,为各种NLP任务提供强大的基础。

尽管PLMs在一般领域取得了巨大成功,但在生物医学等专业领域内,直接应用这些一般领域的PLMs并不总是有效的。

这是因为专业领域具有独特的词汇、术语和语言结构,这些在一般领域的文本中很少或根本没有出现。

因此,为了在这些专业领域内达到最佳性能,研究人员开始构建专门的PLMs。然而,面临着两个主要挑战:

  • 效率低下: 传统的掩码语言模型(MLM)方法在训练时只能从每次输入中的15%被掩码的令牌中学习,导致高计算成本。

  • 缺乏专业领域的PLMs:尤其是中文生物医学领域,缺乏高质量、公开可用的PLMs,部分现有模型需要依赖额外、通常不公开的专业知识,限制了其应用范围。

为了解决上述挑战,研究人员提出了新的方法和技术:

  • ELECTRA:通过一个新颖的预训练框架,ELECTRA引入了替换令牌检测(RTD)任务,其中一些令牌被随机替换,模型必须预测每个令牌是否被替换。这使得模型能够从所有输入令牌中学习,而不仅仅是被掩码的部分,显著提高了训练效率。
  • 多令牌选择(MTS)和序列级信号:为了让模型捕获更丰富的语言信息和更好地理解语言结构,研究人员提出使用MTS和结合序列级信号的方法。MTS是RTD的泛化,要求模型从可能的候选中选择原始令牌,而序列级信号(如下一句预测等)则帮助模型理解文本之间更复杂的关系。

在ELECTRA框架中,生成器和鉴别器通过一种对抗的方式合作:生成器尝试“欺骗”鉴别器,而鉴别器则努力识别生成器的“欺骗”。

这种机制促进了模型在令牌级别上的学习,而多令牌选择(MTS)和序列级信号的引入,则进一步扩展了模型的学习范围,包括对复杂选择的处理和对整个文本结构的理解。

  • 多令牌选择(MTS):这是一种训练任务,要求模型从一系列可能的候选令牌中选择最合适的令牌来恢复原始文本。

    在ELECTRA框架中,这种方法可以被视为对鉴别器任务的扩展或改进,提供了更复杂的决策过程,因为模型不仅要识别哪些令牌被替换,还要从多个候选中选择正确的令牌。

  • 序列级信号:这类信号涉及到对整个句子或文本段落的理解,而不仅是单个令牌。通过训练模型识别句子之间的逻辑关系、预测句子顺序或进行句子级别的对比学习,可以增强模型对文本整体结构的理解。

    在ELECTRA框架中,虽然主要关注的是令牌级别的判断(由鉴别器完成),但通过引入序列级信号,可以进一步提高模型对语言结构的理解,尤其是在理解长文本或复杂文本结构时。

 
eHealth模型的开发是基于对ELECTRA存在限制的深入分析,并通过创新的方法来克服这些限制,以更好地服务于中文生物医学文本的处理。

对ELECTRA限制的深入分析

  • 令牌级别的二元分类限制: ELECTRA模型通过生成器产生的损坏输入来训练鉴别器,仅在令牌级别进行二元分类(即,判断令牌是否被正确地替换)。

    这种方法虽然有效,但主要局限于识别单个令牌的正确性,可能不足以捕捉到更复杂的语言模式,特别是在专业领域中,文本的含义往往需要更深层次的语义理解。

  • 缺乏序列级别的学习: ELECTRA主要关注单个令牌的处理,而不涉及更广泛的文本结构或序列间的关系。

    这限制了模型对于长篇文本或具有复杂结构和关系的文本的理解能力,而这在生物医学文本中尤为重要。

 


eHealth的创新方法

  • **丰富的令牌级别鉴别:**为了克服仅有的二元分类的限制,eHealth在令牌级别引入了更为丰富的鉴别任务。

    不仅判断令牌是否被替换,而且还要恢复被替换令牌的原始身份。这种方法能够提供更多的语言信息给模型,帮助模型更细致地理解语言细节和文本的语义层面。

  • 序列级别鉴别的引入: eHealth通过引入序列级别的鉴别任务来加强模型对文本整体结构的理解。

    这种方式使得模型不仅能理解单个词语,还能把握整个句子或段落中词语之间的关系,以及它们如何共同表达特定的意义或概念。

 


实体识别

在这里插入图片描述

图展示的是用于中文医学实体识别(CMEE)任务的序列标注示例。在该任务中,目标是从医学文本中识别并标注特定的实体,如症状、疾病等。

深色阴影的条目代表实际标签为1(表示该令牌是一个实体的一部分),而浅色阴影的条目代表实体标签为0(表示该令牌不是实体的一部分)。

序列标注模型通常使用BIO标注体系,其中"B"代表实体的开始,"I"代表实体内部的令牌,"O"代表非实体令牌。

如图所示,可能还会有其他前缀,比如"S"和"E",分别代表单独的实体和实体的结束。

这些标签与预训练的Transformer编码器的输出相连接,编码器输出每个令牌的上下文表示,然后通过分类器来预测每个令牌的最终标签。
 


关系抽取

在这里插入图片描述
图展示的是一个多头选择层,用于中文医学实体和关系提取(CMIE)的联合任务。

在这个任务中,模型不仅要识别文本中的实体,还要识别实体之间的关系。

深色阴影的条目表示真实标签为1(表示选择的头部和关系是正确的),而浅色阴影的条目表示真实标签为0(表示选择不正确或无关)。

实体指针和关系提取的头部基于预训练的Transformer编码器的输出。

这个多头选择层可能是用来同时捕获实体之间的多种关系。

每个关系类型都有一个头部(比如R0、R22、R30),模型会预测文本中的实体对是否属于该关系类型。
 


总结

  1. 提出背景与动机

    • 预训练语言模型(PLMs)在自然语言处理(NLP)领域取得了显著的成功,特别是BERT及其变体通过在大规模未标注文本上的自监督学习,显著推动了NLP的发展。
    • 尽管在通用领域PLMs取得了巨大成功,但直接将这些模型应用于生物医学等专业领域的效果并不总是理想的,因为专业领域具有独特的词汇、术语和语言结构,需要专门的预训练模型来处理。
  2. ELECTRA模型的限制

    • ELECTRA模型采用令牌级别的二元分类任务进行预训练,虽有效,但可能不足以捕捉更复杂的语言模式。
    • ELECTRA缺乏在序列级别进行学习的能力,限制了模型对复杂文本结构的理解。
  3. eHealth模型的创新

    • eHealth模型采用了ELECTRA的生成器-鉴别器框架,并通过引入丰富的令牌级别鉴别和序列级别鉴别的创新方法,旨在克服ELECTRA在生物医学文本处理上的限制。
    • eHealth能够在不依赖外部知识的情况下,仅通过文本本身学习语言语义,有效地理解并处理生物医学领域的中文文本。
  4. eHealth模型的实验验证

    • 在11项中文生物医学语言理解任务上的测试结果显示,eHealth一致性地超越了同等规模的现有模型,证明了其有效性和优越性。

eHealth模型的开发基于对ELECTRA存在限制的深入分析,并通过创新的方法来提升中文生物医学文本的处理能力,展现了预训练算法在生物医学领域内的有效性和通用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/780222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见的Nginx+Redis+MQ+DB架构设计

三高,复杂的架构 SQRS CAP 缓存,限流 【Redis,缓存】 cache-aside 缓存cache:数据源的副本 store 1. Read/Write Through Pattern 读写穿透模式 redis:放当前在线用户,热点数据

第十四届蓝桥杯第十题:蜗牛分享

问题描述 输入格式 输出格式 输出共一行,一个浮点数表示答案(四舍五入保留两位小数)。 样例输入 3 1 10 11 1 1 2 1样例输出 4.20样例说明 蜗牛路线:(0,0)→(1,0)→(1,1)→(10,1)→(10,0)→(11,0)(0,0)→(1,0)→(1,1)→(10,1…

【C语言】结构体详解 (二) 内存函数、结构体传参

目录 1、 结构体的内存对齐 1.1、对齐规则 1.2、练习1、练习2(演示对齐规则1、2、3、4) 2、为什么存在内存对齐 2.1、平台原因(移植原因) 2.2、性能原因 2.3、那么如何即满足对齐,又要节省空间呢? …

element-ui inputNumber 组件源码分享

今日简单分享 inputNumber 组件的实现原理,主要从以下四个方面来分享: 1、inputNumber 组件的页面结构 2、inputNumber 组件的属性 3、inputNumber 组件的事件 4、inputNumber 组件的方法 一、inputNumber 组件的页面结构。 二、inputNumber 组件的…

在计算成像中集成物理和学习模型的即插即用方法

即插即用就是把算法的近端算子换成去噪器 摘要 即插即用先验(PnP)是通过物理模型和学习模型的集成来解决计算成像问题的最广泛使用的框架之一。PnP利用高保真物理传感器模型和强大的机器学习方法对数据进行先验建模,以提供最先进的重建算法。PnP算法在最小化数据保…

零基础教程:R语言lavaan结构方程模型(SEM)

查看原文>>>最新基于R语言lavaan结构方程模型(SEM)实践技术应用 基于R语言lavaan程序包,通过理论讲解和实际操作相结合的方式,由浅入深地系统介绍结构方程模型的建立、拟合、评估、筛选和结果展示的全过程。我们筛选大量…

07-工作流设计:如何设计合理的多人开发模式?

一个企业级项目是由多人合作完成的,不同开发者在本地开发完代码之后,可能提交到同一个代码仓库,同一个开发者也可能同时开发几个功能特性。这种多人合作开发、多功能并行开发的特性如果处理不好,就会带来诸如丢失代码、合错代码、…

echarts 旭日图 层级嵌套

基础的可以直接参考官网进行配置。 Echarts旭日图的特点如下: 1 层次结构展示:旭日图适用于展示层次结构数据,通过不同的扇形区域来表示不同层次的数据。每个扇形区域的大小和位置表示了数据的大小和层次关系。 2 渐进式呈现:旭…

RelayAttention:让大型语言模型更高效地处理长提示符

一、前言 虽然大型语言模型 (LLM) 近年来取得了非常显著的进展,也在各种自然语言处理任务中展现出强大的能力。然而,LLM 的在实际的应用落地层面也面临着一些实际挑战,其中之一就是效率和成本问题,导致了在垂直行业实际落地的应用…

【spring】@Primary注解学习

Primary介绍 Primary 是 Spring 框架中的一个注解,用于在多个相同类型的 bean 中指定一个默认的 bean。当 Spring 容器在自动装配时遇到类型冲突,即存在多个相同类型的 bean 时,如果没有使用 Qualifier 或其他方式指定具体的 bean&#xff0…

关于深度学习的 PyTorch 项目如何上手分析?从什么地方切入?

文章目录 PyTorch 项目分析1.背景2.分析流程 PyTorch 项目分析 1.背景 当我们拿到一个 PyTorch 的深度学习项目时,应该怎么入手?怎么去查看代码? 2.分析流程 首先阅读对应项目的 README.md 文件。通过阅读 README.md ,一般可以…

高风险IP来自哪里:探讨IP地址来源及其风险性质

在网络安全领域,高风险IP地址是指那些可能涉及恶意活动或网络攻击的IP地址。了解这些高风险IP地址的来源可以帮助网络管理员更好地识别和应对潜在的安全威胁。本文将探讨高风险IP地址的来源及其风险性质,并提供一些有效的应对措施。 风险IP查询&#xf…

计算机毕业设计Python+Spark知识图谱高考志愿推荐系统 高考数据分析 高考可视化 高考大数据 大数据毕业设计 机器学习 深度学习 人工智能

学院(全称): 专业(全称): 姓名 学号 年级 班级 设计(论文) 题目 基于Spark的高考志愿推荐系统设计与实现 指导教师姓名 职称 拟…

Vulnhub:MY FILE SERVER: 1

目录 信息收集 1、arp 2、nmap 3、whatweb WEB web信息收集 dirmap FTP匿名登录 enum4linux smbclient showmount FTP登录 ssh-kegen ssh登录 提权 系统信息收集 脏牛提权 get root 信息收集 1、arp ┌──(root㉿ru)-[~/kali/vulnhub] └─# arp-scan -l I…

前端bugs

问题: Failed to load plugin typescript-eslint declared in package.json eslint-config-react-app#overrides[0]: Cannot find module eslint/package.json 解决: google了一晚上还得是chatgpt管用 运行以下命令【同时还要注意项目本身使用的Node版…

【2024】使用zabbix监控ESXI 6.5虚拟化系统

本次实验将采用docker部署zabbix 5.2平台监控ESXI 6.5虚拟化系统—————————————————————————— 请自行准备环境: 关于docker部署方案请参考: docker之核心概念与安装 关于docker部署zabbix方案请参考: docker容器方式部署zabbix监控平台 关于ESXI安…

Halcon3D表面平面度检测-平面差值法

//倾斜平面矫正 https://blog.csdn.net/m0_51559565/article/details/137146179前言 通常我们对表面平面度进行检测时,通常使用2种方式。1:通过大卷积核的高斯滤波进行拟合平面,然后求取拟合平面与3D模型间的点间的距离。2:通过平…

Android裁剪图片为波浪形或者曲线形的ImageView

如果需要做一个自定义的波浪效果的进度条,裁剪图片,对ImageView的图片进行裁剪,比如下面2张图,如何实现? 先看下面的效果,看到其实只需要对第一张高亮的图片进行处理即可,灰色状态的作为背景图。…

centos7配置阿里云的镜像站点作为软件包下载源

目录 1、备份 2、下载新的 CentOS-Base.repo 到 /etc/yum.repos.d/ 3、测试 阿里镜像提供的配置方法:centos镜像_centos下载地址_centos安装教程-阿里巴巴开源镜像站 1、备份 [rootlocalhost ~]# mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentO…

第十二章:预处理命令

文章目录 第十二章:预处理命令宏定义无参宏定义带参数的宏定义 文件包含处理 第十二章:预处理命令 作用:由编译预处理程序对程序中的特殊命令作出解释,以产生新的源程序对其进行正式编译 C语言与其他语言的重要区别就是可以使用预…