基于BERT的医学影像报告语料库构建

大模型时代,任何行业,任何企业的数据治理未来将会以“语料库”的自动化构建为基石。因此这一系列精选的论文还是围绕在语料库的建设以及自动化的构建。

通读该系列的文章,犹如八仙过海,百花齐放。非结构的提取无外乎关注于非结构化的对象以及对象之间的关系,进而提炼为架构化的数据进行治理。目前优质的基座模型甚多,如何准备微调的语料库样本库(如何标注)以及如何设计标注的结构则十分关键,好的设计将使得微调过的模型能够快速学会自动化标注。

在医学诊断与治疗过程中,影像学扮演着至关重要的角色。无论是揭示肿瘤病变、追踪神经系统状况、评估心血管功能,还是解析肌肉骨骼问题,放射科医师通过解读复杂且非结构化的医学影像,为临床决策提供关键信息。这些信息通常以详尽的放射学报告形式呈现,但其自由叙事的特性使得它们在进行二次利用时,如回顾性分析或临床决策支持系统构建,面临着结构化转化的挑战。如今,这一难题正因一项创新研究而得到突破性进展,本篇论文将创建了“Corpus of Annotated Medical Imaging Reports(CAMIR)”的独特资源,首次将精细事件结构与概念标准化巧妙融合,革新了医学影像报告的处理方式。

方法论

数据集:论文使用了一个现有的包含2007年至2020年间来自华盛顿大学医学系统四个医院的普通患者群体的临床数据库,其中包括1,417,586份CT报告、541,388份MRI报告和39,150份PET-CT报告。从每种成像模态中随机抽取报告:CT报告203份、MRI报告202份、PET-CT报告204份。这些报告使用神经去标识符自动进行了去标识化处理。

标注模式:CAMIR事件模式中,每个事件包括一个标识事件的触发器和描述事件的参数。下图展示了在整个注解过程中使用的BRAT快速注解工具的注解示例。

标注方式:四位医学生对CAMIR进行了标注。两两组队对357份报告进行了双重标注,另有252份报告由相同的标注员进行了单次标注。经过五轮双重标注后,标注员的水平达到了一致的交互式一致性评价(IAA)标准,随后进行了4轮单次标注。数据集中训练集、验证集和测试集的比例为70%:10%:20%。训练集中有41%为双重标注,整个验证集和测试集均为双重标注,以确保评估的可靠性。双重标注报告平均每份包含2.65±0.48个指征触发器、10.15±1.31个医学问题触发器和9.77±0.99个病变触发器,而单次标注报告平均每份包含2.14±0.26个指征触发器、9.91±2.58个医学问题触发器和8.78±1.06个病变触发器。

信息提取(IE)提取框架:为了提取CAMIR事件,研究团队考察了两种基于BERT的语言模型:(1)mSpERT和(2)增强版的PL-Marker,PL-Marker++。对于这两套系统,研究团队把事件分解为包含实体和关系的一个组,其中关系头是触发器,关系尾是参数。

mSpERT

上图显示了mSpERT架构,包括各种主体类型、主体子类型和关系输出层。这种尝试较为直接,直接使用BERT联合提取主体和关系。

输出层通过外接Adapter负责分类跨度识别以及多标签之间的关系预测。研究团队因此也利用它来预测子类型标签,mSpERT输出的最终结果可以生成CAMIR预先定义的事件结构,进而完成数据自动化的抽取。

PL-Marker++

PL-Marker是一个多阶段提取框架,第一阶段识别各种主体信息,第二阶段解析关系。为了提取CAMIR事件,研究团队引入了PL-Marker的增强版PL-Marker++。唯一的区别在于第三个分类阶段,用于带值子类型的标签。上图展示了PL-Marker++架构,其中实体类型和关系阶段与原始PL-Marker模型相同。

看到这里会比较烧脑,大白话的解释就是C阶段就是传统的PL-marker框架,主要是提取每一段文字的各种主体信息(含开始和结束位置)、主体之间的关系。因为这样的操作是并行计算,速度和效率可以得到保障。

而B阶段就是所谓的第三分类阶段,进一步将C阶段的成果再次通过Bert基座识别出对应实体的额外信息。这个过程主要是C阶段提炼的每一个实体对象插入标识符生成新的输入。再讲这个输入利用Bert CLS标记的隐藏状态输入外挂分类器,进而识别出每个主体的二级子类。最终一段文本被自动化的标注为结构化的语料库。

标注结果

左图给出了双重标注报告的一致性(IAA)数据。对双重标注报告中的所有触发器和参数进行评估,总体一致性得分为0.762 F1。对于触发器标注的一致性更高,指示(Indication)、病变(Lesion)和医学问题(Medical Problem)分别为0.856、0.805和0.854 F1。尺寸(Size)、尺寸趋势(Size Trend)和计数(Count)参数出现频率远低于其他参数,从而导致这些参数的一致性得分较低。特征(Characteristic)参数的语义非常多样,导致频繁的假阴性结果。

CAMIR中标注现象的分布情况。虽然成像方式的关注点可能有所不同,但大多数参数类型的标注在各成像方式间的分布相似。

两种框架的效果对比

从上图看,PL-Marker++相对于mSpERT取得了显著更高的整体性能(0.759 F1 对比 0.736 F1)。尽管mSpERT和PL-Marker++模型在提取指示和医学问题触发器和参数方面的表现相似,但PL-Marker++在提取病变触发器和除一种参数类型外的所有参数方面表现出色。PL-Marker++模型在提取病变事件的特征、尺寸和尺寸趋势参数方面分别获得了+∆0.05 F1的提升。PL-Marker++整体性能的提高可归因于通过BERT模型的所有层注入触发器和参数位置信息。

总结

CAMIR语料库凭借其独特的事件结构与概念标准化结合的设计,连接了高度专业的放射学语言与机器学习算法。使海量非结构化的影像报告得以转化为结构化数据,为科研人员、临床医生及医疗软件开发者提供了宝贵的研究素材与开发资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/13642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

excel转pdf并且加水印,利用ByteArrayOutputStream内存流不产生中间文件

首先先引入包&#xff1a;加水印和excel转PDF的 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.12</version></dependency><dependency><groupId>org.apache.poi&l…

2024全新爆款好物推荐,618必买数码好物清单吐血整理!

​距离618购物狂欢节越来越近了&#xff0c;有很多日常价格不菲的产品在这次活动期间都会进行促销活动&#xff0c;尤其是数码类产品&#xff0c;加上618的优惠活动更有吸引力了。不过面对大促的热潮我们消费者在选购商品的同时还是要擦亮眼睛&#xff0c;避免买到质量不好的商…

SSE 与 SASE哪个云原生安全框架更加适合

近年来&#xff0c;随着云计算和网络技术的不断发展&#xff0c;出现了一种新的网络安全解决方案——SASE&#xff08;安全访问服务边缘&#xff09;。SASE是一种将网络和安全功能融合到单个基于云的服务中的框架&#xff0c;旨在提供更加安全、高效和便捷的网络访问体验。SASE…

我的前端封装之路

最近有粉丝提问了我一个面试中遇到的问题&#xff0c;他说面试的时候&#xff0c;面试官问我&#xff1a;你在以前的项目中封装过组件吗&#xff1f;或者做过npm公共库吗&#xff1f;遇到过什么问题吗&#xff1f;当时自己突然觉得好像没什么可回答的啊&#xff0c;但面试结束想…

前端 CSS 经典:弧形边框选项卡

1. 效果图 2. 开始 准备一个元素&#xff0c;将元素左上角&#xff0c;右上角设为圆角。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, i…

thingML的学习——什么是thingML

今天开始建模的学习&#xff0c;thingML是建模的一种工具 &#xff0c;也可以理解为一种建模语言&#xff0c;有自己的语法和语义。 ThingML 支持的多种平台和通信协议&#xff0c;如UART、I2C、MQTT、WebSocket、REST、ROS、Bluetooth、BLE和Zwave&#xff0c;通过插件机制&a…

Spring Cloud Alibaba-07-RocketMQ消息驱动

Lison <dreamlison163.com>, v1.0.0, 2024.4.20 Spring Cloud Alibaba-07-RocketMQ消息驱动 文章目录 Spring Cloud Alibaba-07-RocketMQ消息驱动MQ简介MQ的应用场景常见的MQ产品RocketeMQ的架构及概念 RocketMQ入门RocketMQ环境搭建 SpringBoot 集成 RocketMQ MQ简介 …

来盘点我的校园生活(3)

来公布上期数学题答案:12 你算对了吗&#xff1f; 今天我们班真是炸开了锅。事情是这样的&#xff0c;我今天早晨上学&#xff0c;学校不让早到&#xff0c;但我一个不小心早到了&#xff0c;主任的规定是尽量不早到&#xff0c;早到不扣分&#xff0c;倒要站在那儿背书&…

Linux--软硬链接

目录 0.文件系统 1.软硬链接 1.1见一下软硬链接 1.2软硬链接的特征 1.3软硬链接是什么&#xff0c;有什么作用&#xff08;场景&#xff09; 0.文件系统 Linux--文件系统-CSDN博客 1.软硬链接 1.1见一下软硬链接 1.这是软链接 这个命令在Unix和Linux系统中用于创建一个符号…

基于 Prometheus 的超算弹性计算场景下主机监控最佳实践

作者&#xff1a;左知 超算场景的业务特点 主机监控&#xff0c;或许是监控/可观测领域最传统和普遍的需求。在超算训练&#xff0c;AI 大规模训练的业务场景下&#xff0c;主机监控又有哪些痛点和难点呢&#xff1f;根据我们针对多个大规模超算客户的需求整理&#xff0c;超…

linux系统内存持续飙高的排查方法

目录 前言&#xff1a; 1、查看系统内存的占用情况 2、找出占用内存高的进程 3、解决方法 4、补充&#xff1a;如果物理内存使用完了&#xff0c;会发生的情况 前言&#xff1a; 如果一台服务器内存使用率持续处于一个高峰值&#xff0c;服务器可能会出现响应慢问题。例如s…

当他们在说业务的时候,到底在说什么

业务就是通过提供产品和服务给客户&#xff0c;以获取某种价值&#xff0c;形成业务闭环&#xff0c;并能自负盈亏。 文章会以生动形象的比喻来介绍业务到底是什么。 什么是业务&#xff1f; 业务&#xff0c;就像一场精彩的舞台剧&#xff0c;每个角色都有自己的任务和目标…

QT--TCP网络通讯工具编写记录

QT–TCP网络通讯工具编写记录 文章目录 QT--TCP网络通讯工具编写记录前言演示如下&#xff1a;一、服务端项目文件&#xff1a;【1.1】server_tcp.h 服务端声明文件【1.2】thread_1.h 线程处理声明文件【1.3】main.cpp 执行源文件【1.4】server_tcp.cpp 服务端逻辑实现源文件【…

【最全的excel转json!!!】使用Python脚本提取excel文本中的数据到json中

比如说&#xff1a;我有一个1.xlsx的文件需要转成对应的json格式。 1&#xff09; excel 文件的大概内容&#xff1a; 2&#xff09;保存的方式类似于以下这种情况&#xff1a; 用Python脚本来实现 import pandas as pd import json# 读取Excel文件 excel_path r"D:…

【MySQL精通之路】MySQL8.0升级过程升级了什么

目录 1.升级内容 1.1 mysql系统库 1.2.其他库 2.步骤 2.1 步骤1&#xff1a;数据字典库升级。 2.2 步骤2&#xff1a;服务器升级。 3.mysql_upgrade 3.1 执行正常升级&#xff08;根据需要执行步骤1和2&#xff09;&#xff1a; 3.2 必要时仅执行步骤1&#xff1a; 3…

LLMPerf-为LLM提供可重现的性能指标

LLMPerf-为LLM推理提供可复现的性能指标 翻译自文章&#xff1a;Reproducible Performance Metrics for LLM inference 结合之前的LLMPerf测试大模型API性能的文章进行查看&#xff0c;效果更佳。 1. 摘要 我们见过许多关于LLM性能的声明&#xff1b;然而&#xff0c;这些声明往…

Android面试题之Kotlin泛型和reified关键字

本文首发于公众号“AntDream”&#xff0c;欢迎微信搜索“AntDream”或扫描文章底部二维码关注&#xff0c;和我一起每天进步一点点 //泛型 class MagicBox<T>(item:T){var available falseprivate var subject:T itemfun fetch() : T? {return subject.takeIf { avai…

配置旁挂二层组网直接转发示例(命令行)

业务需求 企业用户通过WLAN接入网络&#xff0c;以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时&#xff0c;不影响用户的业务使用。 组网需求 AC组网方式&#xff1a;旁挂二层组网。DHCP部署方式&#xff1a; AC作为DHCP服务器为AP分配IP地址。汇聚交换机SwitchB作…

深度学习基础之《TensorFlow框架(18)—卷积神经网络(2)》

一、卷积层 1、卷积层&#xff08;Convolutional Layer&#xff09;介绍 卷积神经网络中每层卷积层由若干卷积单元&#xff08;卷积核&#xff09;组成&#xff0c;每个卷积单元的参数都是通过反向传播算法最佳化得到的 卷积运算的目的是特征提取&#xff0c;第一层卷积层可能…

Gradle和Maven项目解决Spring Boot Configuration Annotation Processor not configured警告

问题描述 写了一个配置类,加了注解@ConfigurationProperties(prefix = “xxx”) 后一直报警告:Spring Boot Configuration Annotation Processor not configured 意思是 Spring boot 未配置注解处理器 解决过程 出现这个问题后,百度查了解决方式 1.maven项目 maven项目是…