【阿里近100人+花27.1万造的】中文医学数据集 ChineseBLUE 分析

中文医学数据集 ChineseBLUE 分析

    • 基本介绍
    • 数据集分类
    • 构造成本

 


论文:https://arxiv.org/pdf/2106.08087v5.pdf

链接:https://github.com/alibaba-research/ChineseBLUE

基本介绍

需要注意的是,中文生物医学文本在语言上与英文不同,具有其领域特性,这需要专门为中文设计的评估BioNLP基准测试。

在本研究中,我们专注于中文,旨在填补这一空白并开发第一个中文生物医学语言理解基准测试。

我们收集了真实世界的生物医学数据,并提出了第一个中文生物医学语言理解评估(CBLUE)基准:包括命名实体识别、信息抽取、临床诊断标准化、单句/句对分类等自然语言理解任务的集合,以及一个用于模型评估、比较和分析的在线平台。

为了在这些任务上建立评估标准,我们报告了当前11个预训练中文模型的实验结果,实验结果显示,最先进的神经模型的性能远远低于人类的上限。

使用当前最先进的人工智能(AI)技术开发的神经网络模型的性能,比人类的最佳表现要差很多。

数据集分类

NER(命名实体识别):

  • 命名实体识别旨在识别各种实体,包括疾病,药物,综合症等。
  • 选择从中国电子健康记录中标记的cEHRNER数据集和从中国社区问答中标记的cMedQANER数据集。

PI(释义识别):

  • 复述识别旨在识别两个句子是否表达相同的含义。
  • 我们使用cMedQQ,它由搜索查询对组成。

QNLI(问题自然语言推论):

  • 问题自然语言推论旨在识别答案是否对应于问题答案对中的问题
  • 我们使用cMedQNLI,它由问答对组成。

QA(问题解答):

  • 可以将问题回答近似为根据其相似性对候选答案句子进行排名。
  • 我们为质量检查对分配0,1标签,这将转换为二进制分类问题。
  • 我们使用论文“中医问题答案选择的多尺度注意力交互网络”中发布的

cMedQA,其中包括问题及其答案。

IR(Information Retrieval):

  • 信息检索旨在根据搜索查询来检索大多数相关文档。
  • IR可以视为一项排名任务。
  • 我们使用cMedIR数据集,该数据集由具有多个文档及其相对得分的查询组成。

IC(意图分类):

  • 意图分类旨在为查询分配意图标签,可以将其视为多个标签分类任务。
  • 我们使用cMedIC数据集,该数据集由带有三个意图标签(例如,无意图,弱意图和坚定意图)的查询组成。

TC(文本分类):

  • 文本分类旨在为句子分配多个标签。
  • 我们使用cMedTC数据集,该数据集由带有多个标签的生物医学文本组成。

Symptom Diagnosis症状诊断:

  • 在自然语言处理中,症状诊断是一个具有挑战性但意义深远的问题。
  • 我们使用论文“通过全局注意力和症状图增强对话症状诊断”发布的CMDD数据集。

比如:
在这里插入图片描述
dev.json 是原始数据,dev.txt 是清洗后的数据。

disease(疾病):口腔溃疡、感冒、癫痫、鼻炎、三叉神经痛

symptom(症状):红肿、腰酸、神经痛、疼痛、出血

body(部位):嘴、胃肠道、关节、神经、血管

treatment(治疗方法):手术、中医、平肝泻火、降压药物、活血化瘀、消炎药

drug(药物):感冒灵颗粒、络活喜、洛汀新、阿莫西林

test(检查项):胃镜、超声、CT、抽血化验、血压

crowd(人群):小孩、儿童、女性、中老年、宝宝、婴儿

time(时间):昨天、三个月、上周三、今年5月份、三个月

physiology(生理机能):怀孕、血压、血糖、脂肪、消化

feature(特征):严重、局部、轻度、剧烈、部分

department(科室):消化科、神经外科、儿科、五官科、骨科
 

再比如:

比如 CMDD 意图识别:

  • 病症:定义,病因,临床表现,相关病症,治疗方法,推荐医院,预防,所属科室,禁忌,传染性,治愈率,严重性
  • 药物:作用,适用症,价钱,药物禁忌,用法,副作用,成分
  • 治疗方案:方法,费用,有效时间,临床意义/检查目的,治疗时间,疗效,恢复时间,正常指标,化验/体检方案,恢复
  • 其他:设备用法,多问,养生,整容,两性,对比,无法确定

构造成本

中文医学命名实体识别数据集(CMeEE):

注释人员

  • 32名注释者参与
    • 2名医学专家
    • 4名生物医学信息领域专家
    • 6名医学博士
    • 22名计算机科学硕士生

时间与费用

  • 注释过程持续了大约3个月(2018年10月至12月)
  • 附加1个月时间进行数据整理
  • 总费用约为50,000人民币

中文医学信息提取数据集(CMeIE)

注释人员

  • 20名注释者参与
    • 2名医学专家
    • 2名生物医学信息领域专家
    • 4名医学博士
    • 14名计算机科学硕士生

时间与费用

  • 注释过程持续了大约4个月(2018年10月至12月)
  • 总费用约为40,000人民币

临床诊断标准化数据集(CHIP-CDN)

注释人员

  • 医疗团队由益度云组成
  • 所有成员都有医学背景和临床资格证书

时间与费用

  • 工作持续了大约2个月
  • 由内部员工完成,估计总成本约为100,000人民币

临床试验标准数据集(CHIP-CTC)

注释人员

  • 3名注释者
    • 1名生物医学研究员
    • 2名生物医学信息领域的博士候选人

时间

  • 注释工作开始于2019年7月并持续了大约1个月
  • 该工作与注释者的研究项目相关,无需支付费用

语义文本相似性数据集(CHIP-STS)

  • 5名本科生
  • 2周
  • 2.5万

KUAKE-查询意图分类数据集(KUAKE-QIC)

  • 6名全职员工
  • 2周
  • 6600元

KUAKE-查询标题相关性数据集(KUAKE-QTR)

  • 9名(7名众包大学生和2名阿里巴巴全职医疗背景员工)
  • 2周
  • 2.8万

KUAKE-查询查询相关性数据集(KUAKE-QQR)

  • 注释费用为2.2万
  • 其他信息未详细说明

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/778452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQLAlchemy使用MetaData对象与模型类操作数据库表

MetaData 对象和模型类在使用 SQLAlchemy 与 数据库进行交互时,有一些不同之处。使用 MetaData 对象,可直接操作数据库表结构。它允许您定义表名、列名、数据类型等。然后,使用 create_all 方法创建这些表。这种方法更适合在需要完全控制数据…

POSTGRESQL中时间戳的奥秘timestamptz

哈喽,大家好,我是木头左! 一、前言 在日常的数据库操作中,经常会遇到各种时间相关的数据类型,如DATE、TIME、TIMESTAMP等。这些时间类型的处理方式和精度差异,直接影响到对数据的查询和分析结果。今天&…

基于Echarts的超市销售可视化分析系统(数据+程序+论文)

本论文旨在研究Python技术和ECharts可视化技术在超市销售数据分析系统中的应用。本系统通过对超市销售数据进行分析和可视化展示,帮助决策层更好地了解销售情况和趋势,进而做出更有针对性的决策。本系统主要包括数据处理、数据可视化和系统测试三个模块。…

喝酸奶能长寿么?

进入二十一世纪,仍然有两件事情不能祛魅。一个是钻石恒久远一颗永流传的高明传销策略;一个是关于酸奶对人体的各种好处的大肆鼓吹。 我们依照最早最先的原则翻查酸奶有益健康的说法的起源。 1899年9月,俄罗斯微生物学家及免疫学家梅契尼科夫…

29.Python从入门到精通—Python3 面向对象继承 多继承 方法重写 类属性与方法

29.从入门到精通:Python3 面向对象继承 多继承 方法重写 类属性与方法 继承多继承方法重写类属性与方法 继承 在面向对象编程中,继承是指通过继承现有类的属性和方法来创建新类的过程。新类称为子类(或派生类),现有类…

ES学习日记(一)-------单节点安装启动

基于ES7.4.1编写,其实一开始用的最新的8.1,但是问题太多了!!!!不稳定,降到7.4 下载好的安装包上传到服务器或虚拟机,创建ES目录,命令mkdir -p /路径xxxx 复制安装包到指定路径并解压: tar zxvf elasticsearch-8.1.0-linux-x86_64.tar.gz -C /usr/local/es/ 进入bin目录安装,命…

工业智能物联网关如何助力工业防震减灾

地震灾害难以预料,一旦发生往往就损失重大。对于工业领域而言,地震灾害的影响不仅仅是对人员安全的威胁,还包括对生产设施的破坏、生产进程的中断以及伴生的持续性经济损失。 随着5G、大数据、物联网技术的发展,面向工业领域构建一…

CAPL如何使用socket套接字实现TCP通信(数据传输)

书接上回《CAPL如何使用socket套接字实现TCP通信(建立连接)》,当TCP建立连接后,就可以传输数据了。 不管是client还是server,都是使用相同的函数传输应用层数据。 tcpSend(clientSocket, "12345", 5);但这里有一点值得注意:server端传输数据的socket是serverD…

高效批量管理文件,轻松实现文件批量复制并覆盖相同文件名,轻松管理文件

亲爱的用户们,您是否在批量复制文件时常常被相同文件名困扰,手动一个个改名繁琐又费时?现在,我们为您推出一款智能的文件批量改名工具,帮助您轻松处理复制时的相同文件名,让文件管理更从容! 首…

洗车行业在线预约提前下单小程序源码系统 带完整的安装代码包以及搭建教程

随着人们生活水平的提高,汽车保有量不断增加,洗车服务市场需求也日益旺盛。然而,传统的洗车服务方式往往存在排队等待时间长、服务质量不稳定等问题,给消费者带来了不便。因此,开发一款在线预约提前下单小程序&#xf…

基于java+springboot+vue实现的宠物美容机构CRM系统(文末源码+Lw+ppt)23-364

摘要 随着网络科技的不断发展以及人们经济水平的逐步提高,网络技术如今已成为人们生活中不可缺少的一部分,而信息管理系统是通过计算机技术,针对用户需求开发与设计,该技术尤其在各行业领域发挥了巨大的作用,有效地促…

C语言--编译和链接

1.翻译环境 计算机能够执行二进制指令,我们的电脑不会直接执行C语言代码,编译器把代码转换成二进制的指令; 我们在VS上面写下printf("hello world");这行代码的时候,经过翻译环境,生成可执行的exe文件&…

笔记81:在服务器中运行 Carla 报错 “Disabling core dumps.”

背景:使用实验室提供的服务器配 Carla-ROS2 联合仿真的实验环境,在安装好 Carla 后运行 ./CarlaUE4.sh 但是出现 Disabling core dumps. 报错,而且不会出现 Carla 的窗口; 解决:运行以下命令 ./CarlaUE4.sh -carl…

戴维南定理和诺顿定理的解题步骤

首先呢,由于戴维南定理和诺顿定理的思想基本相同,都是把电路进行等效替代,而且戴维南和诺顿可以互相转换,并且解题的时候最常用的还是戴维南定理,所以我们为了减少思考难度,同意用戴维南定理就可以了. 目录 用戴维南定理分析电路的基本步骤: 1.求开路电压U: 2.求等效电阻Req…

PetaLinux安装详解(Xilinx , linux, zynq, zynqMP)

1 概述 PetaLinux 工具提供在 Xilinx 处理系统上定制、构建和调配嵌入式 Linux 解决方案所需的所有组件。该解决方案旨在提升设计生产力,可与 Xilinx 硬件设计工具配合使用,以简化针对 Versal、Zynq™ UltraScale™ MPSoC、Zynq™ 7000 SoC、和 MicroBl…

【机器学习】包裹式特征选择之序列后向选择法

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进…

jvm(虚拟机)运行时数据区域介绍

Java虚拟机(JVM)运行时数据区域是Java程序在运行过程中使用的内存区域,它主要包括以下几个部分: 程序计数器(Program Counter Register): 程序计数器是一块较小的内存区域,是线程私有…

uniapp 中引入第三方组件后,更改组件的样式 -使用/deep/不生效

在我们使用Vue搭建项目的时候,我们经常会用到一些UI框架,如Element,iView,但是有时候我们又想去修改Ul框架的样式,当我们修改样式失败的时候,可以尝试一下/deep/,亲测有效。 那失败的原因是什么…

TCP/IP参考模型(四层及其解析)

文章目录 1、什么是TCP/IP2、四层协议2.1 应用层(应用程序协议)2.2 传输层(源端口↔️目的端口)2.3 网络层(主机↔️主机)2.4 网络接口层(主机↔️网络层) 总结 1、什么是TCP/IP TC…

STM32 串口 DMA 接收不定长数据的一种方法

1. 前言 使用串口接收不定长数据时,可以有多种方法,比如最常见的有额外使能一个定时器,在超过定时范围未收到后续的字节时,认为此帧结束;或者利用 IDLE 中断,当数据空闲时,自动产生中断&#x…