谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类

5月I/O大会上,Med-PaLM 2重磅升级,甚至达到了专家水准。

今天,谷歌揭秘微调后的Med-PaLM,同样在医学问题上一骑绝尘。

研究成果已登Nature。

图片

论文地址:https://www.nature.com/articles/s41586-023-06291-2

这项研究最重要的贡献在于,谷歌提出了全新的MultiMedQA评估基准,以评测大模型在临床方面的能力。

OpenAI带着ChatGPT在通用大模型领域领跑,而AI+医疗这条赛道,谷歌称得上是头部领先者。

有人或许疑问,这和Med-PaLM 2的区别在哪?

论文作者给出了答复,Med-PaLM 2是最新的模型,在USMLE风格的问题上达到了86.5%的准确率,比谷歌自己的Med-PaLM的最先进结果提高了19%。

图片

图片

# 主要贡献

如何评估AI的回答?尤其,在医学领域,对治病方案、医疗操作准确性要求极高。

目前,常见的评价医疗模型最主要的方法,主要依赖单个医疗测试的得分。

这就像把AI当成考生一样,去测试他的水平,然而在真实的医疗场景中,有时候并不能应对自如,甚至是个未知数。

那么,如何将一个AI考生变成一个真正的AI医生,构建一个全面的评估至关重要。

图片

对此,谷歌提出了一个全新的基准测试——MultiMedQA,其中涵盖了医学考试、医学研究等领域的问题和回答。

基于MultiMedQA,研究人员还评估了PaLM及其指令微调变体Flan-PaLM。

接着,通过利用提示策略的组合,Flan-PaLM在MedQA(美国医疗执照考试USMLE)、MedMCQA、PubMedQA和MMLU临床主题上超越了SOTA。

特别是,在MedQA(USMLE)上比先前的SOTA提高了17%以上。

图片

最后,研究人员通过指令提示微调,进一步将Flan-PaLM与医学领域对齐,并提出了全新的医学模型——Med-PaLM。

在人工评估框架下,Med-PaLM对消费者医学问题的回答与临床医生给出的回答相比表现出色,证明了指令提示微调的有效性。

图片

# 医疗大模型最新基准MultiMedQA

**
**

谷歌最新Nature研究的第一个关键贡献:在医学问答背景下评估LLM。

谷歌构建的最新基准MultiMedQA,是由七个医学问答数据集组成的基准。

其中包括6个现有数据集:MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU临床主题 。

值得一提的是,谷歌在此添加了一个全新数据集,即第7个数据集「HealthSearchQA」。

它由常见的搜索健康问题组成,仅这个数据集就包含了3173个常见消费者医学问题。

具体来讲,这些数据集构成如下:

图片

- MedQA数据集由USMLE风格的问题组成,有四个或五个可能的答案。开发集由11,450个问题组成,测试集有1,273个问题。

- MedMCQA数据集包含来自印度医学入学考试(AIIMS/NEET)的194,000多个四选项多项选择题。该数据集涵盖2,400个医疗保健主题和21个医学主题。开发集很丰富,有超过187,000个问题。

- PubMedQA数据集由1,000个专家标记的问答对组成,其中任务是在给定一个问题的情况下产生一个是/否/可能是多项选择题的答案,并将PubMed摘要作为上下文(Q+上下文+A)。

- MMLU包含57个领域的试题。团队选择了与医学知识最相关的子任务:解剖学、临床知识、大学医学、医学遗传学、专业医学和大学生物学。每个MMLU子任务包含四个选项的多项选择题以及答案。

- LiveQA数据集是作为2017年文本检索挑战赛(TREC)的一部分策划的。该数据集由人们提交给国家医学图书馆(NLM)的医学问题组成。

- MedicationQA数据集由常见的消费者关于药物的问题组成。除了问题之外,数据集还包含与药物焦点和相互作用相对应的标注。

为了使用使用MultiMedQA评估LLM,研究人员构建了语言模型PaLM,一个5400亿参数的LLM,及其指令微调模型变体Flan-PaLM。

# 模型开发和性能评估

研究第二个关键贡献是:

通过少样本、CoT、以及自洽性提示策略的组合,Flan-PaLM在MedQA、MedMCQA、PubMedQA和MMLU临床主题上取得了SOTA,超越几个强大LLM基线。

图片

第三个关键贡献是:

研究引入指令提示微调,并构建了Med-PaLM。这是一种用于将LLM与安全关键的医学领域保持一致方法。

MedQA的最新技术

在由具有4个选项的USMLE样式问题组成的MedQA数据集上,Flan-PaLM 540B模型达到了67.6%的多选题正确率,比DRAGON(在其他论文中用过)模型高出20.1%。

与谷歌的研究同时进行的PubMedGPT是一个专门训练于生物医学摘要和论文的27B模型,该模型在具有4个选项的MedQA问题上取得了50.3%的成绩。

它是MedQA的最新技术,而Flan-PaLM 540B比它高出了17.3%。

在MedMCQA 和 PubMedQA中的成绩

**
**

在由印度的医学入学考试问题组成的MedMCQA数据集上,Flan-PaLM 540B在开发测试集上达到了57.6%的成绩,超过了Galactica模型取得的52.9%的最好成绩。

同样,在PubMedQA数据集上,谷歌的模型达到了79.0%的准确率,超过了先前的最先进模型BioGPT21的0.8%(如上图)。

虽然与MedQA和MedMCQA数据集相比,提高似乎不大,但单一评分(single-rater)的人类在PubMedQA上的成绩也只是78.0%,说明在这个任务的成绩可能存在一定的软上限。

** **

在MMLU临床主题中的表现

**
**

MMLU数据集包含来自多个临床知识、医学和生物学相关主题的多项选择问题。

其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等内容。

Flan-PaLM 540B在所有这些子集上都最佳的成绩,在专业医学和临床知识子库中,Flan-PaLM 540B分别达到了83.8%和80.4%的最佳准确率。

下图总结了结果,并与其他LLM进行了比较。

图片

# 消融实验

谷歌对三个多选题择数据集(MedQA、MedMCQA和PubMedQA)进行了几项消融研究,目的是更好地理解他们的结果并确定对Flan-PaLM性能贡献的关键部分。

指令微调改善了性能

**
**

在所有大小的模型中,谷歌发现到指令微调的Flan-PaLM模型在MedQA、MedMCQA和PubMedQA数据集上的性能优于基线PaLM模型。

在PubMedQA数据集中,8B的Flan-PaLM模型的性能领先基线PaLM模型超过30%。

在62B和540B变体的情况下,也发现了类似的显著改进。

如下图所示的这些结果表明了指令微调的强大优势。

图片

谷歌没有对指令提示微调对多项选择准确性的影响进行彻底分析。

在本节中,谷歌的分析是针对Flan-PaLM而不是Med-PaLM的。

规模提升改善医学问题回答的表现

当将模型从8B扩展到540B时,性能提升了约2倍,对于PaLM还是Flan-PaLM模型都是这样的。

这些改进在MedQA和MedMCQA数据集中更为显著,特别是对于Flan-PaLM来说,540B变体的性能比62B变体提高了14%以上,比8B变体提高了24%以上。

鉴于这些结果和Flan-PaLM 540B模型的强大性能,谷歌在后续的实验和消融研究中都会基于这个模型。

图片

思维链提示

研究人员没有发现COT在MedQA、MedMCQA和PubMedQA多项选择数据集上优于标准的少样本提示词策略的提升。

这可能是由于存在许多可能的思路推理路径导向特定答案,随机选择一条路径可能无法产生最准确的结果。

图片

此外,研究人员还探索了使用非医学COT提示的方法。

下图的结果表明,COT提示在引导模型解决这些类型问题方面是有效的,不用向模型添加新的知识。

图片

# 人类评估结果

研究人员从HealthSearchQA中随机选择了100个问题,从LiveQA中随机选择了20个问题,从MedicationQA中随机选择了20个问题作为一个较小的长答案基准,用于详细的人类评估。

那么具体评估结果如何?

理解、检索和推理

为了研究Med-PaLM在医学理解、知识检索和推理方面的能力。

团队邀请了一组临床医生来评估这些回答中包含的医学阅读理解、医学知识检索和医学推理是否正确(一个或多个示例)。

通过对比可以看到,专家给出的答案大幅优于Flan-PaLM,而指令提示微调则显著提升了Med-PaLM的性能。

例如,在正确检索医学知识的证据方面,临床医生的答案得分为97.8%,而Flan-PaLM的得分为76.3%。

然而,经过指令提示微调的Med-PaLM模型的得分为95.4%,缩小了与临床医生之间的差距。

图片

内容不正确或缺失

为了评估模型的答案是否有信息缺失、或者给出不正确回复,来了解生成的答案的完整性和正确性。

与Flan-PaLM相比,临床医生在1.4%的情况下会给出不适当或错误的内容,而Flan-PaLM则为16.1%。

指令提示微调似乎降低了性能,Med-PaLM有18.7%的答案,被认为包含不适当或错误的内容。

图片

相比之下,指令提示微调提高了模型在「遗漏重要信息」方面的性能。

Flan-PaLM答案中有47.6%被判断为遗漏重要信息,而Med-PaLM答案中仅有15.3%遗漏,减小了与临床医生之间的差距。

图片

根据评估,临床医生的答案在11.1%的情况下被认为遗漏了信息。

如下表中展示了一些定性例子,表明LLM的答案在未来的使用场景中可以作为对医生回答患者问题的补充和完善。

对这些发现的一个潜在解释是,指令提示微调教会了Med-PaLM模型生成比Flan-PaLM模型更详细的答案,减少了重要信息的遗漏。

图片

科学共识和安全性

在科学共识方面,临床医生给出的答案中,有92.9%与其一致。

同时,利用全新的指令提示微调技术进行对齐的Med-PaLM,也有92.6%的答案与其一致。

相比之下,只经过通用指令微调的Flan-PaLM,一致性仅有61.9%。

图片

除此之外,指令提示微调也可以让生成的答案更安全。

其中,29.7%的Flan-PaLM回答被认为有潜在的伤害风险,这一数字在Med-PaLM中降至5.9%,与临床医生生成的答案(5.7%)相近。

同样,在伤害可能性的评估中,指令提示微调使Med-PaLM答案能够与专家生成的答案相媲美。

图片

医学人群统计偏见

对于偏见的评估,团队试图了解答案是否包含对特定人群不准确或不适用的任何信息。

对于每个答案,评审员被问及「所提供的答案是否包含对某个特定患者群体或人口群体不适用或不准确的信息」。

在这里插入图片描述

例如,答案是否仅适用于特定性别的患者,而另一性别的患者可能需要不同的信息?,评审员需要给出是或否的回答。

根据这个偏见的定义,Flan-PaLM的答案在7.9%的情况下被认为包含有偏见的信息。

然而,对于Med-PaLM来说,这个数字降至0.8%,与临床医生的答案(在1.4%的情况下被认为包含有偏见的证据)相比,有明显的优势。

普通用户评估

除了专家评估,研究团队还请一组非领域专家(印度的非医学背景普通人)评估答案。

如图所示,Flan-PaLM的答案在只有60.6%的情况下被认为是有帮助的,而Med-PaLM竟有80.3%。

然而,这仍然不如临床医生的答案,医生有91.1%的回复是有帮助的。

同样,Flan-PaLM的答案在90.8%的情况下被认为直接回答了用户问题。而Med-PaLM的比例为94.4%,临床医生的答案在95.9%。

普通用户的评估进一步展示了指令提示微调有助于输出更满足用户的答案,此外还表明,在不断靠近人类临床医生所提供的输出质量方面还有很多工作要做。

在这里插入图片描述

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/24029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

史上最强 AI 翻译诞生了!拳打谷歌,脚踢 DeepL

CoT 推理范式 默认情况下,大语言模型通常是直接给出问题的最终答案,中间推理过程是隐含的、不透明的,无法发挥出大模型最极致的理解能力。如果你用它来充当翻译,可能效果和传统的机器翻译也差不了太多。 如果我们给大模型设计一…

智能引领医疗新纪元:RFID技术在医疗器械管理中的高端应用

智能引领医疗新纪元:RFID技术在医疗器械管理中的高端应用 随着医疗技术的快速发展,医疗器械在医疗行业中扮演着至关重要的角色。然而,如何有效地管理这些医疗器械,确保其安全、准确、及时地服务于患者,一直是医疗机构…

C++设计模式-中介者模式,游戏对象之间的碰撞检测

运行在VS2022,x86,Debug下。 31. 中介者模式 中介者模式允许对象之间通过一个中介者对象进行交互,而不是直接相互引用。可以减少对象之间的直接耦合,同时集中化管理复杂的交互。应用:如在游戏开发中,可以使…

犯了个愚蠢的错 Command dev‘ does not exists

今天我yarn start运行项目 开始报错 然后我开始chat 我按照步骤做 第五步 我的node版本是v18.17.0不算太低 是个比较稳定的版本 我就没有改 第六步 没有做 再运行 yarn start 报错 后来又修改这个错 升级了umi-plugin-react版本 还是报这个错 最后 求助了 带我的姐 发现…

揭秘重庆耶非凡科技:人力RPO项目真的能帮你赚钱吗?

在当今这个快速变化的市场环境中,企业为了降低运营成本、提升管理效率,越来越倾向于将非核心业务外包给专业的服务提供商。其中,人力资源外包(HRO)作为外包领域的重要组成部分,近年来得到了快速发展。重庆耶非凡科技有限公司的人力…

04基于Dockerfile创建自定义镜像并运行

自定义镜像 镜像的分层结构 常见的镜像在DockerHub就能找到, 如果我们自己要部署一个Java项目就要手动把它打包为一个镜像 部署一个Java应用的大概流程:准备一个Linux运行环境(CentOS或者Ubuntu均可)--> 安装并配置JDK --> 上传Jar包 --> 运…

Vue --关于传递参数

多参数传递的两种方法: 第一种:params方法(此方法传递不会在URL路径中显示拼接) 传递参数: this.$router.push({name: "home",params:{key:1} })接收参数: created() {// 获取参数console.log…

node-mysql的批量插入

此前我批量插入都是用类似这样的命令: sqlcmdinsert into table(field1,field2,...) values ? indata[["f1v1","f2v1"],["f1v2","f2v2"],...] mysqlconn.query(sqlcmd,[indata],(err,res)>{...})但是感觉不太舒服&…

库存管理III ---- 分治-快排

题目链接 题目: 分析: 这道题本质上是一个topK问题, 我们能够想到三种解决办法 解法一: 排序 解法二: 堆 解法三: 快速选择排序, 时间复杂度最好, 而且题目要求返回的顺序不限, 所以这个方法最好数组中的第K个最大元素 ---- 分治-快排-CSDN博客, 我们在这道题中学习了快速选择…

速卖通618新店销量暴增秘诀:自养号测评的关键要素

618速卖通新店开业已20天,却迟迟未能迎来首单,这无疑让商家倍感焦虑。面对这一困境,商家需冷静分析原因,并采取有效措施提升店铺曝光度和吸引力,下面具体说说做。 一、速卖通新店20天了没出单怎么办? 商家…

python单元测试

需要提前配置一下环境:单元测试Unittests TestCase测试用例 import unittestdef my_sum(a, b):return a bclass Test(unittest.TestCase):def test_001(self):print(my_sum(3, 6))def test_002(self):print(my_sum(1, 3))注意类中测试方法都必须以test开头 Test…

四川汇聚荣聚荣科技有限公司综合实力如何?

在探讨一个公司的综合实力时,我们不仅关注其经济表现,还应深入分析其技术实力、市场地位、创新能力、团队素质以及社会责任感等多个维度。四川汇聚荣聚荣科技有限公司作为一家立足于科技领域的企业,其实力究竟如何呢?接下来的内容将围绕这一…

【C语言】详解static和extern关键字

文章目录 1. 前言2. 作用域和生命周期2.1 作用域2.1.1 全局变量和局部变量 2.2 生命周期 3. static关键字3.1 static修饰的局部变量 4. extern关键字5. extern和static关键字的相互作用5.1 static修饰函数 6.总结 1. 前言 可能在你遇到这篇文章之前,你可能并未听过…

基于jeecgboot-vue3的Flowable流程-已办任务(二)

因为这个项目license问题无法开源,更多技术支持与服务请加入我的知识星球。 接上一节,这个部分主要讲功能代码 1、注册列表数据显示 //注册table数据const { prefixCls, tableContext, onExportXls, onImportXls } useListPage({tableProps: {title: …

1898java疫情防控管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java 疫情防控管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助采用了java设计,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发…

顶顶通呼叫中心中间件-如何配置识别不同语种的ASR

文章目录 前言联系我们创建不同语种的语音识别任务开始对接识别不同语种的ASR重启 asrproxy 程序使用识别不同语种的ASR 前言 之前讲过顶顶通的 asrproxy 程序如何对接第三方的ASR,比如:阿里云的ASR。不知道如何对接的,可以参考:…

idea2023如何创建普通maven工程项目

解决 1.创建新项目 1.进入创建项目 File -> new -> project 2,project 中有 build system 选择maven 2.在已有项目中创建普通maven工程 1.右键项目选择 new -> Module 2.选择 new Module 其实与新建maven工程没什么区别 em:问题 idea以前的版本是在Mav…

“能监测、会预警、快处置”,51WORLD智慧应急数字孪生解决方案

我国自然灾害多发,安全生产基础薄弱。加之城市运行日益复杂,安全隐患、安全问题不断涌现,探索构建全新的应急管理体系和能力迫在眉睫。 面对新形势,依托数字孪生、云计算、大数据、人工智能等新一代信息技术打造统分结合、协调联…

别让你的品牌默默无闻,掌握建设与营销的关键技巧……

管理学大师彼得德鲁克曾经说过,“企业两个最重要的功能是创新和营销,其他一切都是成本。” 在商业领域中,有很多类型的营销。 它们中的每一个都不同,且都是有特定场景的。 有些用于区别于竞争对手,有些用于适应用户…

本地运行feishu-chatgpt项目结合内网穿透实现无公网IP远程访问

文章目录 前言环境列表1.飞书设置2.克隆feishu-chatgpt项目3.配置config.yaml文件4.运行feishu-chatgpt项目5.安装cpolar内网穿透6.固定公网地址7.机器人权限配置8.创建版本9.创建测试企业10. 机器人测试 前言 本文主要介绍如何在飞书中创建chatGPT机器人并且结合内网穿透工具…