Google如何做医疗大模型(Med-Gemini)

1. 前言

开发垂直领域模型的方法有好几种,其中医疗、法律等专业是比较能体现模型垂直行业能力的,因此也深受各大厂商的重视。

五一小长假的第一天,Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.org/abs/2404.18416 ) 的论文。说明了微调Gemini模型在医学领域获得多项任务SoTA的成果和方法。论文全文长达58页,作者有30多号人,引用的文献列了10页。让人觉得是个大手笔之作,难免想一探究竟。一些新闻稿更是冠以《医疗AI的一大步》《Med-Gemini :医学大模型里程碑之作,Google今天发布,医学航母正式起航》等等标题。

在这里插入图片描述

受此吸引,花了一天时间认真读了论文。读完之后有些失落,总体感觉上是花了很多力气,具体的成果是为了体现Gemini模型自身能力而做的Demo。这时候才理解了论文题目的真正意思 。Capabilities of Gemini Models in Medicine ,注意Capabilities和Models是复数形式,主要研究的是Gemini这一系列模型在医学上的各种能力,并非是训练出了一个在医疗领域专门的模型。另外,可能是Google在开源方面吃亏吃得比较多,这个项目本身没有开源。不过不重要了,思路是比较关键的。

下面是对这篇论文的解读。水平所限,只能尽力而为。

2. 论文工作概述

论文的大体意思是这样的,如果AI想要医学应用中能够表现好,有几个方面的关键能力:

  • 高级推理能力,这不用解释,好的医生都是推理专家
  • 获取最新的医学知识能力(其实就是RAG),医学知识不断更新,需要用新的研究成果应用在诊断上
  • 理解复杂的多模态数据,因为医学诊断需要很多辅助的多模态数据,比如X光片,心电图等等
  • 长上下文能力,因为医学诊断要看很多病史数据,因此长文本很关键

恰好, Goolge的Gemini某些模型的长文本(Long Context)和多模态能力很不错,所以这个团队就利用这些基础能力,加上一些微调和Agent技术,开发了一系列针对医学领域应用的模型,统称为Med-Gemini。它的能力特点就是上面提到了几条,推理、多模态和长文本/网络检索能力。

这些能力是怎么得到检验的呢,目前有各种针对医学模型的评测(比如参加医生资格考试),Med-Gemini在14个医学基准测试中,有10个基准测试中达到了SoTA,并在每个可以直接比较的基准测试中超过了GPT-4模型家族,而且强调差的不是一点半点,通常领先好几个身位。

除了评测,Med-Gemini的还在医学文本总结和转诊信生成等任务中超越人类专家。(感觉这好像没啥值得一提的啊,换任何一个模型来都可以做到)。

重点需要说明的是, Med-Gemini不是一个模型,是一系列的模型。也就是说,不是在一个模型里实现了既有高级推理能力,又有多模态能力,而是在不同的模型里做到的。是不是一个模型也没那么关键,需要的是一个垂直系统,不是一个垂直模型。

那么是提升基础Gemini模型的能力,让它在医学领域的推理、多模态和长文本能力得到增强呢?不同的方面用了不同的方法:

  • 推理能力:通过自训练和网络搜索集成进行高级推理。这句话有点拗口,也是这篇文章为数不多的亮点,后面再详细解释。
  • 多模态:微调,用各种医疗X光片等数据进行微调。稍微创新点的地方是加了一个编码器,来适应例如心电图啥的其他模态的数据,这段基本上可以忽略;
  • 长上下文:这个更让人觉得是灌水,提出了一个新的inference-time chain-of-reasoning的提示方式,让模型以更好地理解长的电子健康记录(EHRs)。

拆解之后,这篇论文能看的也就只有推理增强部分。

3. 基础和微调模型的对应关系

因为所有的工作都是基于Google的Gemini基础模型之上的,因此先看看Gemini的模型列表。Gemini模型有1.0和1.5两个版本,每一个版本的模型里根据参数量的不同又分为Ultra,Pro和Nano三个档次,但是目前1.5还只有Pro版本。另外Nano是面向移动设备的。

图片

UltraProNano
1.5n/aPreview状态支持语音、图片和文字输入支持文本输出1M token输入上下文n/a
1.0文本模型文本输入,文本输出30K输入上下文文本模型
1.0 Vision多模态模型8k上下文支持图片和文字输入支持文本输出12K输入上下文n/a

下面是论文中的原图,说明了Med-Gemini是在Gemini模型的基础上,分别通过不同的技术手段增强了高级推理能力,多模态和长上下文处理能力而得到的。

图片

但是图上没有说明的是,其实是分别对好几个不同的模型进行了微调,根据文中描述,Med-Gemini和Gemini的对应关系如下:

任务基础模型医学模型技术手段
1无需复杂推理的语言任务Gemini 1.0 ProMed-Gemini-M 1.0微调
2需要高级推理的任务Gemini 1.0 UltraMed-Gemini-L 1.0自训练及不确定性引导搜索
3多模态Gemini 1.5 ProMed-Gemini-M 1.5微调
4长上下文Gemini 1.5 ProMed-Gemini-M 1.5提示工程(推理时推理链技术)
5多模态专用编码器Gemini 1.0 NanoMed-Gemini-S 1.0增加心电图专用编码器

前面提过,其实多模态和长上下文部分没什么特别的东西,有点价值的地方就是第2条,如何把Gemini 1.0 Ultra 训练到Med-Gemini-L 1.0。

3. 如何增加模型专业领域的推理能力

把Gemini 1.0 Ultra训练成为Med-Gemini-L 1.0的方法被作者称为Advanced reasoning via self-training and web search integration (通过自训练及Web搜索的高级推理)。

3.1 自训练方法介绍

这里解释一下自训练,自训练是一个种模型的训练方法,主要用于在标注数据比较少的情况。

假设我们想要训练一个模型来识别猫和狗的图片,但是我们只有少量的标注数据(例如,1000张标注过的猫和狗的图片)。我们希望模型能够泛化到更多的数据上,但是我们没有足够的资源来手动标注更多的图片。

自训练的过程有点武侠小说里左右脚互相踩,然后飞到高处的意思。过程如下:

  1. 初始训练:首先,我们使用已有的标注数据来训练我们的模型。这个模型可能是一个简单的卷积神经网络(CNN)。
  2. 未标注数据的预测:接下来,我们使用这个初步训练的模型来处理大量的未标注数据(例如,10000张未标注的猫和狗的图片)。
  3. 生成伪标签:模型会对这些未标注的图片进行预测,给出每张图片是猫还是狗的概率。我们可以选择置信度最高的预测作为伪标签。例如,如果模型预测某张图片是猫的概率为0.95,我们就可以认为这张图片是猫。
  4. 合并数据集:现在,我们将这些带有伪标签的未标注图片添加到我们的训练数据集中,与原始的标注数据一起形成一个新的、更大的数据集。
  5. 再次训练:最后,我们使用这个新的数据集来重新训练我们的模型。这次训练中,模型会同时学习来自标注数据和伪标签数据的知识。
  6. 迭代:我们可以重复这个过程,每次都使用最新训练的模型来为更多的未标注数据生成伪标签,并使用这些数据来进一步训练模型。

在论文中就采用这种方法来解决医学领域数据较少的问题。

3.2 制定训练目标

训练目标是增强基础模型在医学领域的推理能力,同时还需要能够在必要时通过网络搜索信息来支持自己的判断(实验中应该是指定了搜索的专业网站)。

因为临床诊断需要大量的复杂的推理过程,医生可能会对许多不同的输入进行推理,例如患者症状、医疗和活动史、实验室诊断、先前对治疗的反应以及其他更广泛的因素,例如流行病学数据。同时由于医学知识不断更新*,*理想情况下,医学大模型不仅需要具有强大的推理能力,而且还能够整合最新信息,例如来自权威网络的信息。

其实现在模型利用搜索工具已经没什么特别的了,大量的模型都能够集成搜索工具,关键是让模型准确的模仿医生的决策过程,知道什么时候该去搜索,搜索之后如何使用搜到的信息来支持决策。这需要进行微调。

3.3 收集和生成训练数据

如果需要微调训练就需要准备数据,最好是医生针对病例诊断的思考过程,但是收集这些数据非常困难。医生平时写个病历都是用画符的方式,更别提让他/她来告诉你诊断是怎么下的了。而且训练大模型需要大量的数据,因此训练数据的收集是比较困难的过程。

作者利用MedQA数据集进行了扩展,这个数据集里是一些医生资格考试的选择题。先让一些专家针对数据集里的问题写下自己推理的过程和依据,然后利用这些数据作为示例(应该就是few shot prompt),让模型模仿着去做题,并且要求它把推理过程写下来,如果选择题做错了,那么就把数据过滤掉,如果做对了就保留推理过程。这样就得到了大量可以用于训练的数据。

在生成数据的过程中,会提示模型生成两种数据,一种是不利用搜索,一种是利用搜索,两种方法得到了两种数据集MedQA-R 和 MedQA-RS。你可能会疑惑为什么要生成两种数据类型,没关系,到后面就明白了。

在这里插入图片描述

3.4 迭代训练

在生成的数据上微调Med-Gemini-L 1.0之后,模型遵循few shot prompt中的推理风格和搜索整合的能力得到提升。然后,使用改进的模型重新生成新的合成数据,并迭代重复这个自训练过程,直到模型的性能达到饱和。

3.5 推理

在推理过程中,作者用了一种叫Uncertainty-guided search at inference (不确定性引导搜索的推理)的方法来让模型决定什么时候应该去搜索网络内容来支持推理。

在这里插入图片描述

推理过程分成四个步骤:

  1. 一个问题给出多个推理结果:给定一个带有医学问题的输入上下文提示,先让模型生成多个推理,模型可能每次推理的结果并不一致,但是这个不要紧。对于第一次推理结果,输入提示仅包含指令和问题。对于后续迭代,提示还包括来自下面第(4)步的搜索结果。
  2. 决定是否利用搜索:给定第(1)步的多个推理结果,会根据结果来计算一个值,这个值表示了模型推理结果多大的确定性。这里会设定一个阈值,如果模型的输出非常确定,那么就直接给出结果,如果不确定,那么就说明需要启动搜索。
  3. 不确定性指导的搜索查询生成:如果模型对推理结果不是很确定,那么就提示Med-Gemini-L 1.0生成三个搜索查询关键词,这些查询结果有助于解决不确定性。
  4. 搜索检索:生成的查询关键词提交给网络搜索引擎,检索到的结果被整合到Med-Gemini-L 1.0的输入提示中,用于下一次迭代,从第(1)步重新开始。通过用搜索结果增强提示,使模型能够通过考虑从网络搜索中获得的外部相关见解来完善其响应。

到这里可能你就明白为什么要生成两种推理数据里,第一次推理的时候是不用外部搜索引擎的数据的,只有生成的答案不确定性比较高的时候,才会补充进搜索引擎的额外信息,这时候就需要综合搜索引擎的信息进行推理了。

3.6 评估

这种方法是不是有效需要通过测试来决定,至少在论文里,去刷MedQA和其他题目还是挺有效的,达到了SoTA。

4. 有什么参考意义

其他多模态和长上下文的部分就不解释了。说一说对这篇论文的看法。

论文主要是Google为了展现Gemini模型的一些能力,从实际医学应用上面来看意义不是那么大,至少个人是这么感觉的。但是对于想要自己做垂直大模型的企业来说,还是可以有一些可以参考的地方。

  1. 首先需要定义好训练任务,需要增强模型的哪方面能力,至少论文里非常清晰的定义了他们认为医学领域需要的高级推理、多模态和长文本三个方面能力;
  2. 垂直行业系统,而不是垂直行业大模型。论文里并没有在一个模型上去实现所有的能力,而是分别选择了不同的模型进行微调,最后可以通过Agent整合的方式来实现一个系统,所以不要指望一个模型解决所有问题;
  3. 数据和评测标准很难得,很多论文做的其实是整理数据和评测标准,否则微调就没有方向,而这两个问题可能比想象中要困难很多;
  4. 成本,强如google这种公司,投入了几十号人,也就整出这么个玩意儿…

总体来看,这篇文章学术意义有限,绝对不是很多营销号上吹得什么了不得的突破,但是有一定的实际参考意义。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883857.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚拟光驱软件 PowerISO v8.7.0 中文激活版

PowerISO 是一款虚拟光驱工具及强大的光盘映像文件制作工具。支持创建、编辑、提取、压缩、加密和转换ISO/BIN图像文件。同时自带DISM工具,支持ESD/ISO/WIM/ESD格式转换,制作镜像文件制作U盘启动,支持ISO/BIN/IMG/DAA/WIM等各种常见文件类型。…

题目欣赏 之 初心数

不变初心数是指这样一种特别的数,它分别乘 2、3、4、5、6、7、8、9 时,所得乘积各位数之和却不变。例如 18 就是这样的数:18 的 2 倍是 36,369;18 的 3 倍是 54,549;…… 18 的 9 倍是 162&…

【简历】25届湖南某专升本JAVA简历:项目名称不要过份搞笑!!

注:为保证用户信息安全,姓名和学校等信息已经进行同层次变更,内容部分细节也进行了部分隐藏 另外:我们出这一系列校招简历指导的原因,就是看很多学生被忽悠,没有先定位大厂、中厂还是小公司,导…

目前最新最好用 NET 混淆工具 .NET Reactor V6.9.8

目前最新最好用 NET 混淆工具 .NET Reactor V6.9.8 1、.NET Reactor V6.9.8 功能简介2、官方下载 1、.NET Reactor V6.9.8 功能简介 业界领先的源代码保护 .NET Reactor通过多种方法来防止反编译,这些方法会将 .NET 程序集转换为任何现有工具都无法反编译的进程。…

合并排序算法(C语言版)

#include <stdio.h> void Copy(int *a, int *b, int left, int right) { int i; for(i0;i<right-left1;i) { a[ileft] b[i]; } } // 将 a[left,middle] 和 a[middle1,right]合并到 b[left, right]中 void Merge(int *a, int left, int midd…

Twitter网页版怎么登录?详细步骤与常见问题解答

Twitter作为全球知名的社交媒体平台&#xff0c;通过网页版为用户提供了方便的浏览和互动体验。无论是分享日常动态、关注热门话题&#xff0c;还是查看国际资讯&#xff0c;Twitter都能让您第一时间掌握最新信息。对于新手用户&#xff0c;尤其是刚接触Twitter网页版的朋友&am…

Android Activity 属性 TaskAffiity、allowTaskReparenting

Activity未设置taskAffinity属性 页面跳转顺序 MainActivity -> StandardActivity -> SingleTopActivity-> SingleTaskActivity-> SingleInstanceActivity-> SingleInstancePerTaskActivity MainActivity 标准启动模式 StandardActivity 标准启动模式 SingleTo…

Java中创建线程的两种方式与区别

在Java中&#xff0c;创建线程是并发编程的基础。Java提供了多种方式来创建线程&#xff0c;其中两种最常见的方式是继承Thread类和实现Runnable接口。这两种方式各有优缺点&#xff0c;适用于不同的场景。下面将对这两种方式进行详细的介绍和比较。 一、继承Thread类 1. 基本…

PPT批量替换字体

1.【开始】➡【查找】➡【替换字体】。 2.在弹窗内选择替换字体&#xff0c;和想要换成的字体&#xff0c;设置好点击【替换】&#xff0c;然后点击【关闭】或者左上角的小【】。 3.可以检查一下&#xff0c;每一页的【宋体】或者其他字体&#xff0c;都被改成了【微软雅黑】…

模型 支付矩阵

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_思维模型目录。策略选择的收益分析工具。 1 支付矩阵的应用 1.1 支付矩阵在市场竞争策略分析中的应用 支付矩阵是一种强大的决策工具&#xff0c;它在多个领域的应用中都发挥着重要作用。以下是一个具体的应用案例…

241029算法学习

问题1 &#xff1a; 一根高筋拉面&#xff0c;中间切一刀&#xff0c;可以得到2根面条。 如果先对折1次&#xff0c;中间切一刀&#xff0c;可以得到3根面条。 如果连续对折2次&#xff0c;中间切一刀&#xff0c;可以得到5根面条。 那么&#xff0c;连续对折10次&#xff0c;中…

五指cms安装

我在安装五指cms的过程中发现一个问题&#xff0c;我看到的大部分的安装指导并没有详细的告诉大家该怎样做。所以我写这篇博客来进行一个比较详细的指导。 第一步&#xff1a;解压我们的wuzhicms文件并将其移动到phpstudy的WWW文件目录下。 第二步&#xff1a; 在phpstudy配置…

3个模型的交互式多模型IMM,基于EKF的目标跟踪实例(附MATLAB代码)

文章目录 3个模型的IMM源代码运行结果代码介绍总结 3个模型的IMM 代码实现了基于 I M M IMM IMM&#xff08;Interacting Multiple Model&#xff09;算法的目标跟踪。它使用三种不同的运动模型&#xff08;匀速直线运动、左转弯和右转弯&#xff09;来预测目标的位置&#x…

OpenCV视觉分析之目标跟踪(4)目标跟踪类TrackerDaSiamRPN的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 cv::TrackerDaSiamRPN 是 OpenCV 中用于目标跟踪的一个类&#xff0c;它实现了 DaSiam RPN&#xff08;Deformable Siamese Region Proposal Net…

华为OD机试真题---狼羊过河

关于华为OD机试真题中的“狼羊过河”问题&#xff0c;实际上更准确地描述应该是“羊、狼、农夫过河”问题。这个问题是一个经典的逻辑问题&#xff0c;要求在满足特定条件下&#xff0c;利用一艘有限容量的船将羊和狼全部安全地运送到对岸。以下是对该问题的详细解析&#xff1…

【Linux系统编程】第三十九弹---探索信号处理的奥秘:阻塞信号与sigset_t的深入剖析及实战

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、信号处理 2、阻塞信号 2.1、信号其他相关常见概念 2.2、在内核中的表示 2.3、sigset_t 2.4、信号集操作函数 3、完整…

QNAP威联通NAS设置了仅允许列表内的计算机连接,但是忘记有效IP地址怎么访问

创作立场&#xff1a;原创不易&#xff0c;拒绝搬运~ hello 大家好&#xff0c;我是你们的老伙伴&#xff0c;稳重的大王~ 本期教程为大家介绍一个使用场景的故障解除办法&#xff0c;如果遇到类似问题&#xff0c;可以参考一下解题思路~ 如上图所示位置&#xff0c;不小心设…

LabVIEW非接触式模态参数识别系统开发

基于LabVIEW的模态参数识别系统采用非接触式声学方法&#xff0c;结合LabVIEW软件和高精度硬件&#xff0c;实现机械结构模态参数的快速准确识别。降低了模态分析技术门槛&#xff0c;提高测试效率和准确性。 项目背景与意义: 传统的模态分析方法&#xff0c;如锤击法&#x…

ssm011线上旅行信息管理系统(论文+源码)_kaic

毕业论文&#xff08;设计&#xff09; 题 目&#xff1a;线上旅行信息管理系统设计与实现 姓  名&#xff1a; 专  业&#xff1a; 班  级&#xff1a; …

【RAG实战】优化索引的四种高级方法,快点收藏起来!!

前言 Indexing&#xff08;索引&#xff09;是搭建任何RAG系统的第一步&#xff0c;也是至关重要的一步&#xff0c;良好的索引意味着合理的知识或信息分类&#xff0c;召回环节就会更加精准。在这篇文章中&#xff0c;围绕Indexing&#xff08;索引&#xff09;环节&#xff…