基于Google Gemini 探索大语言模型在医学领域应用评估和前景

概述

近年来,大规模语言模型(LLM)在理解和生成人类语言方面取得了显著的飞跃,这些进步不仅推动了语言学和计算机编程的发展,还为多个领域带来了创新的突破。特别是模型如GPT-3和PaLM,它们通过吸收海量文本数据,已经能够掌握复杂的语言模式。人工智能技术的迅猛发展不断推动着LLM的进化,并加速了这一领域的专业创新。这些进步是随着模型规模的扩大、数据量的增加以及计算能力的提升而逐步实现的,其中许多尖端模型都基于变压器(Transformer)架构,并采用了自我监督学习技术。
在医学领域,大规模语言模型的应用展现出了创新性和巨大的潜力。它们通过分析庞大的医学文献和整合新知识,有潜力为医学界带来革命性的认识。研究人员正在积极探索如何利用这些模型来补充医学专业知识,并提升医疗服务的质量。
然而,这一新兴技术领域也面临着不小的挑战。例如,人们质疑大规模语言模型是否能够以专家水平处理医学知识,以及它们是否可能产生误导性信息。了解这些技术的潜力和局限,对于在医学领域负责任地应用语言模型至关重要。
本文聚焦于谷歌的Gemini模型,深入探讨了大规模语言模型在医疗领域的应用潜力与挑战。Gemini作为一个先进的多模态语言模型,本文通过一系列严格的基准测试,对其能力进行了全面的评估,旨在揭示其在医疗领域的长处与短板。
研究结果证实了Gemini在理解多样医学主题方面的卓越能力,同时也指出了它在需要深层次专业知识的领域中的局限性。本文深入分析了Gemini及其他大规模语言模型在医疗领域的应用前景,并强调了它们的优势与面临的挑战,期望能为讨论人工智能技术在医疗领域未来发展提供有益的视角。

Gemini

这里将深入探讨Gemini模型的结构、性能,并讨论如何评估其推理能力。Gemini模型采用了尖端的多模态架构,并且充分利用了谷歌先进的TPU(张量处理单元)硬件,以实现复杂的分析和推理任务。
项目地址:https://github.com/promptslab/rosettaeval
论文地址:https://arxiv.org/pdf/2402.07023.pdf

双子座架构

  • 基础架构:Gemini模型基于先进的Transformer解码器,能够处理长达32,000个标记的上下文。这种设计使其能够理解和生成复杂的语言结构。
  • 多模态能力:模型能够无缝整合文本、图形和音频数据,这在处理医学信息时尤为重要,因为医学数据经常包含图像(如X光片、CT扫描)和文本(如病历、研究论文)。
  • 可靠性与效率:Gemini的设计注重减少硬件故障和数据失真,提高了模型的可靠性和效率。

医学标杆

  • MultiMedQA:这是一个评估临床推理能力的医学质量保证数据集,包含了如USMLE(美国医学执照考试)和NEET-PG(印度研究生医学入学考试)等考试中的问题,这些问题需要广泛的跨学科知识。
  • MedQA和MedMCQA:这些数据集分别来自美国和印度的医学许可考试,提出了具有挑战性的临床推理问题。
  • PubMedQA:包含1,000个问题,这些问题综合了研究摘要中的见解,用于评估模型在封闭领域的推理能力。
  • MMLU:这是一个测试基础科学知识与医学理解整合能力的广泛领域数据集,也是一个全面的医学问答数据集,用于测试医学推理能力。

特殊基准

  • Med-HALT:这是一个评估潜在危险推理倾向的基准,基于“首先,不造成伤害”这一医学原则设计。它通过推理幻觉测试(RHT)和记忆幻觉测试(MHT)来评估模型的逻辑分析能力,并在适当的时候承认不确定性。
  • 视觉问答(VQA)基准:使用来自《新英格兰医学杂志》(NEJM)图像挑战赛的100道多项选择题,评估Gemini的多模态推理能力。这包括图像理解、医学知识回忆和逐步推理的测试。

性能评估

通过上述基准测试,Gemini展示了其创新方法如何解决医疗领域的复杂问题。这些测试不仅证明了Gemini的推理能力,还突出了其在处理医疗信息方面的准确性和可靠性。

总体来说,Gemini模型的评估显示了其在医学领域的应用潜力,同时也揭示了在实际应用中可能遇到的挑战。随着进一步的研究和发展,Gemini和其他类似的大规模语言模型有望成为医学专业人员的有力辅助工具,帮助他们提供更高质量的医疗服务。

实验结果

这里分析 Gemini 在 MultiMedQA、Med-HALT 幻觉和医学视觉问题解答 (VQA) 基准测试中的表现,并将其与其他模型进行比较。

首先,让我们看看 Gemini 在 MultiMedQA 基准测试中的表现。下图显示了 Med-PaLM 2、GPT-4 和 GeminiPro的 MultiMedQA 分数。 Gemini Pro 在各种医疗主题的 MultiMedQA 基准中都取得了显著的成绩。

下表还将 Gemini Pro 的结果与 Flan-PaLM、Med-PaLM 和 Med-PaLM 2 的结果进行了比较。Gemini Pro 在 MedQA(USMLE)数据集上的得分率为 67.0%,是 MedPA-LM2 的最高分(高达 86.5%),以及 86.1% 的 GPT-4(5-shot),与 GPT-4 的最高分(高达 86.5%)无法相比。这一巨大差异表明,Gemini Pro 在处理复杂、多步骤的美国国家医学考试式问题方面的能力还有待提高。

MedMCQA 数据集的覆盖范围也很广,是一个特别具有挑战性的环境:Gemini Pro 在 MedMCQA 数据集上的得分率为 62.2%,与排行榜上的其他模型相比差距很大。例如,ER 和 best 在 Med-PALM 2 上的得分都达到了 72.3%,表明其在此环境下具有更强的理解和处理能力。此外,GPT-4 模型(包括基础版和 5 连拍版)的表现也很出色,得分率在 72.4% 到 73.7% 之间。这些结果表明,要在 Gemini MedMCQA 数据集上取得更好的性能,还有一定的改进空间。

PubMedQA 数据集也使用是/否/表格式,这给二元和三元问题带来了独特的挑战;Gemini Pro 在该数据集上的得分率为 70.7%,Med-PaLM 2 的最高得分率为 81.8%,而 5GPT-4-base 为 80.4%。这种性能差异表明,Gemini Pro 需要提高处理二元和三元回答的能力,以及处理科学文献和临床领域问题的能力。

此外,在 MMLU 临床知识数据集上,Gemini Pro 的表现不如 Med-PaLM 2 和 5-shot GPT-4 等最先进的模型。GPT-4-base都达到了 88.7%。在分析特定子域时,这一趋势依然存在。在医学遗传学评估中,Gemini Pro 的准确率为 81.8%,而 5 发GPT-4-base 的正确率为 97.0%。同样,在解剖学评估中,Gemini Pro 的准确率为 76.9%,但比 5 发GPT-4 base85.2% 的准确率低 8%。在专业医学和大学生物学等其他类别中也存在类似的性能差距,Gemini Pro 无法赶上顶级模型。此外,在大学医学类别中,Gemini Pro 的得分率为 79.3%,显示出合理的能力,但与 Med-PaLM 2 和 GPT-4 变体等模型的顶级性能相比还有差距。这些结果表明,Gemini Pro 在处理医疗数据方面具有很强的基本能力,其架构也很有潜力。不过,从 Med-PaLM 2 和 GPT-4 等机型的最佳性能来看,显然还有改进的余地。

此外,还进行了与开源大规模语言模型的对比分析。在此,我们使用了一系列最先进的模型,包括 Llama-2-70b、Mistral-7bv0.1、Mixtral-8x7b-v0.1、Yi-34b、Zephyr-7b-beta、Qwen-72b 和 Meditron-70b,以评估它们的零-射和 FewShot 的能力。通过使用 MultiMedQA 基准进行标准化分析,评估了 Zero-Shot 和 FewShot 的能力,以量化已发布的 L-large 语言模型的能力和局限性。下图分别显示了 Zero-Shot 和 FewShot 的性能。

(零投篮命中率)。

(少儿摄影表演)。

跨数据集的性能:我们在一系列医学数据集上测试了许多开源模型,以评估它们的四射和零射能力;在五射学习基准中,Qwen-72b 的表现始终如一。Qwen-72b的灵活性和从少量优秀实例中吸收知识的能力表明,它在特定医学知识领域的广泛人工智能能力与特定医学专业知识的细微要求之间架起了一座桥梁。

零拍与四拍提示:零拍与四拍训练结果的比较揭示了基于例子的训练对模型性能的重要性 Yi-34b 和 Qwen-72b 等大规模语言模型表明,引入少量例子就能明显改善性能。这些结果表明,基于示例的学习在提高模型的准确性和推理性能方面发挥着重要作用,尤其是在医学等专业领域。

针对特定模型的见解:评估结果表明,在不同的医学问题类型和数据集上,每个模型都表现出独特的优缺点;Gemini Pro 在多个数据集上表现出一致的性能,并具有很强的适用于不同情况的能力,但在某些领域,尤其是 Yi-34b 等模型的效果不佳。另一方面,Mixtral-7b-v0.1 等模型在 PubMedQA 数据集中显示出巨大的潜力,可以对科学文章进行有效的分析和推断。此外,Mixtral-8x7b-v0.1 在 MMLU 临床知识和 MMLU 大学生生物学上的表现尤为突出,显示了其吸收复杂医学信息的能力;Qwen-72b 处理多种类型医学问题的能力很强,无需事先举例;Mixtral-8x7b-v0.1 处理各种医学问题的能力也很强,无需事先举例。该模型在 MMLU 大学生物数据集上的表现无与伦比,准确率高达 93.75%,并能很好地理解复杂的生物概念。

总结

论文对Gemini模型的功能进行了全面的基准测试,揭示了其在医疗领域的应用潜力,同时也指出了未来研究中需要解决的一些局限性。以下是对这些局限性的进一步讨论,以及它们对未来研究方向的影响:

局限性

  1. Gemini Pro与Gemini Ultra:当前的评估仅限于Gemini Pro的功能,而没有充分利用更先进的Gemini Ultra功能。这意味着,对于模型的完整能力,我们的理解可能还不够全面。未来的研究可以通过访问Gemini Ultra的API,来探索其更高级的功能,从而获得更深入的理解。

  2. 长问题评分:在多个医学质量评估中,对较长问题的评分是一个重要的方面,但当前研究并未包括这一点。未来研究应该扩展到这一领域,以更全面地评估模型处理复杂查询的能力。

  3. 实时数据和先进技术:使用实时数据和如检索增强生成(RAG)等先进技术,可能会进一步提升模型的性能。未来的研究可以探索这些技术如何与Gemini模型结合,以提高其在医疗领域的应用效果。

  4. VQA任务的样本量:视觉问答(VQA)任务中使用的样本量相对较少。未来的研究需要考虑更大的数据集,以更准确地评估模型的多模态推理能力。

解决局限性的重要性

解决上述局限性对于全面了解Gemini模型的潜力至关重要。它们将有助于为医疗应用开发更先进的人工智能工具,从而提高医疗服务的质量和效率。

Gemini模型的评估结果

研究还根据医疗领域的多个基准对Gemini模型进行了评估。结果显示,尽管Gemini在一系列医疗主题上表现出了良好的理解力,但在某些方面与其他领先模型相比还存在不足。特别是,模型在某些情况下可能会产生误导性的信息(幻觉),因此提高其可靠性和可信度是非常重要的。

人工智能与人类临床判断力

这项研究为医学多模态模型评估奠定了基础,并为促进未来发展提供了一个公共工具。最终,尽管人工智能技术在医疗领域具有巨大的潜力,但它无法取代人类的临床判断力和同理心。然而,精心设计的人工智能辅助工具可以提高医疗专业人员的专业技能,支持医学的治疗和服务使命。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/828158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BUUCTF---misc---[SWPU2019]我有一只马里奥

1、下载附件是一个.exe文件 2、运行之后可以看到桌面生成了1.txt文件,文件里面有如下内容 3、经过信息搜索:NTFS(New Technology File System)是一种由Microsoft开发的专有日志文件系统。根据它的提示,应该是把flag.tx…

B2弹幕插件优化版WordPress插件

源码下载:B2弹幕插件.zip 这是b2独有的站点信息弹幕插件,专门用来在首页显示站点动态的一款个性化 WordPress插件。喜欢的可以下载回去进行二次开发,还是蛮不错的 基于wordpress 7B2主题开发的一款弹幕插件/气泡插件 功能一览 插件安装&a…

三、CPU基础-缓存

计算机中缓存一般分为两个部分 1.内存 2.CPU Cache 一、CPU Cache分级 CPU Cache 通常分为大小不等的三级缓存,分别是 L1 Cache、L2 Cache 和 L3 Cache。 L1 Cache 和 L2 Cache 都是每个 CPU 核心独有的(通常会分为「数据缓存」和「指令缓存」&#…

介绍Phi-3:微软重新定义小型语言模型(SLM)的可能性

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

云备份day05

📟作者主页:慢热的陕西人 🌴专栏链接:C云备份项目 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 主要内容实现Json实用类的设计,以及服务端的设计和实…

【电控笔记5.6】Butterworth滤波器

Butterworth滤波器 需求:在增益交越频率拥有最小的相位滞后 波器经常被使用原因是 Butterworth 滤波器对于给定阶数,拥有最倾斜的衰减率而在伯德图又不会产生凸峰,同时在低频段的相位滞后小,因此本节将为各位介绍 Butterworth 低…

CTFshow-PWN-栈溢出(pwn43)

32位的 system(); 但是好像没"/bin/sh" 上面的办法不行了,想想办法 检查:32 位程序 ida 分析: 跟进 ctfshow 函数 定义了一个长度为 104 的字符数组 s,gets() 函数被用来从标准输入(键盘)中读取…

OpenCompass 大模型评测实战——笔记

OpenCompass 大模型评测实战——笔记 一、评测1.1、为什么要做评测1.2、如何通过能力评测促进模型发展1.2.1、面向未来拓展能力维度1.2.2、扎根通用能力1.2.3、高质量1.2.4、性能评测 1.3、评测的挑战1.3.1、全面性1.3.2、评测成本1.3.3、数据污染1.3.4、鲁棒性 二、OpenCompas…

【漏洞复现】云时空社会化商业ERP系统LoginName SQL注入漏洞

漏洞描述: 云时空社会化商业ERP系统loginName存在SQL注入漏洞,攻击者可以通过此漏洞获取数据库敏感信息。 搜索语法: Fofa-Query: app"云时空社会化商业ERP系统" 漏洞详情: 1.云时空社会化商业ERP系统。 2.漏洞POC&#xff1a…

迪拜Token2049展会圆满落幕,MVP成唯一MEMECOIN项目,闪耀全场!

近日,据多家媒体报道,于全球财富聚集地迪拜举行的全球性大型区块链会议TOKEN2049圆满落幕。来自全球的5000多家公司和100多个国家10000名参与者共同参会,讨论未来30年至50年关于区块链行业的宏大未来。 新晋MEMECOIN项目MAGA VP(…

【NLP】大语言模型基础之GPT

大语言模型基础之GPT GPT简介1. 无监督预训练2. 有监督下游任务微调 GPT-4体系结构1. GPT-4的模型结构2. GPT-4并行策略3. GPT-4中的专家并行GPT-4的特点 参考连接 以ELMo为代表的动态词向量模型开启了语言模型预训练的大门,此后,出现了以GPT和BERT为代表…

Spring - 3 ( 12000 字 Spring 入门级教程 )

一:Spring Web MVC入门 1.1 响应 在我们前⾯的代码例子中,都已经设置了响应数据, Http 响应结果可以是数据, 也可以是静态页面,也可以针对响应设置状态码, Header 信息等. 1.2 返回静态页面 创建前端页面 index.html(注意路径) html代码 …

SpringMVC基础篇(二)

文章目录 1.Postman1.基本介绍Postman是什么? 2.Postman快速入门1.Postman下载点击安装自动安装在系统盘 2.基本操作1.修改字体大小2.ctrl “” 放大页面3.进入创建请求界面 2.需求分析3.具体操作4.保存请求到文件夹中1.点击保存2.创建新的文件夹3.保存成功 3.使用…

嵌入式4-24

作业: 整理思维导图 定义一个矩形类Rec,包含私有属性length,width,有以下成员函数: void set_length(int l); //设置长度 void set_width(int w); //设置宽度 int get_length(); //获取长度 int get_width(); //获取宽…

【上海大学计算机组成原理实验报告】四、指令系统实验

一、实验目的 了解指令结构、PC寄存器的功能和指令系统的基本工作原理。 学习设计指令的方法。 二、实验原理 根据实验指导书的相关内容,对于部分使用频率很高,且只用几条微指令即可完成的简单操作,可以把这部分简单操作的微指令序列固定下…

C#窗体中动态按钮的设计方法:创建特殊窗体

目录 1.动态按钮的设计方法 2.实例 (1) Resources.Designer.cs (2)Form1.Designer.cs (3)Form1.cs (4) 生成效果 在窗体界面中,通常以按钮来代替菜单栏的功能&…

华卓荣登「2024数商典型应用场景“乘数榜”」

4月18日,2024未来数商大会在杭州未来科技城学术交流中心举行,由浙江省科学技术协会指导,未来数商大会组委会主办,浙江省数字经济学会、国脉研究院承办。中国工程院院士陈纯、中国互联网协会副理事长高新民、中国社科院信息化研究中…

网工内推 | 深圳网工专场,上市公司、国企,安全认证优先

01 深圳市同为数码科技股份有限公司武汉分公司 招聘岗位:网络工程师 职责描述: 1、负责网络设备的管理、调试、配置、维护等; 2、负责信息安全网络安全设备、系统的运维; 3、负责整体网络系统技术的相关工作,包括架构…

python学习笔记(集合)

知识点思维导图 # 直接使用{}进行创建 s{10,20,30,40} print(s)# 使用内置函数set()创建 sset() print(s)# 创建一个空的{}默认是字典类型 s{} print(s,type(s))sset(helloworld) print(s) sset([10,20,30]) print(s) s1set(range(1,10)) print(s1)print(max:,max(s1)) print(m…

Docker的介绍及应用

1.什么是Docker 我们在部署大型项目的时候,肯定会遇到这种问题,大学项目组件较多,运行环境复杂,部署时会碰到一些问题:例如node、redis、mysql等这些应用都有自己的依赖和函数库。这种复杂的依赖关系很容易出现兼容问…