【纯干货】医疗视觉大模型2023年进展简述|Medical Vision-language Models (VLM)

写在前面——本篇为原创内容,如转载/引用请务必注明出处!!(最后更新于2023年11月16日)
如有错误,欢迎评论区指出!!不胜感激!!
点赞三连谢谢!!!

如有 Medical Image Analysis, Clinical Data Mining, AI in Healtcare, LLMs合作或共同学习意向,欢迎pm私信我,我给你发社交账号~~

Aims: 帮助大家更快地了解目前处在起步阶段的“医学视觉大模型”。可以当作“Perspective article”来阅读。


医学图像辅助诊断是指使用计算机技术(如图像处理、模式识别等)来分析医学成像数据(如X射线、CT、MRI、Histology、Endoscope等),旨在从医学图像中提取有用的特征信息,以帮助诊断疾病和评估治疗效果。这一领域的历史可以追溯到20世纪初,当时X射线和其他放射学技术的发展使得医生开始能够非侵入性地观察人体内部结构。早期,辅助诊断技术主要包括图像增强、降噪和对比度调整。后来,随着数字成像技术的兴起、计算能力的提升和人工智能算法的发展,更高级的技术如三维重建、图像配准、疾病分类、病灶检测与分割、定量分析、可穿戴设备与手术导航等被提出和广泛应用于癌症检测与治疗、神经疾病诊断、心血管疾病评估等诸多医疗细分领域。许多医院和诊所已经将这些技术及其衍生的各种医学图像计算软件整合到日常诊疗流程中,以提高诊断的准确性和患者的治疗效果。Alexander等人(McKinsey & Company, 麦肯锡公司)在2023年一项针对美国 50 名放射科医生的调查中发现(点击跳转至该篇论文),90% 的人表示他们的工作量在过去 3 年里随着扫描次数的增多而有所增加(医学图像干预&辅助诊断的需求还在持续增加)。而医学图像辅助诊断技术的应用则极大地减轻了放射科医生的工作负担,同时使得临床医生可以在更短的时间内获得更准确、包含更多数据和信息的影像诊断报告。MIT调查发现,2020年至2023年美国实施人工智能的医院数量增加了3倍(数据来源是MIT的一个培训/某报刊,点此跳转)。医学图像处理技术逐渐成为了现代医学不可或缺的一部分。根据Global Market Insights (GMI)的报道,2022年人工智能医疗影像市场价值为13.8亿美元,预计2023年至2032年复合年增长率将超过30.5%。

这篇综述内容非常新,强推,易于理解和入门 —— Vision-Language Models for Vision Tasks: A Survey (点击跳转到论文PDF)

传统医学图像辅助诊断方法需要使用特定于任务的标记数据对每个特定任务进行微调(即:fine-tuning for each specific task),而使用 VLM 的新学习范式(paradigm)可以有效利用网络数据(web data)和零样本预测(zero-shot),而无需特定于任务的微调(即:without task-specific fine-tuning)。个人认为,这是医疗视觉大模型区别于传统模型的最大优势,拥有很大的潜力!具体而言,从医学领域预先训练的视觉语言模型中提取知识需要精心设计的提示。 这些提示使用跨领域共享的表达属性,使模型能够传递知识并增强其泛化能力。 这种方法允许视觉语言模型在很少或没有图像样本的情况下识别新物体。 研究表明该技术在领域适应方面的有效性,例如检测医学图像中的对象,包括摄影、内窥镜检查、细胞学、组织病理学和放射学。 这些方法通过精心设计的医疗提示在零样本和少样本性能方面表现出显着优势。

2023年最新医学视觉大模型项目链接 🔗
谷歌 Med-PaLM 2https://sites.research.google/med-palm/
斯坦福大学 GMAIhttps://news.stanford.edu/2023/04/12/advances-generalizable-medical-ai/
微软 LLaVA-Medhttps://github.com/microsoft/LLaVA-Med
上海AI实验室 OpenMEDLab浦医https://stcsm.sh.gov.cn/xwzx/kjzl/20230630/c783c30d8e62494e83073535f841675f.html
北京大学 Qilin-Med-VLhttps://ar5iv.labs.arxiv.org/html/2310.17956#:~:text=The%20first%20large,feature%20alignment%20and%20instruction%20tuning

上述5个是笔者找到的最具代表性的5款针对医学的视觉大模型。欢迎在评论区补充和更新!

Medical VLMs的优势可以概括为

  1. 可以生成非结构化辅助诊断报告(传统的深度学习与医学图像分析方法生成的辅助诊断报告一般是结构化的,即:事先确定并编码要输出的Report的结构与内容)。
  2. 可以通过交互式对话来学习医学图像中的新疾病的特征(例如:罕见病zero-shot场景)。
  3. 促进地区医疗公平(落后国家也更容易享受到一些新兴的foundation models带来的AI利好)。
  4. 传统深度学习/医学图像处理的模型基本都是针对单一疾病的专属模型,虽然准确性高,但耗资巨大。相比之下,医疗视觉大模型是整合了多功能、多疾病、多任务、多模态影像的AI基础大模型,面对few-shot和zero-shot场景也能展现出很鲁棒的表现。结合大模型与传统的医学图像分析模型,针对常见的疾病作出最准确、完整的全流程辅助诊断和决策支持。
  5. 可以为传统的人机交互或可穿戴设备赋能。例如:前人已经将微软HoloLens XR虚拟现实设备结合医学图像辅助诊断软件,用于辅助手术、手术导航等场景。结合大模型的能力会让原有的使用流程更进一步!此外,远程医疗(Telemedicine)和手术机器人或许也会因此而受益。
  6. 其它医疗视觉大模型的优势,可以阅读“上海人工智能实验室”发表的这篇报道,写的很清晰!

缺点与挑战:

  1. 通用性问题。如何保证模型在多样化数据、未知新疾病数据上的有效性?
  2. 如何确保其成为“可信赖的人工智能”,具有较好的模型解释性,不作出对患者具有危害性的决策意见。
  3. 法律伦理、数据隐私(欧盟GDPR、新加坡PDPR等)挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/144425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【SA8295P 源码分析 (三)】125 - MAX96712 解串器 start_stream、stop_stream 寄存器配置 过程详细解析

【SA8295P 源码分析】125 - MAX96712 解串器 start_stream、stop_stream 寄存器配置 过程详细解析 一、sensor_detect_device():MAX96712 检测解串器芯片是否存在,获取chip_id、device_revision二、sensor_detect_device_channels() :MAX96712 解串器 寄存器初始化 及 detec…

K8s Pod 创建埋点处理(Mutating Admission Webhook)

写在前面 工作中涉及到相关的知识在实际的生产中,我们可以有需求对 创建的资源做一些类似 埋点 相关的操作,比如添加一些 Pod 创建时的自定义验证逻辑,类似表单提交验证那样,或者希望对创建的资源对象进行加工,在比如给…

一个怪异的笔记本重启死机问题分析

疫情期间买了个国产的海鲅笔记本,八代i5处理器8269u,显卡是集显里面比较牛的一款,iris 655。 当时买这个笔记本的主要原因是当小主机用的,平时接显示器,用来看网页,写代码,偶尔也能移动&#x…

如何分析伦敦金的价格走势预测?

伦敦金作为国际黄金市场的重要指标,其价格走势一直备受投资者关注。但是,黄金市场的价格变化受到多种因素的影响,因此要准确预测伦敦金的价格走势并非易事。在本文中,将介绍一些常用的方法和工具,帮助您分析伦敦金的价…

金融帝国实验室(Capitalism Lab)V10版本即将推出全新公司徽标(2023-11-13)

>〔在即将推出的V10版本中,我们将告别旧的公司徽标,采用全新光鲜亮丽、富有现代气息的设计,与金融帝国实验室(Capitalism Lab)的沉浸式体验完美互补!〕 ————————————— >〔《公司详细信…

ubuntu20源码编译搭建SRS流媒体服务器

第一、下载源码 下载源码,推荐用Ubuntu20: git clone -b develop https://gitee.com/ossrs/srs.git第二、编译 2.1、切换到srs/trunk目录: cd srs/trunk2.2、执行configure脚本 ./configure2.3、执行make命令 make2.4、修改conf/rtmp.c…

【打卡】牛客网:BM54 三数之和

资料&#xff1a; 1. 排序&#xff1a;Sort函数 升序&#xff1a;默认。 降序&#xff1a;加入第三个参数&#xff0c;可以greater<type>()&#xff0c;也可以自己定义 本题中发现&#xff0c;sort居然也可以对vector<vector<int>>排序。 C Sort函数详解_…

Axure9 基本操作(二)

1. 文本框、文本域 文本框&#xff1a;快速实现提示文字与不同类型文字显示的效果。 2. 下拉列表、列表框 下拉列表&#xff1a;快速实现下拉框及默认显示项的效果。 3. 复选框、单选按钮 4.

Mysql JSON 类型 索引查询 操作

JSON 类型操作 String 类型的 JSON 数组建立索引&查询语句 --索引添加 ALTER TABLE table_name ADD INDEX idx_json_cloumn ((cast(json_cloumn->"$[*]" AS CHAR(255) ARRAY))); --查询 explain select * from table_name tcai where JSON_CONTAINS(json_cl…

Linux 本地zabbix结合内网穿透工具实现安全远程访问浏览器

前言 Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。能监视各种网络参数&#xff0c;保证服务器系统的安全运营&#xff1b;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。 本地zabbix web管理界面限制在只能局域…

关于400G光模块的常见问题解答

最近在后台收到了很多用户咨询关于400G光模块的信息&#xff0c;那400G光模块作为当下主流的光模块类型&#xff0c;有哪些问题是备受关注的呢&#xff1f;下面来看看小易的详细解答&#xff01; 1、什么是400G QSFP-DD光模块&#xff1f; 答&#xff1a;400G光模块是指传输速…

linux下安装python3.8(有坑)

1安装包下载 ###直接官网下载linux版本&#xff0c;找到对应的包 https://www.python.org/downloads/source/2安装包解压 tar -zxvf Python-3.8.0.tgz 3编译安装 1&#xff09;设置安装目录&#xff0c;比如在此创建在 /usr/local/python3 &#xff1a; mkdir -p /usr/loca…

MLIR笔记(2)

3. LVM有趣的代码 3.1. dyn_cast()与cast() C支持类型间的自动转换&#xff08;如operator 声明的转换&#xff09;&#xff0c;但在转换的调用链里自动转换只能调用一次&#xff0c;这固然是避免给编译器带来过分的复杂性&#xff0c;但更重要的是允许自动转换接力调用几乎很…

在windows下vs c++运行g2o的BA优化程序示例

目录 1、前言2、准备工作安装git安装vcpkg&#xff08;1&#xff09;下载&#xff08;2&#xff09;安装&#xff08;3&#xff09;集成至vs 安装cmake 3、安装g2o4、安装opencv&#xff08;1&#xff09;下载&#xff08;2&#xff09;双击安装&#xff08;3&#xff09;环境变…

Behave介绍和快速示例

Behave是一个用于行为驱动开发 (Behavior-Driven Development, BDD) 的 Python 库。使用 Behave&#xff0c;可以编写自然语言格式的使用场景来描述软件的行为&#xff0c;然后用 Python 实现这些场景下的步骤&#xff0c;形成可直接运行的测试。 Behave的目标是帮助用户、开发…

图片转换到PDF

把一系列图片整合到PDF格式 Python代码 import os from io import BytesIO from PIL import Imageos.environ[NLS_LANG] SIMPLIFIED CHINESE_CHINA.UTF8 SUPPORT_SUFFIX ["jpg", "jpeg", "png"]def pic_to_pdf(image_bytes: bytes) -> byt…

【入门Flink】- 09Flink水位线Watermark

在窗口的处理过程中&#xff0c;基于数据的时间戳&#xff0c;自定义一个“逻辑时钟”。这个时钟的时间不会自动流逝&#xff1b;它的时间进展&#xff0c;就是靠着新到数据的时间戳来推动的。 什么是水位线 用来衡量事件时间进展的标记&#xff0c;就被称作“水位线”&#x…

你不懂API接口是什么?怎么和程序员做朋友

说到开发平台就一定离不开接口&#xff0c;作为PM&#xff0c;我们不需要对接口了解的特别细。只需要知道接口是什么&#xff0c;有什么用&#xff0c;有哪些要素就行。 1. 接口是什么 (1) 硬件接口 生活中我们经常会接触接口&#xff0c;最常见的就是HDMI接口和USB接口&…

计算机毕业设计选题推荐-公共浴池微信小程序/安卓APP-项目实战

✨作者主页&#xff1a;IT毕设梦工厂✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

我这些年对于自动化测试的理解

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;交流讨论&#xff1a;欢迎加入我们一起学习&#xff01;&#x1f4e2;资源分享&#xff1a;耗时200小时精选的「软件测试」资…