小罗碎碎念
本期推文主题:人工智能在多模态与多组学中的最新研究进展
今天这期推文比较特殊,起来就开始干活,只能跑来会场写了。
小罗观点
今天这期推文覆盖面挺广的,前四篇与肿瘤治疗相关,并且两篇都直接与免疫微环境
相关,第五篇和第六篇则分别研究了AI在神经性疾病
和心血管领域
的应用进展。这里小罗想提一嘴,今天没有选择肿瘤的复发/转移
的文章,但是我们要清楚,如果想要AI介入研究,那么也是需要多模态/多组学
技术才能解决的。
一、PathChat|病理学领域专用的多模态生成式人工智能(AI)辅助系统
文献概述
这篇文章介绍的一种专门为病理学领域设计的,名为
PathChat
的多模态生成性人工智能(AI)辅助系统。
PathChat由一个基础视觉编码器、一个预训练的大型语言模型以及一个多模态投影模块组成,通过在超过456,000条视觉语言指令上的微调来构建。这些指令包括999,202个问答转换,覆盖了多种组织来源和疾病模型的多项选择诊断问题。
研究者们比较了PathChat与其他几种多模态视觉语言AI辅助系统以及GPT4V(驱动商业化多模态通用AI助手ChatGPT-4的模型)的性能。结果显示,PathChat在多项选择诊断问题上达到了最先进的性能,并且在开放式问题和人类专家评估中,PathChat生成的回应更为准确,更受病理学家的偏好。
PathChat作为一个交互式的、通用的视觉-语言AI辅助系统,能够灵活处理视觉和自然语言输入,有潜力在病理学教育、研究和临床决策中发挥重要作用。例如,PathChat能够摄取组织病理学图像,提供形态学外观的初步评估,识别恶性肿瘤的潜在特征,并根据用户提供的临床参数和组织部位提供鉴别诊断建议。此外,PathChat还能够根据这些测试结果做出最终的诊断推断。
文章还讨论了计算病理学领域的进展
包括数字切片扫描的增加、AI研究的快速进展、大型数据集的易用性以及高性能计算资源的显著提升。这些进展推动了深度学习在以下方面的应用:
- 癌症亚型和分级
- 转移检测
- 生存和治疗反应预测
- 肿瘤起源预测
- 突变预测
- 生物标志物筛查
PathChat的开发和评估为计算病理学领域提供了新的方向
PathChat强调除了强大的视觉处理能力之外,自然语言和人类交互也应该作为AI模型设计和用户体验的关键组成部分。
未来的研究可能会进一步提高PathChat和基于MLLM的AI助手的能力,例如通过支持输入整个千兆像素WSI或多个WSI,以及通过持续训练与最新知识保持同步,或使用检索增强生成技术与不断更新的知识数据库结合。
重点关注
PathChat系统两个主要方面的概览:
a. 指令遵循数据集的策划:
研究团队创建了目前最大的专门针对病理学领域的指令微调数据集,包含456,916条指令和相应的回应。这些指令和回应覆盖了多种形式,例如多轮对话、多项选择问题和简短回答。这些数据来自不同的来源,并且多样化,以确保PathChat能够处理各种类型的查询。
b. PathChat的构建:
为了构建一个基于多模态大型语言模型(MLLM)的视觉语言AI助手,研究团队采用了以下步骤:
- 从最先进的仅视觉自监督预训练基础编码器模型UNI开始,进行进一步的视觉-语言预训练,类似于CONCH模型。
- 将由此产生的视觉编码器与一个拥有130亿参数的预训练Llama 2大型语言模型(LLM)相连,通过一个多模态投影模块(图中未显示)形成完整的MLLM架构。
- 使用策划的指令遵循数据集对MLLM进行微调,构建了PathChat,这是一个专门用于人类病理学的视觉语言AI助手。
总的来说,Figure 1 展示了PathChat如何通过结合大规模的指令数据集和先进的MLLM架构,成为一个能够理解和回应病理学相关问题的AI系统。
二、从多组学角度解析肿瘤免疫微环境,改进下一代CAR-T细胞免疫疗法
以下是文章的第一作者和通讯作者及其对应的单位的列表:
文献概述
这篇文章是一篇关于肿瘤免疫微环境(TIME)的综述。
文章主要探讨了从多组学角度解析肿瘤免疫微环境,以及如何利用这些知识来改进下一代CAR-T细胞免疫疗法。
-
肿瘤免疫微环境(TIME)的重要性:TIME由肿瘤内的免疫组分构成,对肿瘤的发生、发展、转移和治疗反应起着重要作用。
-
CAR-T细胞免疫疗法:这种疗法通过改造患者的T细胞,使其能够识别并攻击特定的癌细胞,已在血液恶性肿瘤治疗中取得革命性的成功,但在实体瘤治疗中仍面临挑战。
-
TIME的异质性:TIME的异质性是导致CAR-T细胞疗法在实体瘤中效果不佳的原因之一。
-
多组学技术的应用:随着单细胞RNA测序、流式细胞术和分子成像等技术的发展,研究者能够更深入地了解TIME中的细胞亚群和空间定位。
-
机器学习在TIME研究中的作用:机器学习有助于揭示TIME的特征和免疫抵抗机制,从而可能提高CAR-T细胞疗法在实体瘤中的临床效果。
-
TIME的分类和空间结构:TIME可以根据免疫细胞的组成和炎症反应的特点进行分类,包括
浸润排除型
(I-E)、浸润炎症型
(I-I)和三级淋巴结构
(TLS)TIME。 -
免疫细胞和免疫检查点在TIME中的分布:研究免疫细胞在肿瘤中的位置、免疫检查点的分布,以及它们与肿瘤细胞之间的距离,对于理解肿瘤免疫活性和临床治疗反应至关重要。
-
多组学特征塑造TIME:肿瘤和宿主的特征,如基因突变、遗传学和微生物组,可能以微妙的方式促进特定的肿瘤免疫生态系统。
-
提高CAR-T细胞疗法效果的策略:文章讨论了如何从多组学数据出发,优化CAR-T细胞疗法,包括选择最佳靶抗原、维持T细胞代谢活性、抵抗TIME中的免疫抑制等。
-
结论和展望:尽管免疫疗法取得了显著进展,但一些患者仍然遇到次优的临床结果。文章强调了多组学分析在理解TIME和改进CAR-T细胞疗法中的潜力,并指出了未来研究的方向。
重点关注
Fig. 1 描述了 CAR-T 细胞疗法的设计和实施过程,以及肿瘤免疫微环境(TIME)的分类基础。
A. CAR-T 细胞疗法的设计和过程
- T细胞提取:初始步骤涉及从患者的外周血中提取 T 细胞。
- CAR-T细胞创建:提取的 T 细胞经过基因改造,表达嵌合抗原受体(CAR),使其能够特异性识别并靶向癌细胞。
- 体外扩增:这些经过改造的 CAR-T 细胞在体外进行扩增,增加其数量,以备回输使用。
- 回输至患者:扩增后的 CAR-T 细胞被注射回患者体内,它们将在体内寻找并攻击表达相应抗原的癌细胞,完成整个治疗过程。
B. TIME的分类基础
TIME 的分类基于免疫细胞的组成和炎症反应的特点,主要分为以下三种类型:
- 浸润排除型(I-E)TIME:这类 TIME 中,免疫细胞在肿瘤基质中分布较多,但在肿瘤实质中缺乏细胞毒性 T 细胞(CTLs)。这些 CTLs 通常分布在肿瘤的边缘,表现出较低的免疫活性,被认为是“冷”或免疫原性较差的肿瘤环境。
- 浸润炎症型(I-I)TIME:这种类型的 TIME 特征是免疫细胞高度浸润,包括 CTLs、B 细胞和 T 细胞等。I-I TIME 被认为是免疫学上的“热”肿瘤,能够引发更强大的免疫反应,对免疫检查点抑制剂(ICIs)有更好的响应。
- 三级淋巴结构(TLS)TIME:作为 I-I TIME 的一个亚类,TLS TIME 在组织学上有 TLS 的证据。TLS 通常与良好的预后相关,但并不总是如此。
在不同类型的肿瘤生态系统中,TIME 的类型可以作为癌症治疗和预后评估的创新生物标志物。了解 TIME 的分类有助于更好地理解肿瘤与免疫系统的相互作用,为癌症治疗提供个性化的策略。通过分析 TIME 的组成和空间结构,研究人员可以更精确地评估免疫疗法的潜在效果,并为患者提供更有效的治疗方案。
三、新型异构图学习方法stKeep:通过空间分辨的转录组学数据来分析和解析肿瘤微环境(TME)
一作&通讯
文献概述
这篇文章介绍了一种名为stKeep的新型异构图学习方法,它通过空间分辨的转录组学数据来分析和解析肿瘤微环境(TME)。
stKeep能够整合多模态数据和基因间相互作用,识别TME中的细胞模块、基因模块和细胞间通信(CCC)。该方法利用异构图学习技术,捕捉细胞、基因和组织区域之间复杂的关系,从而在低维空间中检测更多的细胞状态和细胞状态特异性的基因-基因关系。
研究者们使用stKeep分析了多种癌症样本,包括乳腺癌、肺癌、结直肠癌和肝转移瘤,并与其他工具比较,发现stKeep在解析TME方面表现更优。stKeep能够识别关键的转录因子、配体和受体,这些与疾病进展相关,并通过独立临床数据的功能和生存分析进一步验证了其在临床预后和免疫治疗应用中的潜力。
文章还讨论了癌症细胞如何与肿瘤微环境中的非癌细胞(如免疫和基质细胞)相互作用,共同在恶劣条件下(如缺氧和氧化应激)下生存。研究强调了理解肿瘤微环境在疾病启动、进展、转移和抗癌治疗中的重要性。此外,文章还提到了当前空间分辨转录组学技术(如Visium、Stereo-seq和NanoString CosMX)在分析基因表达模式时面临的挑战,例如低通量、灵敏度以及数据的稀疏性和噪声问题。
stKeep通过自监督学习机制,将来自邻近细胞的配体信号聚合起来,推断每个细胞的CCC模式,并通过对比学习确保学习到的CCC模式能够在不同的细胞状态之间进行比较。通过这种方法,stKeep能够识别与疾病发展相关的重要的配体和受体。
最后,文章讨论了stKeep的潜在局限性,并提出了未来研究的方向,包括开发更精细的算法来推断更多的基因-基因关系及其方向,以及自动化分割肿瘤区域的计算模型。
重点关注
图1提供了stKeep模型的全面概览,该模型是一个用于分析空间分辨转录组学(SRT)数据的异构图学习方法。
a–c. 输入数据层:
- I (Histological images): 组织学图像,提供细胞和组织结构的视觉信息。
- S (Spatial locations): 空间位置,记录细胞或斑点在组织中的位置。
- X (Gene expression): 基因表达数据,展示细胞中基因的表达水平。
- Y (Histological regions): 组织学区域,定义组织中的不同区域。
- PPI (Protein-protein interaction): 蛋白质-蛋白质相互作用,细胞内蛋白质相互作用网络。
- GRN (Gene regulation network): 基因调控网络,基因如何调控彼此的表达。
- LRP (Ligand-receptor pair): 配体-受体对,细胞间的通信途径。
d. 细胞模块(Cell module):
- 以细胞/斑点为中心的异构图,捕获局部层次表示(Ri1),通过注意力机制聚合基因和区域的特征。
- 利用多种语义图,包括空间位置图(SLG)、组织学相似性图(HSG)和转录相似性图(TSG),学习全局语义表示(Ri2)。
- 通过自监督学习整合局部和全局表示。
e. 基因模块(Gene module):
- 以基因为中心的异构图,通过注意力机制结合细胞/斑点和簇的特征来学习低维表示。
- 使用对比学习确保在表示空间中彼此相关的基因对彼此靠近。
f. 细胞间通信(CCC)模块:
- 利用基于注意力的异构图推断每个细胞/斑点的配体-受体相互作用强度(Hi)。
- 通过聚合中心细胞/斑点邻居的配体信息来推断CCC模式,确保模式能够反映TME内不同细胞状态的多样性。
g. 统一框架:
- 结合了细胞模块、基因模块和CCC模块的统一框架,用于解析肿瘤生态系统。
- 通过检测和可视化空间簇、识别细胞状态特异性的基因模块和受体-基因交互网络,以及推断细胞通信强度。
图1展示了stKeep模型如何整合多模态数据和基因间相互作用来构建异构图,进而分析肿瘤生态系统。该模型通过自监督学习和对比学习来提高细胞状态的识别精度,并推断细胞间的通信模式,这对于理解肿瘤微环境的复杂性至关重要。
四、利用机器学习集成方法来推进计算免疫学
一作&通讯
文献概述
这篇文章是关于如何利用机器学习集成方法来推进计算免疫学的研究。
文章首先指出,传统的免疫学研究依赖于蛋白质组学来评估单个免疫细胞,但单细胞RNA测序技术彻底改变了这一领域。计算免疫学家在分析这些数据集方面发挥着关键作用,他们超越了传统的蛋白质标记识别,提供了更详细的细胞表型及其功能角色视图。
文章强调了最近技术进步,这些技术允许在单细胞水平上同时测量多种细胞组分,如转录组、蛋白质组、染色质、表观遗传修饰和代谢物,包括在组织中的空间环境。这导致生成了复杂的多尺度数据集,可能包括来自相同细胞的多模态测量,或者是混合的配对和非配对模态。
现代机器学习(ML)技术允许集成多种“组学”数据,无需对每种模态进行广泛的独立建模。文章重点介绍了应用于免疫学研究的ML集成方法的最新进展,并强调了这些方法在创建多尺度数据集合的统一表示中的重要性,特别是对于单细胞和空间分析技术。最后,文章讨论了这些全面方法的挑战,以及它们如何有助于为多尺度研究开发共同的坐标框架,从而加速研究并促进计算免疫学领域的发现。
文章还讨论了免疫细胞在多种疾病中的作用,以及如何利用免疫系统设计针对特定患者的免疫疗法。此外,提到了单细胞基因组学革命如何影响生物学和医学的每个领域,以及国际人类细胞图谱(HCA)倡议如何促进单细胞基因组学方法的采用。
文章最后讨论了多模态数据集成的挑战和未来发展,包括选择模态、特征提取和解释、生成共同参考、数据基础设施、多模态数据和多学科团队。文章强调了计算免疫学家在推进科学进步中的关键作用,他们利用集成方法为个性化的免疫学干预措施提供支持,包括疫苗设计、免疫疗法和治疗计划,这些措施都经过了针对个体免疫系统特征的精细调整,从而提高了医疗治疗的精确性和有效性。
重点关注
Fig. 2 A和Fig. 2 B提供了多模态数据集成方法和数据基础设施的概念性描述。
Fig. 2 A: 代表性集成方法的示意图
- 这个图展示了不同集成方法的流程或架构,用于处理多模态数据。多模态数据指的是来自不同来源或技术的数据,例如基因表达数据、蛋白质组数据、代谢组数据等。
- 集成方法包括数据预处理、特征提取、数据融合和降维等步骤。这些方法的目标是将不同模态的数据整合到一个统一的框架中,以便于分析和解释。
Fig. 2 B: 多模态数据集具有不同的数据格式
- 这个图描述了多模态数据集的结构和存储方式。不同的数据格式意味着数据可以是图像、序列、矩阵或其他任何形式,每种格式都有其特定的特点和处理需求。
- 图中强调了数据结构的设计,这些结构允许研究人员高效地访问和处理数据。
- 数据基础设施被描述为机器学习集成方法的核心。这意味着数据的组织和管理方式直接影响到机器学习模型的性能和分析结果的质量。
五、通过图提学习(Graph Prompt Learning)来诊断神经性疾病
一作&通讯
文献概述
这篇文章是关于一种新型的多模态医学数据分析方法——通过图提学习(Graph Prompt Learning)来诊断神经性疾病。
-
问题背景:神经性疾病如自闭症谱系障碍(ASD)和阿尔茨海默病(AD)对患者社会、语言和认知能力造成严重影响,已成为全球重大公共健康问题。目前,大多数神经性疾病没有确切的治疗方法,因此迫切需要进行诊断以便早期干预。
-
现有方法的局限性:现有的多模态大型模型在处理神经性疾病诊断时面临挑战,因为神经成像数据中通常只有少数区域与疾病相关,而且现有方法通常没有考虑到大脑连接网络中的结构信息,这对于理解和诊断神经性疾病至关重要。
-
提出的新方法(MMGPL):为了解决这些问题,文章介绍了一种新的提示学习模型,该模型在多模态模型的微调过程中学习图提。具体方法包括:
- 使用GPT-4获取与疾病相关的概念,并计算这些概念与所有图像块之间的语义相似性。
- 根据每个图像块与疾病相关概念的语义相似性降低不相关图像块的权重。
- 构建基于这些概念的图像块之间的图,并使用图卷积网络层提取图的结构信息,用于提示预训练的多模态模型以诊断神经性疾病。
-
实验结果:通过大量实验,作者证明了该方法在神经性疾病诊断方面的性能优于现有方法,并且得到了临床医生的验证。
-
方法细节:文章详细介绍了多模态数据分词器、概念学习和图提学习等模块,以及如何将这些模块整合到一个统一的框架中。
-
相关工作:文章还回顾了多模态大型模型、提示学习和图神经网络在医学领域的应用。
-
结论:文章总结了所提出方法的主要贡献,并强调了其在医学数据分析中的潜力和灵活性。
整体来看,这篇文章提出了一个创新的框架,通过结合图提学习和多模态数据,提高了神经性疾病诊断的准确性和效率。
重点关注
Fig. 1 所展示的 MMGPL 方法流程图包含三个主要模块
具体如下表所示:
流程的最后步骤是:
- MMGPL 从统一编码器获取输出
- 使用该输出来预测受试者的主题标签
这个流程图概括了 MMGPL 方法的核心步骤,从数据的分割和嵌入,到概念的生成和权重学习,再到图结构的学习和编码器的输出,形成了一个完整的处理流程,旨在提高神经性疾病诊断的准确性。
六、人工智能(AI)在心血管医疗领域应用的综述
一作&通讯
文献概述
这篇文章是一篇关于人工智能(AI)在心血管医疗领域应用的综述。
摘要与引言:
- 人工智能(AI)有潜力彻底改变心血管实践和研究的每一个方面。
- 技术的指数级增长,由AI驱动,正在心血管护理中定义新的前沿,涵盖了从新的诊断方式、数字原生生物标志物到评估护理质量和预测临床结果的高性能工具。
- 这些数字创新有望扩大心血管筛查和监测的覆盖范围,特别是对于那些历史上无法获得高质量、专业护理的人群。
- AI还在推动生物学和临床发现,这将使未来的心血管护理更加个性化、精确和有效。
AI在心血管护理中的创新:
- AI在心血管护理中的作用正在从标准化、加速和扩展传统工作流程转变为增强而非自动化任务。
- 深度学习模型和变换器等先进模型使得AI算法能够处理原始、非结构化的生物信号和图像,从数据中学习到超出手动推断和编码的新表示。
疾病诊断的创新:
- 传统上,疾病诊断依赖于医生对病史、体检结果、影像和测试结果的解释。
- AI在心电图(ECG)的解释、心脏超声图像的获取和解释、胸部X光的心血管病筛查等方面展现出巨大潜力。
数字生物标志物:
- AI在发现新的标志物方面具有关键作用,这些标志物可以预测疾病风险,而以前需要详细的临床评估或侵入性血液生物标志物。
疾病预后的新型方法:
- AI工具通过分析电子健康记录(EHR)和其他数据源,提高了对个体疾病轨迹和不良结果风险的预测能力。
AI在未来心血管护理中的角色:
- 包括本地适应、持续学习的AI工具,以及在临床护理点的AI增强应用。
- 远程监测技术的发展为连续监测提供了新的模式,提供了关于患者日常活动中心血管状态的实时信息。
实现AI驱动的心血管护理的特定挑战:
- 包括数据隐私和安全问题、跨健康系统的互操作性、适当的监管控制等。
AI在心血管发现中的角色:
- AI在生物发现、药物设计、精准治疗、大规模基因组学、临床试验的个性化推断等方面具有重要作用。
结论:
- AI技术将成为心血管诊断、预后和治疗工具箱的核心组成部分。
- 未来的AI解决方案将更加注重多模态集成和个性化医疗。
- 监管环境需要适应创新的速度,确保AI的伦理、公平和可信度。
文章强调了AI在心血管医疗中的潜力,并展望了其在未来医疗保健中的应用前景,同时也指出了实现这一未来所面临的挑战和必要的保障措施。
重点关注
FIGURE 1 “The Evolving Landscape of Medical AI” 展示了医学人工智能(AI)的演变景观:
具体内容可以概括为以下几个阶段:
-
Epoch I: Feature engineering - 这个阶段是关于特征工程,即通过人工选择和提取数据特征来训练机器学习模型。这要求对数据有深入的理解,并手动设计特征。
-
Rule-based tools - 在这个时期,AI工具主要基于规则,使用表格数据,通过编码的人类知识来实现功能。
-
Epoch II: Deep learning - 深度学习时代的到来,特征学习(Representation learning)和共享表示(Shared representations)成为可能。深度学习模型能够从大量数据中自动学习复杂的特征。
-
Generative AI, foundation models - 这一阶段涉及到生成式AI和基础模型,它们能够学习不同数据类型的共享表示,为之前未见的任务(never-before-seen tasks)提供支持。
-
Epoch III: Foundation models - 在第三代,基础模型(Foundation models)进一步发展,它们是任务不可知的(task-agnostic),能够处理多模态数据,并且对于特定任务(task-specific)的单模态任务也有所涉及。
-
Unstructured and structured data - AI开始同时处理非结构化数据和结构化数据,这包括医学影像、电子健康记录(EHR)和其他类型的医疗数据。
-
AI evolution - 整个演变过程是从简单的特征工程和人类知识的编码,到深度学习对复杂生物医学信号和疾病表示的直接增强,再到多模态、任务不可知的“基础模型”,这些模型学习不同数据类型共享的表示,进一步实现对未见任务的小样本学习(few-shot learning)。
这个图表说明了AI在医学领域的进步,从最初的基于规则和特征工程的方法,到现在能够处理大量复杂数据并为多种任务提供支持的深度学习和基础模型。这种演变强调了AI在医学诊断、治疗和研究中的潜力,并预示着未来可能实现的个性化和精准医疗。