医疗机器人中的具身智能进展——自主超声策略模型的任务编码和局部探索

医疗机器人一直是具身智能的研究热点。医学图像、医疗触诊、血压血氧、心率脉搏和生物电信号等多模态生物医学信息，不断丰富着医疗机器人的感知范畴。

自主超声

“自主超声”属于具身智能医疗机器人领域中话题度较高的研究方向。作为临床检查的重要手段之一，传统医疗超声成像技术面临的主要问题为：长期重复性工作造成超声医师的肌体劳损；较长的培训周期导致专业超声医师的缺口持续增大；面对传染性疾病，医患隔离的需求难以满足。临床上，超声医师通过手眼配合和手感训练，锻炼出了对超声探头精准灵巧的操作手法，如图1所示。

图1
在这里插入图片描述

临床超声医师的专业性在于，一方面需要结合日积月累的专业医学知识，对超声图片进行实时的观察和判断，另一方面，超声医师的灵巧操作手法也需要因人而异，病人的高矮、胖瘦、性别、年龄，都会影响超声探头应被施加的压力和扫查方向。

研究进展

超声机器人系统大致可以区分为遥操作和自主式两种。在遥操作超声机器人系统中，超声扫查由超声医师通过直接动作映射进行远程控制。而在自主系统中，超声机器人须具备部分自主决定的能力，保证在超声医师尽量不干预的情况下完成扫查任务。例如，自主超声任务可以被定义为搜寻特定的区域或体积，通常需结合其他医学成像方式如磁共振成像（MRI）和计算机断层扫描（CT）。除此之外，一些研究将自主超声定义为路径跟踪任务，但是需事先在3D相机捕获的点云上进行标记。以上的方法非常依赖于超声医师预先定义的运动规则和引导。与之相比，更理想的自主超声系统应该能够学着去理解超声图像，然后自动完成规划以定位到超声图像。研究学者们也尝试用传统计算机视觉技术与深度学习方法来制定详尽的运动规划方案。此外，一些最新的研究也正在开发基于强化学习和模仿学习的策略模型，有可能在某些特点任务中替代超声医师。

问题与挑战

对于具有显著个体差异的患者群体而言，现有方法在安全性和可靠性方面仍然是一个问题，这归结于两个因素。首先，作为具身智能医疗机器人的研究方向之一，几种关键的临床医疗数据模态并未整合到现有的策略学习框架中，例如超声探头方向和其与患者皮肤的多维接触力。这些医疗数据模态都会显著影响超声扫查的质量，并在患者群体中表现出显著的个体差异性。其次，如何从分布内患者的策略模型外推泛化到分布外的超声技能，例如从年轻到年长、从瘦小到肥胖，从男性到女性，这一关键问题始终没有被提出、强调和验证。

解决思路

武汉大学的李淼教授带领其团队在国际期刊“IEEE Transactions on Automation Science and Engineering (TASE)”上发表了一篇题目为“Learning Freehand Ultrasound Through Multimodal Representation and Skill Adaptation”的文章。其主要贡献点在于，提出了一种多模态融合框架来隐性表征临床超声医师徒手示教的扫查技能，不需要额外地在超声图片中标注兴趣区域和器官轮廓，并综合考虑了超声图像、探头方向和接触力等数据模态。同时，提出了一种超声技能的自适应方案，改善了超声技能在具有显著个体差异性的患者群之间外推泛化的能力。

图2
在这里插入图片描述

图2展示了所提出的可学习和可泛化的自主超声工作流程。首先从临床场景中收集徒手超声的示教数据；在学习阶段，通过多模态融合框架将这些示教数据表征到低维空间中；在部署阶段，将离线建模的自主超声技能复现到徒手超声或机器人超声的应用中。

图3所示为临床场景中收集徒手超声的示教数据的硬件设备细节。除了使用视频捕捉设备获取实时超声图片，超声探头上搭载的惯性测量单元（IMU）和6D力/扭矩传感器能够获得超声探头的方向和接触力数据模态。临床实验场景如图4所示。

图3
在这里插入图片描述

图4
在这里插入图片描述

在多模态融合框架中，超声图像特性通过Masked Auto-Encoder（MAE）进行提取。预处理图像被表征为40维的特征向量，并与4维的探头姿态向量和6维的探头接触力向量进行拼接融合。完成示教数据的降维编码后，用高斯混合模型（GMM）进行建模和预测，如图5所示。

图5
在这里插入图片描述

图6
在这里插入图片描述

在图6所示的算法流程中，通过临床徒手示教的多模态时间序列被嵌入到潜在空间。利用概率模型对示教中的全局动作分布进行建模，并由此可以确定选择某一动作的概率，称之为“似然值”。动作的似然值可以被视为一个潜在的评价指标，似然值低的动作被判定为不可靠的预测结果，后续需利用局部搜索对其进行微调，使其更加接近可靠动作。局部搜索方法如图7所示，其中橙色、绿色、蓝色和紫色区域绘制了四个高斯分布。若预测值能够对应到任意高似然动作（例如A1），则表明该预测结果是可靠的。在此条件下，后续算法将执行逐步迭代过程，沿着条件概率的梯度方向找到局部最优解。而如果预测值位于低似然区域（例如B1），则被判定为不可靠动作。在这种情况下，由于缺乏类似的示教数据，概率空间中的局部似然值仅有着非常小的变化梯度，逐步迭代往往无法找到局部最优解。此时应进行局部探索以找到最近的高斯分布（例如从B1到B2），从而避免沿着条件概率梯度而遇到相对随机的结果（例如从B1到B∗）。

图7
在这里插入图片描述

局部搜索的方法很好地解决了离线学习的自主超声策略模型在部署阶段泛化和外推能力不足的问题，能够在完整的超声检查任务过程中取得接近于人类超声专家的决策能力。如图8所示为超声专家和所提出自主超声算法，在完成同样的患者左肾检查任务中的表现（灰色为人类专家的动作，橙色为自主超声算法的动作）。

图8
在这里插入图片描述

论文中开展了大规模临床实验，从总计24名志愿者中收集了120条示教轨迹，共包含53571组“临床左肾俯卧位检查”的多模态样本。志愿者中包含14名男性和10名女性，年龄跨度从19岁到67岁，BMI指标范围从16.4（瘦小）到26.7（超重）。除了“患者内”和“患者间”的验证方法，实验中提出了一系列相较于N则交叉验证更加复杂和困难的实验方式，将不同患者按照个体差异性划分到训练集和验证集中：将年龄偏小、身材瘦小、或者男性患者的数据作为训练集，而将年龄偏大、身材超重、或者女性患者的数据作为验证集，以此凸显在实际应用中可能面临的数据分布偏移的极端情况。如图9所示，相比于基准算法，论文中提出的自主超声算法框架取得了显著的性能表现和预测精度。

图9
在这里插入图片描述