助力抑郁症初筛！上海交大团队构建Agent心理诊所，论文一作在线展示demo，分享技术亮点

「我有动手打她，甚至好几次掐着她脖子把她按到墙角。每次动完手，我都会后悔，我为什么要动手，我为什么控制不住自己，我是不是就是一个混蛋、一个疯子、一个十恶不赦的人，但我真的不知道该怎么办。」这是 18 岁的皓然面对央视镜头时说出的话。

今年 8 月，央视新闻《相对论》记者庄胜春深入探访青少年抑郁的真实情况，皓然是其中少有的、愿意直面镜头讲述自己故事的青少年抑郁症患者。

现如今，抑郁症正逐渐年轻化，据《中国青年发展报告》显示，17 岁以下儿童青少年中，约 3,000 万人正受到各种情绪障碍和行为问题的困扰。青少年正处于一个动荡的年龄，心理相对脆弱，如果问题未能及时识别和干预，将会进一步演变为精神疾病。然而，目前心理健康医疗资源存在明显不足，且大多资源主要集中在城市和大型医疗机构中，这种不均衡分配让许多抑郁病患者难以及时获取医疗辅助。

对此，上海交通大学 X-LANCE 实验室吴梦玥教授团队与德克萨斯大学阿灵顿分校 (UTA)、天桥脑科学研究院 (TCCI) 和 ThetaAI 公司一同合作，搭建了一种自动化大模型对话 Agent 模拟系统——智能体心理诊所 AMC (Agent Mental Clinic)，用于抑郁症的初步诊断。

在第四期 Meet AI4S 直播中，HyperAI超神经邀请到了本研究论文的第一作者，上海交通大学跨媒体语言智能实验室博士兰焜耀，他以「基于大模型 Agent 的精神健康问诊和咨询平台」为题，向大家详细介绍了该平台的使用步骤、技术亮点、以及未来规划等。

基于角色扮演，参与 Agent 心理诊所模拟问诊

过去，我们常用自测表 (如 PHQ9，HAM-D) 来确定自己是否需要进一步的医疗资源帮助，比如在入学或者入职时做心理健康测试，大家会发现，为了防止乱填表格，自测表中的很多问题会被重复询问，以此确保前后的一致性。这会导致一些问题——工作量翻倍，用户觉得枯燥乏味。

在这里插入图片描述

PHQ9 自测表

而现在，借助人机交互的方式，即通过与对话机器人聊天来模拟问诊过程，医患交流变得更加有趣，随着大语言模型的发展，对话体验也在不断提升。

在这里插入图片描述

吴梦玥教授团队提出的智能体心理诊所 AMC，可用于抑郁症的初步诊断。其主要形式是模拟剧院演出，进行类似角色扮演的任务，在此过程中，用户能够与虚拟演员 NPC 对话，推动问诊进程。具体而言，研究人员主要设置了 3 个「角色」：患者 Agent、精神科医生 Agent、指导员 Agent。

在这里插入图片描述

用户可以选择这 3 种角色之一进行体验。

这 3 个 Agent 的详细信息如下所示：

患者 Agent 怀有一些情绪的困惑，需要寻找医生来确认自身是否患有疾病，并确定是否需要进一步治疗。研究人员赋予其不同的用户画像，让他能够模拟多个不同的患者，这些患者可能面临不同的问题，也可能处于不同的年龄段。

在这里插入图片描述

用户画像

具体而言，研究人员采用了一个名为 D4 的数据集，即通过社交媒体或公开平台招募了一批潜在患者的画像，涵盖了性别、职业、主要诉求及年龄等信息，这些画像经过严格的审查和验证后，再用于模拟患者。招募并培训模拟患者和模拟医生，双方进行模拟问诊对话。专业心理医生对这些对话的质量进行评估，确保它们符合真实的医患交流场景，倘若符合，专业医生会进一步确定患者的抑郁倾向和自我伤害倾向，这些诊断被分为 4 个类别，无障碍、轻度、中度、重度。

*D4 是全球第一个符合临床标准的开源抑郁症问诊对话数据集
数据集地址：https://x-lance.github.io/D4/

在这里插入图片描述

收集 D4 的数据集

在初始化患者 Agent 时，研究人员会将上述问诊结果提供给患者 Agent，但不会告知其抑郁倾向和自我伤害倾向的具体数值，以免造成数据泄露。此外，患者 Agent 的病状通常表现在饮食、睡眠、情绪、兴趣、身体状况等方面，但这些信息不足以全面描述患者，他们还面临着生活、工作、学习上的压力，这些因素通常反映在对话中而非具体病症上。

为此，研究人员选择用 GPT-4 来分析对话内容，并找出与事件相关的记忆片段，将这些记忆整合进患者 Agent 的 memory 模块，例如遭遇婚姻背叛、工作学习上的挫折等信息。

精神科医生 Agent 的设定是没有问诊经历的新人医生，目的是测试该医生能否在与患者交流的过程中获得显著进步。

在医生端，初始阶段不会给予 Agent 太多实践经验，但研究人员会提供一些基本的专业信息，如提供单次发作抑郁障碍、反复发作抑郁障碍的文本描述，作为医生 Agent 初始记忆的一部分。随着与患者交流次数的增加，医生 Agent 的技能和经验将不断积累，从而提升问诊水平。

指导员 Agent 主要目的是为了控制医患对话的流程，避免对话无限持续下去。未来，如果扩展到家庭咨询场景，如父母与孩子或夫妻共同咨询时，多个 Agent 之间的互动可能会产生冲突，指导员 Agent 可以帮助协调对话流程。

在问诊流程中，医生首先提出问题，患者作出回应，指导员随后跟踪患者的回答，并记录其疾病症状。比较患者症状与 ICD-11、DSM-5 等标准测试之间的差距后，指导员将指出哪些问题尚未理清，并给予医生下一步提问的指导。医生基于这些指导对患者提出新的问题，形成一个内循环过程。在每次对话结束后，医生会对患者的抑郁倾向和自我伤害倾向作出评估。

在这里插入图片描述

Agent 心理诊所架构

指导员接收这些评估结果，并将其与 D4 数据集中存储的真实医生诊断结果做比较。根据对话历史和诊断结果的差异，指导员会评估医生在问诊过程中的表现，包括语言表达、提问方式以及诊断准确性等，最后将反思所得的记忆存储到医生的诊断技能中，帮助医生 Agent 在问诊过程中获得更多的经验和成长。

值得一提的是，为了更好的检索适应的记忆来处理对话和诊断，研究人员还提出了创新的三层式记忆结构和记忆检索模块，即对话历史、电子病历、总结技能。

平台持续优化，未来可期

在角色扮演过程中，研究人员也遇到了几个问题，并将在未来进行优化。

首先是幻觉问题，即模型在对话中会产生与事实不符的回复，这是所有大模型普遍存在的问题。例如，在过去一个月内，患者可能会有自我伤害的想法但并未实施，模型却仍可能错误地回复患者每月都会有自我伤害行为，这种误报在长对话时更为明显。为了应对幻觉现象，在遇到相似问题时，研究人员把用户画像里的一些关键病症用作 Prompt，对模型做进一步的提示，但这种做法只能暂缓幻觉现象，未来仍需要进一步的努力。

另一个问题是语言风格，患者在初次就诊时往往不会使用专业术语来描述自身状况，但模型却倾向于使用诸如「神经运动性迟滞」等专业词汇，不符合患者在第一次进行问诊时的表现。

在这里插入图片描述

语言风格案例、重复案例

此外，研究人员还观察到，模型存在重复提问的现象。比如受过往历史对话的影响，模型的开场白和结束语相对固定，问话方式也较为一致。但在现实的对话中，这些元素可能会发生变化，回复也是多样性的，如何提供恰当的安慰，使对话不显枯燥，也是未来需要考虑的问题。

对以上内容进行优化，主要面临的问题是评估标准的不一致、专业场景数据集稀缺等。去年 5 月，吴梦玥教授团队的陈思远博士曾基于大语言模型模拟医患对话，研究结果发现，大模型会存在明显的用语与人类用语不同的情况，通过修改 Prompt，提示模型用口语化的表达可以部分缓解这一症状。

在这里插入图片描述

陈思远研究成果

对于评估标准不一致问题，大家通常在「优质对话」上有一个普遍的认知，但在「中等」和「劣质」对话的评估标准却存在显著差异，这可能是个体评估时的主观误差，因此需要更大规模的人类测试。此外，很多研究使用优质模型如 GPT-4 为其他模型进行评估，但大模型作为黑盒，其解释性相对薄弱，而人类评估员的质量和数量又有限，因此，目前仍缺乏一个大规模的自动化评测标准。

此外，不同应用场景所需的数据集各不相同，尤其是在专业场景中，可用的样本量往往较少，这可能影响测试的可靠性，也限制了对大模型的训练。对此，兰焜耀认为，未来的一个解决方案是将心理学认知模型的概念引入角色扮演实践中。如果能够建立一个更通用的认知模型，以适应不同场景，并有效映射现有网络资源到这一模型，那么后续的训练集和测试集的获取将变得更加容易，这是值得探索的方向。

「对我来说，我一直希望进一步探索的是，这些概率模型是否最终能够形成一个完整的、独立的人格思考，我希望能够找到一种更稳定的方法来评估大语言模型内在的人格特征。」兰焜耀表示，在他看来，既然这些模型学习了大量用户语料、用户数据，它们理论上应该能够展现出一种人格特质，基于这一点，还需要探讨的是，如何评估模型是否具备这种人格特征，以及这种人格特征如何影响其在回答问题、认知过程以及回应用户需求（如心理安慰）时的表现。「如果我们能够定位并区分出模型的人格特征或人格模块，就能让它适应不同的场景和需求，执行不同的任务，这比仅仅依靠 Prompt 调优更有效。」

用技术改变世界

「我本科是做图像领域的，研究生阶段逐渐对自然语言处理产生了更大的兴趣，当时的研究方向偏向智慧教育，期间遇到了有关学生个性化学习需求的课题。后来，在设计学生的学习伴侣过程中，我发现学生们不仅需要学术上的帮助，更需要心理上的支持。于是博士阶段我加入了吴梦玥教授的团队，希望在心理领域进行更深入的探索。」谈及打造大模型 Agent 心理诊所的初心时，兰焜耀博士这样表示。

吴梦玥教授是少有的具备心理学、计算机科学交叉学科背景的专业人才，在推进 AI 赋能精神疾病诊疗的过程中，她能够精准地触及患者的实际需求，并灵活地调整研究策略。

她所在的上海交通大学跨媒体语言智能实验室 (SJTU Cross Media Language Intelligence Lab, X-LANCE) 现已成为「跨模态语言智能实验室」，涵盖视听文语言信息处理的核心研究领域，材料化学领域也有所涉及。团队致力于做能够改变世界的顶级技术研究，实验室的学术信条：要用技术改变世界，首先必须是一个优秀的工程师，而一个杰出的工程师一定是一位科学家。
实验室主页：https://x-lance.sjtu.edu.cn

在这里插入图片描述

团队合影

实验室获得了包括国家重点研发计划、自然科学基金委优秀青年科学基金在内的诸多国家和企业项目支持，还与思必驰科技股份有限公司深度合作，成立了「上海交通大学思必驰智能人机交互联合实验室」，拥有丰富的数据资源和大量的计算资源，包括数百张 H800、A800 和 A10 等 GPU 卡，是国际上极少数可以进行产业级大尺度数据分析和研究的人工智能实验室之一。