助力抑郁症初筛!上海交大团队构建Agent心理诊所,论文一作在线展示demo,分享技术亮点

「我有动手打她,甚至好几次掐着她脖子把她按到墙角。每次动完手,我都会后悔,我为什么要动手,我为什么控制不住自己,我是不是就是一个混蛋、一个疯子、一个十恶不赦的人,但我真的不知道该怎么办。」这是 18 岁的皓然面对央视镜头时说出的话。

今年 8 月,央视新闻《相对论》记者庄胜春深入探访青少年抑郁的真实情况,皓然是其中少有的、愿意直面镜头讲述自己故事的青少年抑郁症患者。

现如今,抑郁症正逐渐年轻化,据《中国青年发展报告》显示,17 岁以下儿童青少年中,约 3,000 万人正受到各种情绪障碍和行为问题的困扰。青少年正处于一个动荡的年龄,心理相对脆弱,如果问题未能及时识别和干预,将会进一步演变为精神疾病。然而,目前心理健康医疗资源存在明显不足,且大多资源主要集中在城市和大型医疗机构中,这种不均衡分配让许多抑郁病患者难以及时获取医疗辅助。

对此,上海交通大学 X-LANCE 实验室吴梦玥教授团队与德克萨斯大学阿灵顿分校 (UTA)、天桥脑科学研究院 (TCCI) 和 ThetaAI 公司一同合作,搭建了一种自动化大模型对话 Agent 模拟系统——智能体心理诊所 AMC (Agent Mental Clinic),用于抑郁症的初步诊断。

在第四期 Meet AI4S 直播中,HyperAI超神经邀请到了本研究论文的第一作者,上海交通大学跨媒体语言智能实验室博士兰焜耀,他以「基于大模型 Agent 的精神健康问诊和咨询平台」为题,向大家详细介绍了该平台的使用步骤、技术亮点、以及未来规划等。

基于角色扮演,参与 Agent 心理诊所模拟问诊

过去,我们常用自测表 (如 PHQ9,HAM-D) 来确定自己是否需要进一步的医疗资源帮助,比如在入学或者入职时做心理健康测试,大家会发现,为了防止乱填表格,自测表中的很多问题会被重复询问,以此确保前后的一致性。这会导致一些问题——工作量翻倍,用户觉得枯燥乏味。

在这里插入图片描述

PHQ9 自测表

而现在,借助人机交互的方式,即通过与对话机器人聊天来模拟问诊过程,医患交流变得更加有趣,随着大语言模型的发展,对话体验也在不断提升。

在这里插入图片描述

吴梦玥教授团队提出的智能体心理诊所 AMC,可用于抑郁症的初步诊断。其主要形式是模拟剧院演出,进行类似角色扮演的任务,在此过程中,用户能够与虚拟演员 NPC 对话,推动问诊进程。具体而言,研究人员主要设置了 3 个「角色」:患者 Agent、精神科医生 Agent、指导员 Agent。

在这里插入图片描述

用户可以选择这 3 种角色之一进行体验。

这 3 个 Agent 的详细信息如下所示:

  • 患者 Agent 怀有一些情绪的困惑,需要寻找医生来确认自身是否患有疾病,并确定是否需要进一步治疗。研究人员赋予其不同的用户画像,让他能够模拟多个不同的患者,这些患者可能面临不同的问题,也可能处于不同的年龄段。

在这里插入图片描述

用户画像

具体而言,研究人员采用了一个名为 D4 的数据集,即通过社交媒体或公开平台招募了一批潜在患者的画像,涵盖了性别、职业、主要诉求及年龄等信息,这些画像经过严格的审查和验证后,再用于模拟患者。招募并培训模拟患者和模拟医生,双方进行模拟问诊对话。专业心理医生对这些对话的质量进行评估,确保它们符合真实的医患交流场景,倘若符合,专业医生会进一步确定患者的抑郁倾向和自我伤害倾向,这些诊断被分为 4 个类别,无障碍、轻度、中度、重度。

*D4 是全球第一个符合临床标准的开源抑郁症问诊对话数据集
数据集地址:https://x-lance.github.io/D4/

在这里插入图片描述

收集 D4 的数据集

在初始化患者 Agent 时,研究人员会将上述问诊结果提供给患者 Agent,但不会告知其抑郁倾向和自我伤害倾向的具体数值,以免造成数据泄露。此外,患者 Agent 的病状通常表现在饮食、睡眠、情绪、兴趣、身体状况等方面,但这些信息不足以全面描述患者,他们还面临着生活、工作、学习上的压力,这些因素通常反映在对话中而非具体病症上。

为此,研究人员选择用 GPT-4 来分析对话内容,并找出与事件相关的记忆片段,将这些记忆整合进患者 Agent 的 memory 模块,例如遭遇婚姻背叛、工作学习上的挫折等信息。

  • 精神科医生 Agent 的设定是没有问诊经历的新人医生,目的是测试该医生能否在与患者交流的过程中获得显著进步。

在医生端,初始阶段不会给予 Agent 太多实践经验,但研究人员会提供一些基本的专业信息,如提供单次发作抑郁障碍、反复发作抑郁障碍的文本描述,作为医生 Agent 初始记忆的一部分。随着与患者交流次数的增加,医生 Agent 的技能和经验将不断积累,从而提升问诊水平。

  • 指导员 Agent 主要目的是为了控制医患对话的流程,避免对话无限持续下去。未来,如果扩展到家庭咨询场景,如父母与孩子或夫妻共同咨询时,多个 Agent 之间的互动可能会产生冲突,指导员 Agent 可以帮助协调对话流程。

在问诊流程中,医生首先提出问题,患者作出回应,指导员随后跟踪患者的回答,并记录其疾病症状。比较患者症状与 ICD-11、DSM-5 等标准测试之间的差距后,指导员将指出哪些问题尚未理清,并给予医生下一步提问的指导。医生基于这些指导对患者提出新的问题,形成一个内循环过程。在每次对话结束后,医生会对患者的抑郁倾向和自我伤害倾向作出评估。

在这里插入图片描述

Agent 心理诊所架构

指导员接收这些评估结果,并将其与 D4 数据集中存储的真实医生诊断结果做比较。根据对话历史和诊断结果的差异,指导员会评估医生在问诊过程中的表现,包括语言表达、提问方式以及诊断准确性等,最后将反思所得的记忆存储到医生的诊断技能中,帮助医生 Agent 在问诊过程中获得更多的经验和成长。

值得一提的是,为了更好的检索适应的记忆来处理对话和诊断,研究人员还提出了创新的三层式记忆结构和记忆检索模块,即对话历史、电子病历、总结技能。

平台持续优化,未来可期

在角色扮演过程中,研究人员也遇到了几个问题,并将在未来进行优化。

首先是幻觉问题,即模型在对话中会产生与事实不符的回复,这是所有大模型普遍存在的问题。例如,在过去一个月内,患者可能会有自我伤害的想法但并未实施,模型却仍可能错误地回复患者每月都会有自我伤害行为,这种误报在长对话时更为明显。为了应对幻觉现象,在遇到相似问题时,研究人员把用户画像里的一些关键病症用作 Prompt,对模型做进一步的提示,但这种做法只能暂缓幻觉现象,未来仍需要进一步的努力。

另一个问题是语言风格,患者在初次就诊时往往不会使用专业术语来描述自身状况,但模型却倾向于使用诸如「神经运动性迟滞」等专业词汇,不符合患者在第一次进行问诊时的表现。

在这里插入图片描述

语言风格案例、重复案例

此外,研究人员还观察到,模型存在重复提问的现象。比如受过往历史对话的影响,模型的开场白和结束语相对固定,问话方式也较为一致。但在现实的对话中,这些元素可能会发生变化,回复也是多样性的,如何提供恰当的安慰,使对话不显枯燥,也是未来需要考虑的问题。

对以上内容进行优化,主要面临的问题是评估标准的不一致、专业场景数据集稀缺等。去年 5 月,吴梦玥教授团队的陈思远博士曾基于大语言模型模拟医患对话,研究结果发现,大模型会存在明显的用语与人类用语不同的情况,通过修改 Prompt,提示模型用口语化的表达可以部分缓解这一症状。

在这里插入图片描述

陈思远研究成果

对于评估标准不一致问题,大家通常在「优质对话」上有一个普遍的认知,但在「中等」和「劣质」对话的评估标准却存在显著差异,这可能是个体评估时的主观误差,因此需要更大规模的人类测试。此外,很多研究使用优质模型如 GPT-4 为其他模型进行评估,但大模型作为黑盒,其解释性相对薄弱,而人类评估员的质量和数量又有限,因此,目前仍缺乏一个大规模的自动化评测标准。

此外,不同应用场景所需的数据集各不相同,尤其是在专业场景中,可用的样本量往往较少,这可能影响测试的可靠性,也限制了对大模型的训练。对此,兰焜耀认为,未来的一个解决方案是将心理学认知模型的概念引入角色扮演实践中。如果能够建立一个更通用的认知模型,以适应不同场景,并有效映射现有网络资源到这一模型,那么后续的训练集和测试集的获取将变得更加容易,这是值得探索的方向。

「对我来说,我一直希望进一步探索的是,这些概率模型是否最终能够形成一个完整的、独立的人格思考,我希望能够找到一种更稳定的方法来评估大语言模型内在的人格特征。」 兰焜耀表示,在他看来,既然这些模型学习了大量用户语料、用户数据,它们理论上应该能够展现出一种人格特质,基于这一点,还需要探讨的是,如何评估模型是否具备这种人格特征,以及这种人格特征如何影响其在回答问题、认知过程以及回应用户需求(如心理安慰)时的表现。「如果我们能够定位并区分出模型的人格特征或人格模块,就能让它适应不同的场景和需求,执行不同的任务,这比仅仅依靠 Prompt 调优更有效。」

用技术改变世界

「我本科是做图像领域的,研究生阶段逐渐对自然语言处理产生了更大的兴趣,当时的研究方向偏向智慧教育,期间遇到了有关学生个性化学习需求的课题。后来,在设计学生的学习伴侣过程中,我发现学生们不仅需要学术上的帮助,更需要心理上的支持。于是博士阶段我加入了吴梦玥教授的团队,希望在心理领域进行更深入的探索。」谈及打造大模型 Agent 心理诊所的初心时,兰焜耀博士这样表示。

吴梦玥教授是少有的具备心理学、计算机科学交叉学科背景的专业人才,在推进 AI 赋能精神疾病诊疗的过程中,她能够精准地触及患者的实际需求,并灵活地调整研究策略。

她所在的上海交通大学跨媒体语言智能实验室 (SJTU Cross Media Language Intelligence Lab, X-LANCE) 现已成为「跨模态语言智能实验室」,涵盖视听文语言信息处理的核心研究领域,材料化学领域也有所涉及。团队致力于做能够改变世界的顶级技术研究,实验室的学术信条:要用技术改变世界,首先必须是一个优秀的工程师,而一个杰出的工程师一定是一位科学家。
实验室主页:https://x-lance.sjtu.edu.cn

在这里插入图片描述

团队合影

实验室获得了包括国家重点研发计划、自然科学基金委优秀青年科学基金在内的诸多国家和企业项目支持,还与思必驰科技股份有限公司深度合作,成立了「上海交通大学思必驰智能人机交互联合实验室」,拥有丰富的数据资源和大量的计算资源,包括数百张 H800、A800 和 A10 等 GPU 卡,是国际上极少数可以进行产业级大尺度数据分析和研究的人工智能实验室之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/58729.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【优选算法篇】前缀之美,后缀之韵:于数列深处追寻算法的动与静

文章目录 C 前缀和详解:进阶题解与思维分析前言第二章:前缀和进阶应用2.1 和为 k 的子数组(medium)解法一(前缀和 哈希表)示例分析C代码实现易错点提示代码解读 2.2 和可被 K 整除的子数组(med…

HTML基本类型

HTML基本类型 1.结构类型标签 UL ol liUL:是无序列表 type"none" 可以消除前面的黑点OL:是有序列表LI:可以包含流内容,如文本、图片或其他元素。​ 2.文本类型标签 b i s u pp:段落标签 只能放文本b:加粗标签 加粗文本i:斜体标签 文本斜体s:删除线标签 …

「Mac畅玩鸿蒙与硬件14」鸿蒙UI组件篇4 - Toggle 和 Checkbox 组件

在鸿蒙开发中,Toggle 和 Checkbox 是常用的交互组件,分别用于实现开关切换和多项选择。Toggle 提供多种类型以适应不同场景,而 Checkbox 支持自定义样式及事件回调。本篇将详细介绍这两个组件的基本用法,并通过实战展示它们的组合应用。 关键词 Toggle 组件Checkbox 组件开…

Unity计算二维向量夹角余弦值和正弦值的优化方法参考

如果不考虑优化问题,计算两个向量的余弦值或者正弦值可以直接使用类似的方法: [SerializeField] Vector2 v1, v2;void Start() {float valCos Mathf.Acos(Vector2.SignedAngle(v1, v2));float valSin Mathf.Asin(Vector2.SignedAngle(v1, v2)); } 但是…

UEFI学习笔记(十三):Capsule Update

UEFI学习笔记(十三):Capsule Update 一、Capsule update相关概念1、胶囊文件(Capsule File):2、胶囊负载(Capsule Payload):3、交付机制:4、EFI 胶囊更新协议…

编写一个README.md

一、README 在下载github上的代码的时候,通常会有一个README.md文件让你了解该仓库的做了什么,他如何安装等内容。写好README.md是和他人交流的重要环节。 二、README.md的语法逻辑 a、预览模式 在Vscode中编辑README.md的时候可以打开预览模式&#xf…

Android简单控件实现简易计算器

学了一些Android的简单控件,用这些布局和控件,设计并实现一个简单计算器。 计算器的界面分为两大部分,第一部分是上方的计算表达式,既包括用户的按键输入,也包括计算结果 数字;第二部分是下方的各个按键&a…

开源生活-分布式管理

开源竞争(当自己没有办法彻底掌握一门技术的时候就彻底开源掉;培养出更多的依赖,让更多人帮助你完善你的技术,那么这不就是在砸罐子吗?一个行业里面总会有人先砸罐子的,你不如先砸罐子,还能听个…

责任链模式:解耦请求处理的设计模式

1. 引言 在复杂的软件系统中,请求的处理往往需要多个处理者共同参与。如何将这些处理者有效地串联起来,同时又不让请求的发起者直接依赖于具体的处理者,是一个值得关注的问题。责任链模式(Chain of Responsibility Pattern&#…

分布式数据库的发展历程与大规模应用的历史

分布式数据库技术经历了数十年的发展,从最初的理论研究到现今的广泛应用,逐渐成为应对海量数据和高并发需求的重要技术支撑。特别是在近20年里,分布式数据库的技术实现和应用场景不断丰富,已经成为互联网、大数据、云计算等现代产…

内容安全与系统构建加速,助力解决生成式AI时代的双重挑战

内容安全与系统构建加速,助力解决生成式AI时代的双重挑战 0. 前言1. PRCV 20241.1 大会简介1.2 生成式 Al 时代的内容安全与系统构建加速 2. 生成式 AI2.1 生成模型2.2 生成模型与判别模型的区别2.3 生成模型的发展 3. GAI 内容安全3.1 GAI 时代内容安全挑战3.2 图像…

Matplotlib可视化——三维图与莫比乌斯带可视化

实验名称 Matplotlib中的三维图绘制:莫比乌斯带的可视化 实验目标 三维的点和线三维轮廓图线框图和曲面图曲面三角形 举例:莫比乌斯带的可视化实验主要使用的Python库 名称版本简介Numpy1.19.5数组运算Matplotlib3.3.4数据可视化实验适用的对象 学习对象:本科学生、研究生…

clickhouse最佳实践(一):clickhouse千亿级日志系统单机到集群架构演进历程

clickhouse千亿级日志系统单机到集群架构演进历程 1. 初始阶段:单机部署2. 使用代理层3. 集群设计4. 数据迁移5. 监控和维护6.集群横向扩展 最佳实践系列文章持续完善中, 记录了业务系统从碰到瓶颈到迭代的过程 1. 初始阶段:单机部署 针对Cl…

ZeroNL2SQL:零样本 NL2SQL

发布于:2024 年 10 月 30 日 星期三 #RAG #NL2SQL # Zero-Shot 自然语言到 SQL(NL2SQL)的转换是一个重要的研究领域,它允许非技术用户轻松访问和分析数据,在商业智能、数据分析等领域具有广泛的应用前景。然而&#x…

前端部署指南:手把手教你部署 Vue 项目

​🌈个人主页:前端青山 🔥系列专栏:Vue篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来Vue篇专栏内容:Vue-部署项目 前言 嗨喽伙伴们大家好,我是依旧青山。作为一名前端开发工程师&#xff…

usb外设枚举不到怎么查

明明内核配置了cdc_acm,dmesg | grep acm也有,lsusb却看不到设备。 排查思路: 主机端: 1、设备树是否使能。 2、主模式和从模式是否配置正确。 设备端: 设备端有条件的话可以插入其它设备看,或者复位…

Vivo开奖了,劝退价。。

vivo 也开奖了,不过有小伙伴反馈是个劝退价,甚至不如隔壁的 oppo,要说这两家也是渊源颇深,一家是绿厂,一家是蓝厂,高管也都是早期步步高出来的。 给大家盘一下开奖的信息,方便大家横向做个对比&…

Python 的 Pygame 库来开发一个游戏

import pygame import random# 初始化 Pygame pygame.init()# 设置屏幕大小 screen_width 800 screen_height 600 screen pygame.display.set_mode((screen_width, screen_height))# 设置标题 pygame.display.set_caption("飞机大战")# 加载图片 player_img pyga…

WPF+MVVM案例实战(八)- 自定义开关控件封装实现

文章目录 1、案例运行效果2、项目准备2、功能实现1、控件模板实现2、控件封装1、目录与文件创建2、各文件功能实现3、开关界面与主窗体菜单实现1、开关界面实现2、主窗体菜单实现4、源代码获取1、案例运行效果 2、项目准备 打开项目 Wpf_Examples,新建ToggleButtonWindow.xma…

【深度学习中的注意力机制10】11种主流注意力机制112个创新研究paper+代码——交叉注意力(Cross-Attention)

【深度学习中的注意力机制10】11种主流注意力机制112个创新研究paper代码——交叉注意力(Cross-Attention) 【深度学习中的注意力机制10】11种主流注意力机制112个创新研究paper代码——交叉注意力(Cross-Attention) 文章目录 【…