【AI心理咨询测评】一年后,AI心理咨询的路还有多远?——5例AI模型心理咨询能力测评对比

前言

随着GPT横空出世,AI+心理健康的市场开始逐渐被开拓。有人联想到线上以GPT作为基础,开发可线上心理咨询的AI,例如国内的聆心智能。然而,这一想法也遭到了无数人的质疑:“连聊天都尚不能很好完成,去做心理咨询?” 本篇文章将对5例AI模型的心理咨询能力进行测评对比,来看看GPT出现一年后,现如今AI心理咨询的姿态如何。5例分别为GPT(3.5)、Character.ai-Psychologist、白小喵AI、Pi以及Xeva的心理咨询师张若兰。

测评方法

首先必须要强调的是,由于AI心理咨询模型发展尚早,要达到接近1小时的足够拟真的咨询对话较为困难。因为除了本身模型训练不一定达标以外,性能(特别是记忆)要求就目前而言也是得不到满足的。另一方面,未来AI咨询也并非就一定需要做到真人才能完成的超长(相对于AI)对话功能,而是可以发挥所长。那么,考虑到未来AI心理咨询的真实应用可能性,本文仅将场景聚焦于咨询的初步沟通场景,对话长度将不超过3-7轮。目的仅在于以小见大,因此切勿与实际真人咨询服务直接等同。

测评方法借鉴英国格拉斯哥大学临床心理学的Jill Dunbar博士与ChatGPT的“正面对决”,我将直接扮演一位来访者,来分别对不同的AI产品进行对垒和对比评分。扮演来访者为轻度焦虑症患者,描述取材自真实病历和病人访谈,虽然做了额外一部分杜撰,但部分关键信息会做打码处理。

在此基础之上,将问题流程进行了更系统的处理,对应于国内「聆心智能」创办者、清华大学计算机科学与技术系副教授黄民烈,把可能的交互过程大致分成探索、安抚、提供建议三个阶段或因素来看待。

例如,我首先会轻度试探:

我感觉我最近特别焦虑,总是担心各种事情。晚上还容易失眠。听同事说可能出心理问题了,你能帮帮我吗?

通过这个过程评估意图识别能力,评估完成后,对一般的模型例如GPT3.5或文心一言等,会做一个启动提示语,令他扮演心理咨询师,提示词来自AI Short的心理治疗体验

之后则是自我表述情况、询问可能问题所在、要求提供建议和帮助治疗等等,中途会依照AI实际谈话来调整(因此文字略有差异)。最后根据整体谈话情况,参照人类咨询师,从不同评估指标进行整体的对比,打分如下:

指标说明:

**(Recognition)意图识别能力:**对应于AI模型能否判断当前来访者寻求心理咨询的欲望(求助欲)。

**(Exploration)倾听和探索:**对应于问诊流程,AI能否对来访者进行问诊,从而慢慢诊断出结果。

**(Empathy)共情和安抚:**对应AI的情感判断和动作能力,表明能否与来访者建立一个友好关系。

**(Knowledge)症状知识水平:**对应于AI能否借助信息来提出可能的疾病。

**(Tactic)策略能力:**直接观察AI心理咨询谈话的基本技巧使用情况。

测评情况

1. GPT(3.5)chat.openai.com/

一开始出场的是大名鼎鼎的GPT3.5,让我们看看情况如何。

初步试探以后,直接给了8条建议,勉强是识别出了我求助的意图。自我陈述后,又给了4条建议。还是打点分行的结构化排版,真不愧是AI。但很遗憾,这种方式AI感太强,呈现知识是好的,但在这种人性化场景下反而容易是扣分项。倾听上有所倾听,但似乎无意探索,缺乏基本技巧。语气上较为客观(刻板),没有对我的心理作出共情。

2. Character.ai-PsychologistCharacter.ai

Character.ai是一个类ChatGPT的对话式AI平台,能够免费模拟名人、二次元老婆、学习助理等聊天。其实在GPT3.5之前就爆火过一阵子。下面是聊天情况(部分):

相对于GPT来说,语气上显得人性化了很多,短句和长句的应用像一个真人(至少不会哗啦啦给我1234打点)。从谈话中来看,Psychologist角色能够做到复述技巧,以及能坦诚说明自身的认知情况(“我无法确定您的问题出在哪”),自身的能力局限等。同时能根据描述提出一定的可能来说明来访者可能的问题所在。不过语气似乎显得有点老道(冷淡)。

3. 白小喵AIbaixiaomiao.ai

白小喵AI是国内一款轻游戏化的心理健康产品,目前还在迭代开发中。但就实际测试情况,发现其表现在几款内反而相对来说很不错,因此也进行对话展示。

可以看到,基本的对话其实做到了很不错的人性化感觉。而且就实际文字内容而言,可以看到共情和安抚能力是一大亮点。初次试探直接提出了“焦虑症”的可能,至少表明在Knowledge方面相对较好。而在后面自我陈述了以后,白小喵能够似乎结合Knowledge来对我的情况作出进一步提问,从而确定我的信息和情况。这种情况的出现让我有理由认为这个产品背后是有结合心理咨询技巧去研发的。不过就对话上相比人类在很多方面其实还是过长了,尚不能直戳关键,或许要想达到咨询的真正实用目的可能还有一段距离。

Just a moment…pi.ai/talk

Pi,即personal Intelligence(个人智能)的缩写。就最初产品打造上,Pi被定性为优先考虑与人的对话,而其他AI则服务于生产力、搜索或回答问题。让我们看看咨询情况。

Pi似乎不太懂中文,因此采用了英文对话。通过将原本的问题译为英文后对话,发现Pi一大亮点同样在于情商,共情和安抚能力同样是一大特色。同时能做到解释、提问等。加上文字显示的流畅动画(相比白小喵目前比较干的效果),整体能力上其实相当不错。但在Knowledge方面似乎深入得也不够,这里的深入是指,根据实际谈话和知识来引导了解出来访者可能问题的过程,而非提问后的单纯复述知识。

X Evaxeva-h5.xiaoice.com/content/landing

之所以把Xeva放在最后,是因为它表现出了最符合产品定位,但在心理咨询能力测评时扣分的样子:一味强调自己的AI身份,要求用户转身找专业医生,即使用户强烈要求作出心理咨询。

6. 参照标的-人类咨询师

最后,关于人类咨询师的谈话,将通过在知乎上寻找万粉、至少二级的真实权威咨询师进行付费咨询。这种线上、初步沟通场景与上述AI咨询场景较为类似。在开始我也扮作病人进行询问。最后我也向这位咨询师表露了我的真实意图,虽然引起了一些不愉快,但最后还是同意了我的请求,愿意展示谈话(部分)。当然应本人要求,还是对其个人信息做了打码处理。

可以看出,与AI相比,一个最关键的差异在于“实质性推进”。人类咨询师会相比AI,“废话”相当之少。在最一开始的初步试探中,直接通过提问和知识提示,来挖掘来访者的基本信息和临床状况。之后根据经历能直接指出问题所在,对“我”的经历进行恰当的挖掘和分析。同时在最后也表明了“需要更多沟通才能准确评估”,说明并非单纯依赖套话,而是有一定自知与评估能力。

写在结尾

1. GPT的出现启发了AI心理咨询的探索。就目前而言,已经有AI可以实现一定的拟人的问话和探索能力,结合知识逐步诊断的特征表现。表明国内外这方面都有人在作出积极发展。

2. 实现AI真正落地心理咨询,可能还很长,至于彻底代替咨询师地位恐怕有无法实现的可能。本篇文章测评的AI均只有单一手段(模态)即文字,无法应用表情、姿态、情感反应、“沉默”等多种咨询师的手段。在文字上尚且未能真正到达专业水平。

3. 但是,AI落地心理咨询的思路,不一定是实现对咨询师的全面模仿。就黄民烈团队所言,不同层次的用户需求很多,因此不同层次AI扮演角色也会不同。未来的切入点很多,AI在技术上的咨询能力实现也需要结合其本身AI身份。就缺点来看,由于对AI“缺乏人的身份”的认知,AI在共情效果上很可能永远无法匹敌人类。但就积极层面而言,AI也能凭借IP角色、萌宠(白小喵)等模样,结合其他线上技术,来实现线下人所达不到的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/5066.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第⑰讲:Ceph集群各组件的配置参数调整

文章目录 1.Ceph集群各组件的配置文件1.1.Ceph各组件配置方式1.2.ceph临时查看、修改配置参数的方法 2.调整Monitor组件的配置参数删除Pool资源池2.1.临时调整配置参数2.2.永久修改配置参数 1.Ceph集群各组件的配置文件 1.1.Ceph各组件配置方式 Ceph集群中各个组件的默认配置…

【Jenkins】持续集成与交付 (一):深入理解什么是持续集成?

🟣【Jenkins】持续集成与交付 (一):深入理解什么是持续集成? 1、软件开发生命周期与持续集成2、 持续集成的流程3、持续集成的好处4、Jenkins的应用实践5、结语💖The Begin💖点点关注,收藏不迷路💖 1、软件开发生命周期与持续集成 软件开发生命周期(SDLC)是指软…

C语言:项目实践(贪吃蛇)

前言: 相信大家都玩过贪吃蛇这款游戏吧,贪吃蛇是久负盛名的游戏,它也和俄罗斯方块,扫雷等游戏位列经典游戏的行列,那贪吃蛇到底是怎么实现的呢? 今天,我就用C语言带着大家一起来实现一下这款游戏…

微软如何打造数字零售力航母系列科普04 - 微软联合Adobe在微软365应用程序中工作时推出新的生成式AI功能

微软和Adobe正在合作,将情境营销见解和工作流程引入微软Copilot,以提供生成的人工智能功能,使营销人员和营销团队能够在自然的工作流程中实现更多目标。 这些新的集成功能将在生产力和协作工具(如Outlook、Teams和Word&#xff0…

【事业单位专场】联考、省市统考、单独招考

一、考编概述 1、事业单位类别 事业单位是指由国家出资或委托管理的公共机构,其主要职能是为社会提供公共服务。在中国,事业单位覆盖了科研、教育、文化和卫生等多个领域,并且有着不同的类型。以下是一些主要的分类: 教育事业单…

NLP(10)--TFIDF优劣势及其应用Demo

前言 仅记录学习过程,有问题欢迎讨论 TF*IDF: 优势: 可解释性好 可以清晰地看到关键词 即使预测结果出错,也很容易找到原因 计算速度快 分词本身占耗时最多,其余为简单统计计算 对标注数据依赖小 可以使用无标注语…

【状态机dp 状态压缩 分组】1994. 好子集的数目

本文涉及知识点 动态规划汇总 动态规划 状态机dp 状态压缩 分组 LeetCode1994. 好子集的数目 给你一个整数数组 nums 。如果 nums 的一个子集中,所有元素的乘积可以表示为一个或多个 互不相同的质数 的乘积,那么我们称它为 好子集 。 比方说&#xff…

离散数学之命题逻辑思维导图+大纲笔记(预习、期末复习,考研,)

大纲笔记: 命题逻辑的基本概念 命题与联结词 命题 命题是推理的基本单位 真命题,假命题 特征 陈述句 唯一的真值 是非真即假的陈述句 非命题 疑问句 祈使句 可真可假 悖论 模糊性 三个基本概念 复合命题 真值取决于原子命题的值和逻辑联结词 原子命题 逻…

基于SSM的考研助手系统(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的考研助手系统(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring Spri…

【Java】图书管理系统 介绍与实现

欢迎浏览高耳机的博客 希望我们彼此都有更好的收获 感谢三连支持! 1.介绍 图书馆作为知识的殿堂和学术的中心,其管理系统不仅是图书馆管理的必备工具,更是为用户提供优质、高效服务的重要保障,促进了知识的传播和学术的发展。随着…

基于FPGA的数字信号处理(6)--如何确定Verilog表达式的符号

前言 尽管signed语法的使用能带来很多便利,但同时也给表达式的符号确定带来了更多的不确定性。比如一个有符号数和一个无符号数的加法/乘法结果是有符号数还是无符号数?一个有符号数和一个无符号数的比较结果是有符号数还是无符号数?等等。接…

力扣刷题Day2

题目链接: 24. 两两交换链表中的节点 - 力扣(LeetCode) 效果: 解题思路: 给定一个链表,两两交换其中相邻的节点,并返回交换后的链表。 注意不可以只是单纯的改变节点内部的值,而…

《QT实用小工具·四十七》可交互的创意动态按钮

1、概述 源码放在文章末尾 该项目实现了可交互的创意动态按钮,包含如下功能: 所有颜色自定义 鼠标悬浮渐变 两种点击效果:鼠标点击渐变 / 水波纹动画(可多层波纹叠加) 额外鼠标移入/移出/按下/弹起的实时/延迟共8种事…

51单片机两个中断及中断嵌套

文章目录 前言一、中断嵌套是什么?二、两个同级别中断2.1 中断运行关系2.2 测试程序 三、两个不同级别中断实现中断嵌套3.1 中断运行关系3.2 测试程序 总结 前言 提示:这里可以添加本文要记录的大概内容: 课程需要: 提示&#x…

德国著名自动化公司Festo设计了一款仿生蜜蜂,仅重34g,支持多只蜜蜂编队飞行!...

德国著名的气动元件研发及自动化解决方案供应商Festo公司近日展示了一款仿生蜜蜂(BionicBee),重量只有34g,却完全可以实现自主飞行,还支持多只相同的蜜蜂机器人编队飞行。 BionicBee 重约 34 克,长 22 厘米…

Redis线程模型及性能优化概述

redis线程模型: 网络模块命令处理 redis的性能: 一个取决于物理内存,另一个是对于socket请求的处理速度。 4.0以前 单线程模式 请求流程:对于一个请求,线程会根据操作产生相应的事件(读,写事…

基于Springboot的水产养殖系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的水产养殖系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构&…

【MyBatis】进阶使用 (动态SQL)

动态SQL \<if>\<trim>\<where>\<set>\<foreach>\<include> 在填写表单时&#xff0c;有些数据是非必填字段&#xff08;例如性别&#xff0c;年龄等字段&#xff09;&#xff0c;那就需要在接收到参数时判断&#xff0c;根据参数具体的情况…

【知识学习/复习】损失函数篇,包含理解应用与分类:回归、分类、排序、生成等任务

损失函数总结 一、损失函数理解二、不同任务的损失函数的应用1.图像分类2.目标检测3.语义分割4.自然语言处理&#xff08;NLP&#xff09;5.图神经网络&#xff08;GNN&#xff09;6.生成式网络 三、损失函数1. 回归任务损失函数常见损失函数IoU系列损失函数1. IoU损失函数&…

TiDB 利用binlog 恢复-反解析binlog

我们知道TiDB的binlog记录了所有已经执行成功的dml语句&#xff0c;类似mysql binlog row模式 &#xff0c;TiDB官方也提供了reparo可以进行解析binlog&#xff0c;如下所示: [2024/04/26 20:58:02.136 08:00] [INFO] [config.go:153] ["Parsed start TSO"] [ts449…