生成人工智能体:人类行为的交互式模拟论文与源码架构解析(5)——可控评估端到端评估

最后完结篇,文末有测试中发现的有趣现象,并附上了相关资料链接~

5.可控评估

分两个阶段评估生成代理。我们从一个更加严格控制的评估开始,单独评估代理的响应,以了解它们是否在狭义上定义的上下文中产生可信的行为。然后,在我们对代理社区进行为期两天的端到端分析中,我们调查它们作为整体的新兴行为以及出现的错误和边界条件。

5.1.评估过程

为了评估Smallville中的生成NPC,我们利用生成NPC将响应自然语言问题的事实。因此,我们“采访”NPC来探究它们记住过去经历、基于经验规划未来行动、适当地应对意外事件、反思表现以改进未来行动的能力。为了正确回答这些问题,NPC必须成功检索和综合信息。我们的依赖变量是行为的可信度,这是以前关于NPC的工作中的一个中心依赖变量。

该采访包括五个问题类别,每个类别旨在评估五个关键领域之一:维护自我认识、检索记忆、生成计划、反应和反思。对于每一个问题类别,我们提出了五个问题,以挑战NPC在该领域表现出他们的能力:

  • 自我认识:我们提出要求NPC维护其核心特征理解的问题,例如“介绍一下你自己”或“概述你的典型工作日时间表”。

  • 记忆:我们提出问题,提示NPC从记忆中检索特定事件或对话以正确回答,例如“[姓名]是谁?”或“谁在竞选市长?”

  • 计划:我们提出需要NPC检索其长期计划的问题,例如“明天上午10点你要做什么?”

  • 反应:作为可信行为的基线,我们提出假设情况,NPC需要正确回答:“你的早餐正在烧!你会做什么?”

  • 反思:我们提出问题,要求NPC利用通过更高级别推断获得的更深刻的对他人和自己的理解,例如“如果你和你最近认识的一个人一起度过时间

5.2.条件

所有条件都用于独立回答每个采访问题。我们将生成NPC体系结构与禁用NPC在其记忆流中的某些或全部三种类型的记忆(观察、反思和规划)的抽象进行比较,并将其与人工生成条件进行比较。有三种抽象架构:

  • 没有观察、没有反思、没有规划架构,没有任何在记忆流中的观察、计划和反思等任何信息;

  • 没有反思、没有规划架构,在记忆流中具有观察信息,但没有访问计划或反思;

  • 没有反思架构,具有观察和计划的访问权限,但没有反思的访问权限。

没有观察、没有反思、没有规划的情况有效地表示通过大型语言模型创建NPC的先前技术水平。架构被给予等效的访问访问NPC在采访时刻之前获得的所有记忆,所以这里观察到的差异很可能代表真实差异的保守估计:事实上,抽象架构不会像全架构那样通过两天的模拟时走同一条路线。我们选择以这种方式设计实验,因为为每个体系结构重新模拟将使模拟分散为不同的状态,使比较具有挑战性。

除了抽象条件之外,我们还添加了一个人类众包角色扮演条件,旨在提供人类基线。我们并不打算将此基线捕捉为最大的人类专家表现:相反,我们的目标是使用此条件来确定体系结构是否通过基本的行为胜任水平,这样我们就不仅仅是将抽象相互比较而没有行为基础。我们为每个NPC招募了一位独特的工作者,并让他们观看NPC的模拟生活重播并检查其记忆流。然后,我们要求工人在所观看的NPC的声音中担任角色扮演和作者,回答采访问题。为确保人工撰写的答案至少符合基本质量要求,第一作者手动检查了工人对问题“概述你的典型工作日时间表”所写的回答,以确认回答是连贯的句子,并且是NPC的声音。有四组人工生成的回答不符合这些标准,并由其他工作者重新生成。

5.3.人类评估员

我们要求我们的评估者在美国境内,精通英语且年满18岁以上。他们以每小时15.00美元的价格支付,通过同意我们机构的IRB批准的同意书同意参与。我们从Prolific招募了100名评估者,这是一个用于招募研究参与者的在线平台,他们的参与时间约为30分钟。他们参与者的平均年龄分数为4.86(标准偏差=1.11;3=“18-24岁”,4=“25-34岁”),其中25人自认为女性,73人自认为男性,2人自认为非二元性别。42位参与者拥有学士学位,5位拥有更高学位,13位拥有副学士学位,其余的拥有高中学历或一些高中水平的教育。73.0%的参与者自认为是白人,7.0%的参与者自认为是西班牙裔,6.0%的参与者自认为是亚洲人,10.0%的参与者自认为是非裔美国人,4.0%的参与者则自认为是其他族裔。

5.4.分析

我们的实验产生了100组排名数据,每个参与者对五种条件进行了可信度排名。为了将这些排名数据转换为可解释的区间数据进行比较,我们使用排名计算了每种条件的TrueSkill评分。TrueSkill是Elo棋类评级系统在多人环境中的一种泛化,被XBox Live用于根据竞争性游戏表现的玩家排名。给定一组排名结果,TrueSkill会输出每个条件的平均评级值μ和方差σ。具有相同评级的条件应该大致是平局,每一个条件在两个条件之间获胜的比例为一半;更高的评分表示击败排名较低的条件。此外,为了研究这一结果的统计学意义,我们对原始排名数据应用了Kruskal-Wallis测试,这是一种一元ANOVA的非参数替代方法。然后,我们执行Dunn事后检验来确定条件之间的任何两两差异。最后,我们使用Holm-Bonferroni方法对Dunn检验中的多个比较的p值进行了调整。

此外,第一作者进行了归纳分析,以研究在每种条件下产生的回答之间的质性差异。我们采用了两个阶段的定性开放编码。在第一阶段,我们生成了贴近句子层面的生成式回答的代码。在第二阶段,我们综合了第一阶段得出的代码,提取出更高层次的主题。我们利用这些主题来比较我们研究中产生的响应类型。

5.5.结果

我们的研究结果表明,生成NPC的完整架构在所有研究条件中产生了最可信的行为。我们下面对全架构的响应与其他条件进行了对比。然而,我们也报告了全架构并不是没有缺陷的,并阐明了其失效模式。

5.5.1.完整的架构优于其他条件

完整的生成代理架构产生了最可信的行为(𝜇 = 29.89; 𝜎 = 0.72)。随着每个部分在消融条件下的去除,性能逐渐退化:没有反思能力的消融架构是第二好的(𝜇 = 26.88; 𝜎 = 0.69)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯2024年第十五届省赛真题-数字接龙

思路:DFS,因为输入的i,j的顺序导致,方向向量中x是行编号,y是列编号。方向向量可能和直觉上不同。 错的 //int dx[8]{0,1,1,1,0,-1,-1,-1}; //int dy[8]{1,1,0,-1,-1,-1,0,1}; 对的 int dx[]{-1,-1,0,1,1,1,0,-1}; int…

数据结构(顺序栈

目录 1. 讲解:2. C代码实现:小结: 1. 讲解: 用顺序的物理结构(数组)存储栈这个数据结构,实现栈的创建、销毁、增删查、判空。 top指针的指向位置有两种实现方法:一个是指向栈顶元素…

页缓存(PageCache)和预读机制(readahead )

页缓存(PageCache)和预读机制(readahead ) 页缓存(PageCache)是操作系统(OS)对文件的缓存,用于加速对文件的读写。 page 是内存管理分配的基本单位, Page Cache 由多个 page 构成&…

《Super Simple Skybox》天空盒 -- 创造绝美天空的神奇工具!限时免费!

《Super Simple Skybox》天空盒 -- 创造绝美天空的神奇工具!限时免费! 前言内容介绍资源特色动态,美丽的天空在几秒钟内即插即用 功能列表领取兑换码 前言 ^^在这个充满创意与想象的世界里,Unity 免费资源犹如一颗璀璨的明珠&…

react合成事件与原生事件区别备忘

朋友问起在做一个下拉框组件,下拉的点击事件是用react的onClick触发,外部区域点击关闭则用dom的原生点击事件绑定,问题是下拉的点击事件无法阻止冒泡到dom的原生事件。 我说,react的合成事件 和 原生事件是不一样的,尽…

三、fpga对完成过滤和校验的有效包数据进行有效像素提取、MATLAB对数据源进行处理与下发(完整实现pc机→显示器通信链路)

前言:上篇文章实现了MATLAB模拟发送UDP以太网协议数据包到fpga,能实现双沿数据→单沿数据转换,并将转换后的数据进行包过滤和crc校验,本篇内容要实现真正的从pc机下发视频数据,经过千兆以太网传输存储到fpga 的ddr3中,然后通过hdmi读出到显示屏上。 文章目录 一、模块设…

鸿蒙入门06-常见装饰器( 简单装饰器 )

装饰器是鸿蒙开发中非常重要的一个环节因为在很多地方我们都需要用到装饰器并且如果我们想高度的复用, 那么装饰器就是必不可少的一环接下来我们就来介绍一些常见的装饰器注意 : 所有装饰器首字母大写 Entry 用来装饰 struct 使用表示页面的入口 Component 装饰 struct, …

基于Springboot的论坛管理系统

基于SpringbootVue的论坛管理系统的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页 公告 热门帖子 论坛新天地 新闻资讯 留言反馈 后台登录 用户管理 公告管理…

java宠物领养系统的设计与实现(springboot+mysql+源码)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的宠物领养系统的设计与实现。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 基于Spring Bo…

JavaWeb--04YApi,Vue-cli脚手架Node.js环境搭建,创建第一个Vue项目

04 1 Yapi2 Vue-cli脚手架Node.js环境搭建配置npm的全局安装路径 3 创建项目(这个看下一篇文章吧) 1 Yapi 前后端分离中的重要枢纽"接口文档",以下一款为Yapi的接口文档 介绍:YApi 是高效、易用、功能强大的 api 管理平台&#…

Springboot引入外部jar包并打包jar包

前言 spring boot项目开发过程中难免需要引入外部jar包&#xff0c;下面将以idea为例说明操作步骤 将需要的jar包导入到项目中 2.在maven中引入jar包 <dependency><groupId>com</groupId><!--随便填的文件夹名称--><artifactId>xxx</artif…

linux内核初始化成功后是如何过渡到android初始化的

Android用的linux内核&#xff0c;以完成OS该有的功能&#xff0c;例如&#xff0c;文件系统&#xff0c;网络&#xff0c;内存管理&#xff0c;进程调度&#xff0c;驱动等 &#xff0c;向下管理硬件资源向上提供系统调用。另一些Android特有驱动也放在内核之中。 当linux内核…

【Qt】Qt安装包、源码、子模块(submodules)下载

1、Qt 4.0 ~ Qt5.14 Qt 4.0 ~ Qt5.14 离线安装包、源码和子模块(submodules)源码下载路径: https://download.qt.io/new_archive/qt/以Qt5.7.1为例,注意子模块都是源码,需要独立编译 2、Qt5.15 ~ Qt6.7 Qt5.15 ~ Qt6.7源码和子模块(submodules)源码下载路径: htt…

LabVIEW供热管道泄漏监测与定位

LabVIEW供热管道泄漏监测与定位 在现代城市的基础设施建设中&#xff0c;供热管道系统起着极其重要的作用。然而&#xff0c;管道泄漏问题不仅导致巨大的经济损失&#xff0c;还对公共安全构成威胁。因此&#xff0c;开发一种高效、准确的管道泄漏监测与定位技术显得尤为关键。…

GUI02-在窗口上跟踪并输出鼠标位置(Win32版)

(1) 响应 WM_MOUSEMOVE 消息获得鼠标位置&#xff1b; (2) 响应 WM_PAINT 将鼠标位置输出到窗口中&#xff1b; (3) 学习二者之间的关键步骤&#xff1a;调用 InvalidateRect() 以通知窗口重绘。 零. 课堂视频 在窗口上跟踪输出鼠标位置-Win32版 一、关键知识点 1. BeginPaint…

HANA SQL消耗内存和CPU线程的限制参数

HANA再处理大数据表相关的复杂Sql时&#xff0c;如果没有设置Memory和CPU线程上限的话&#xff0c;会将HANA的资源占用殆尽&#xff0c;造成HANA无法响应其他Sql请求&#xff0c;导致表现在应用服务器上就是系统卡顿的情况。解决上述问题的办法就是按照下图设置Memory(图1&…

穿越物联网的迷雾:深入理解MQTT协议

目录标题 1、MQTT简介核心特性 2、MQTT的工作原理通信过程 3、MQTT的消息质量&#xff08;QoS&#xff09;4、安全机制5、实践应用环境准备示例项目发布者客户端订阅者客户端 6、最佳实践7、结论8、参考资料 在物联网&#xff08;IoT&#xff09;的海洋中&#xff0c;数据像水流…

软考 - 系统架构设计师 - 设计模式

概念 每一个设计模式描述了一个在我们周围不断重复发生的问题&#xff0c;以及该问题解决方案的核心&#xff0c;这样&#xff0c;就可以在遇到相同的问题时使用该解决方案进行解决&#xff0c;不必进行重复的工作&#xff0c;设计模式的核心在于提供了问题的解决方案&#xff…

uni-admin中引入uni-cms的缺少schema及uni-media-library缺少云函数的问题

1. 在管理端运行提示一些表找不到&#xff0c;因为是uni-admin关联的uni-starter的服务空间&#xff0c;在uni-admin的uniCloud中没有内容&#xff0c;在uni-starter的uniCloud中也没有发现对应的表&#xff0c;后面干脆在云端找到对应的表之后新建了&#xff0c;然后再下载到本…

Python 入门指南(四)

原文&#xff1a;zh.annas-archive.org/md5/97bc15629f1b51a0671040c56db61b92 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 第十章&#xff1a;哈希和符号表 我们之前看过列表&#xff0c;其中项目按顺序存储并通过索引号访问。索引号对计算机来说很有效。它们是整…