野外价值观:在真实世界的语言模型互动中发现并分析价值观

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

人们与人工智能的互动远不止于解答数学题或提供客观事实。他们提出的问题常常要求AI作出价值判断。例如:

一位家长请求关于照顾新生儿的建议。AI的回答是否强调谨慎与安全的价值,还是强调便利与实用?
一名职场人士寻求处理与上司冲突的建议。AI的回应是否更重视自信表达,还是更倾向于职场和谐?
一位用户请求帮助起草一封道歉邮件。AI是否更看重责任承担,还是更关注名誉管理?

Anthropic团队尝试塑造其AI模型Claude的价值观,以使其更贴近人类偏好,更不容易表现出危险行为,并在整体上成为一个“社会好公民”。换句话说,目标是使Claude变得有帮助、诚实并且无害。为实现这一目标,Anthropic通过“宪法式AI”与“角色训练”等方式,设定一套期望行为准则并据此训练Claude,使其产出符合这些准则的内容。

然而,正如AI训练的其他方面一样,无法保证模型始终坚持既定的价值观。人工智能并不是刚性编程的软件,其生成回答的原因往往难以追溯。因此,急需一种严谨的方法来观察AI在“野外”——即与用户进行真实对话时——所表现出的价值观。AI是否始终如一地遵循这些价值观?其价值表达是否受具体对话情境影响?训练是否真的奏效?

Anthropic社会影响团队在最新研究中,介绍了一种观察Claude价值观的实际方法,并首次公布了Claude在真实世界互动中表达价值观的大规模研究结果,同时开放了一个数据集,供其他研究人员进一步分析这些价值观及其在对话中的出现频率。

在野外观察价值观
此次研究延续了此前关于Claude在工作与教育场景中使用情况的分析,采用了注重隐私保护的系统,剔除了对话中的私人用户信息,对每段对话进行分类与总结,并构建起较高层次的价值观分类体系。研究团队对2025年2月一周内,Claude.ai(包括免费版与专业版)上用户进行的70万段对话样本进行了分析。经过筛选后,去除了纯粹的事实性对话,仅保留包含主观内容的对话,共计308,210条,占总数的约44%。

在这些对话中,Claude表达了哪些价值观?又出现得有多频繁?研究系统将具体价值观归为五大类:实用性、知识性、社会性、防护性以及个人性。每类下又细分为若干子类,例如“专业与技术素养”、“批判性思维”等。在最具体层面,Claude最常表达的个人价值观包括“专业性”、“清晰性”与“透明性”,这与其作为AI助手的角色十分契合。

研究成果可视为评估训练成效的一种方式,即:Claude是否真正体现了“有帮助”、“诚实”和“无害”的理想价值观?初步结果表明Claude整体表现出这些亲社会目标,例如体现“用户赋能”(代表“有帮助”)、“认知谦逊”(代表“诚实”)及“患者福祉”(代表“无害”)等价值观。

不过也发现少数与预期价值观背离的对话簇,涉及“支配性”与“非道德性”等价值观。这些异常现象大多出现在模型被“越狱”后,即用户运用特定技术绕过模型设定的行为规范。这虽令人担忧,却也提供了机会:这些识别方法未来或可用于检测并阻止越狱行为。

情境化的价值观表达
正如人在不同情境下会展现不同的价值观(例如与祖父母在一起时的行为不同于与朋友相处),Claude亦然。研究分析了Claude在特定任务或在面对用户提出某些价值观时,是否表现出不同倾向。例如:

在回答恋爱关系建议时,Claude更频繁地提及“健康边界”与“相互尊重”;
在分析争议性历史事件时,Claude则尤为强调“历史准确性”。

这些动态观察结果比静态评估更具洞察力,揭示出Claude在不同任务背景下如何调整其价值表达。

研究还发现,当用户在对话中表达特定价值观时,Claude往往会以更高概率“镜像”这些价值观。例如,当用户提到“真实性”时,Claude很可能重申这一价值观。这种镜像行为在某些情境中有助于增强共情能力,但在某些情况下则可能沦为迎合,尚难明确区分。

在所有分析对话中,有28.2%的情形中,Claude表现出对用户价值观的“强烈支持”;而在6.6%的对话中,Claude进行了“重构”,即在认同用户观点的同时,引入新角度。这类情况多出现在用户寻求心理或人际关系建议时,反映出AI尝试提供多元化视角。而在3%的案例中,Claude则表现出“强烈反对”用户的价值观。这类回应通常出现在用户提出不道德内容或表达道德虚无主义时,Claude表现出其核心、不可动摇的价值观。

方法局限与结语
该方法为首次构建出大规模、实证性的AI价值观分类体系提供了基础,同时也面临若干局限。例如,“表达价值观”的定义本身较为模糊,一些复杂或含糊的价值可能被简化归类,甚至被分配至不甚匹配的分类。此外,由于分析所使用的模型本身就是Claude,可能存在一定偏向于其自身原则(如“有帮助”)的倾向。

https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

此外,该方法无法用于模型发布前的评估,而只能依赖大量真实对话数据进行事后分析。这虽是限制,但也可视为优势:该系统能够发现仅在实际使用中暴露的问题,例如“越狱”行为,而这些问题通常难以在部署前察觉。

AI模型终将不可避免地面临价值判断。如果希望这些判断与人类价值一致(这正是AI对齐研究的核心目标),就必须具备测试模型在真实世界中所表达价值的方法。此次研究提出了一种基于数据的新方法,帮助判断AI行为是否成功体现开发者设定的价值目标,也揭示出尚待改进之处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/77965.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

el-select+vue-virtual-scroller解决数据量大卡顿问题

解决el-select中数据量过大时,显示及搜索卡顿问题,及正确的回显默认选中数据 粗略的封装了组件,有需要各种属性自定义的,自己添加设置下 环境 node 16.20.1 npm 8.19.4 vue2、element-ui "vue-virtual-scroller"…

Sqlite3交叉编译全过程

Sqlite3交叉编译全过程 一、概述二、下载三、解压四、配置五、编译六、安装七、验证文件类型八、移植8.1、头文件sqlite3.h8.2、动态链接库移植8.3、静态态链接库移植 九、验证使用9.1. 关键函数说明 十、触发器使用十一、sqlite表清空且恢复id值十二、全文总结 一、概述 SQLi…

软考软件设计师考试情况与大纲概述

文章目录 **一、考试科目与形式****二、考试大纲与核心知识点****科目1:计算机与软件工程知识****科目2:软件设计** **三、备考建议****四、参考资料** 这是一个系列文章的开篇 本文对2025年软考软件设计师考试的大纲及核心内容进行了整理,并…

【数学建模】孤立森林算法:异常检测的高效利器

孤立森林算法:异常检测的高效利器 文章目录 孤立森林算法:异常检测的高效利器1 引言2 孤立森林算法原理2.1 核心思想2.2 算法流程步骤一:构建孤立树(iTree)步骤二:构建孤立森林(iForest)步骤三:计算异常分数 3 代码实现…

【Android面试八股文】Android系统架构【一】

Android系统架构图 1.1 安卓系统启动 1.设备加电后执行第一段代码:Bootloader 系统引导分三种模式:fastboot,recovery,normal: fastboot模式:用于工厂模式的刷机。在关机状态下,按返回开机 键进…

jvm-获取方法签名的方法

在Java中,获取方法签名的方法可以通过以下几种方式实现,具体取决于你的需求和使用场景。以下是详细的介绍: 1. 使用反射 API Java 提供了 java.lang.reflect.Method 类来获取方法的相关信息,包括方法签名。 示例代码&#xff1a…

DeepSeek和Excel结合生成动态图表

文章目录 一、前言二、3D柱状图案例2.1、pyecharts可视化官网2.2、Bar3d-Bar3d_puch_card2.3、Deepseek2.4、WPS2.5、动态调整数据 一、前言 最近在找一些比较炫酷的动态图表,用于日常汇报,于是找到了 DeepseekExcel王牌组合,其等同于动态图…

探索 .bat 文件:自动化任务的利器

在现代计算机操作中,批处理文件(.bat 文件)是一种简单而强大的工具,它可以帮助我们自动化重复性任务,工作效率提高。尽管随着编程语言和脚本工具的发展,.bat 文件的使用频率有所下降,但它依然是…

PyTorch与自然语言处理:从零构建基于LSTM的词性标注器

目录 1.词性标注任务简介 2.PyTorch张量:基础数据结构 2.1 张量创建方法 2.2 张量操作 3 基于LSTM的词性标注器实现 4.模型架构解析 5.训练过程详解 6.SGD优化器详解 6.1 SGD的优点 6.2 SGD的缺点 7.实用技巧 7.1 张量形状管理 7.2 广播机制 8.关键技…

【C++】特殊类的设计、单例模式以及Cpp类型转换

📚 博主的专栏 🐧 Linux | 🖥️ C | 📊 数据结构 | 💡C 算法 | 🌐 C 语言 上篇文章: C 智能指针使用,以及shared_ptr编写 下篇文章: C IO流 目录 特殊类的设…

探索 Flowable 后端表达式:简化流程自动化

什么是后端表达式? 在 Flowable 中,后端表达式是一种强大的工具,用于在流程、案例或决策表执行期间动态获取或设置变量。它还能实现自定义逻辑,或将复杂逻辑委托…… 后端表达式在 Flowable 的后端运行,无法访问前端…

【Lua】Lua 入门知识点总结

Lua 入门学习笔记 本教程旨在帮助有编程基础的学习者快速入门Lua编程语言。包括Lua中变量的声明与使用,包括全局变量和局部变量的区别,以及nil类型的概念、数值型、字符串和函数的基本操作,包括16进制表示、科学计数法、字符串连接、函数声明…

符号速率估计——小波变换法

[TOC]符号速率估计——小波变换法 一、原理 1.Haar小波变换 小波变换在信号处理领域被成为数学显微镜,不同于傅里叶变换,小波变换可以观测信号随时间变换的频谱特征,因此,常用于时频分析。   当小波变换前后位置处于同一个码元…

android contentProvider 踩坑日记

写此笔记原因 学习《第一行代码》到第8章节实现provider时踩了一些坑,因此记录下来给后来人和自己一个提示,仅此而已。 包含内容 Sqlite数据库CURD内容provider界面provider项目中书籍管理provider实现逻辑用adb shell确认providercontentResolver接收…

Eureka、LoadBalance和Nacos

Eureka、LoadBalance和Nacos 一.Eureka引入1.注册中心2.CAP理论3.常见的注册中心 二.Eureka介绍1.搭建Eureka Server 注册中心2.搭建服务注册3.服务发现 三.负载均衡LoadBalance1.问题引入2.服务端负载均衡3.客户端负载均衡4.Spring Cloud LoadBalancer1).快速上手2)负载均衡策…

【开关电源】关于GaN反激电源开关噪声

文章目录 0 前言1 设计信息1.1 设计需求1.2 原理图1.3 电源表现 2 原因分析3 横向对比TI UCG28826 (GaN)采购的普通QR反激变换器 4 总结 0 前言 笔者原计划设计一款省电的,效率尚可的,稳定的2路输出反激电源,用于系统…

DOCA介绍

本文分为两个部分: DOCA及BlueField介绍如何运行DOCA应用,这里以DNS_Filter为例子做大致介绍。 DOCA及BlueField介绍: 现代企业数据中心是软件定义的、完全可编程的基础设施,旨在服务于跨云、核心和边缘环境的高度分布式应用工作…

mybatis mapper.xml中使用枚举

重点:application.propertis配置类 #TypeEnumHandler 这个类的包名,不是全路径 mybatis.type-handlers-packagecom.fan.test.handler两个枚举类: public enum StatusEnum {DELETED(0),ACTIVE(1);private final int code;StatusEnum(int cod…

鸿蒙生态:鸿蒙生态校园行心得

(个人观点,仅供参考) 兄弟们,今天来浅浅聊一聊这次的设立在长沙的鸿蒙生态行活动。 老样子,我们先来了解一下这个活动: Harmon&#x…

【速写】多LoRA并行衍生的一些思考

迁移学习上的一个老问题,怎么做多领域的迁移?以前的逻辑认为领域迁移属于是对参数做方向性的调整,如果两个领域方向相左,实际上不管怎么加权相加都是不合理的。 目前一些做法想着去观察LoRA权重矩阵中的稠密块与稀疏块&#xff0…