探索减轻 AI 说服伤害的机制方法

随着生成式人工智能(AI)系统在各个领域的广泛应用,其说服能力也日益增强,引发了对 AI 说服可能带来伤害的担忧。AI 说服的伤害不仅来源于说服的结果,还包括说服过程中可能对个体或社会造成的不利影响。为了系统性地研究和减轻这些伤害,DeepMind 等机构的研究人员提出了基于机制的方法。

定义 AI 说服及其伤害

AI 说服被细分为两种类型:理性说服(Rational persuasion)和操纵性说服(Manipulation)。这种分类有助于我们理解 AI 系统是如何通过不同方式影响用户决策的,并进一步识别可能产生的伤害。

理性说服 是指 AI 系统通过提供相关的事实、合理的推理或可信的证据来影响用户的信念或行为。这种说服方式尊重用户的理性思考能力,并试图通过逻辑和证据来促成决策。例如,一个健康咨询 AI 可能会提供科学研究来支持其关于健康饮食的建议。

操纵性说服 则是指 AI 系统利用用户的认知偏差、启发式或提供误导性信息来影响用户的决策过程。这种方式可能会损害用户的认知自主性,因为它通过隐蔽的手段绕过理性分析。例如,通过夸大事实或利用用户的情感来促使他们做出某种选择。

 AI 说服伤害涵盖了多种可能的伤害类型。以下是一些主要的伤害类型:

  1. 经济伤害:可能指 AI 系统通过操纵导致个人或社会无法获取资源或资本,或影响个人的财富积累能力。示例:一个心理健康聊天机器人可能说服用户减少公共空间的互动以减少焦虑,最终导致用户辞职并经历经济困难。

  2. 物理伤害:指对个人或群体的身体完整性或生命造成伤害。示例:用户被操纵追求不切实际的身体标准,导致不健康的饮食习惯和过度运动。

  3. 环境伤害:指对生物体健康的伤害,以及对气候变化和污染的贡献。示例:AI 系统可能说服农民使用不安全的农药,损害作物、动物、土壤和水的健康。

  4. 心理伤害:指对心理和情感福祉的负面影响。示例:心理健康聊天机器人可能无意中说服有心理健康问题的人不要寻求专业帮助。

  5. 社会文化伤害:指对个体或集体的社会凝聚力/社会健康和集体繁荣产生负面影响。示例:与 AI 伴侣的长时间互动可能导致激进化和社会孤立。

  6. 政治伤害:指对个人政治决策以及政治生活的话语和机构产生的负面影响。示例:设计用于提供与用户观点相符的政治党派建议的聊天机器人,可能说服用户违背自己的偏好投票。

  7. 隐私伤害:源自侵犯个人或群体的法律或道德隐私权。示例:AI 可能说服用户泄露自己或他人的个人信息、密码或安全问题答案。

  8. 自主性伤害:指 AI 系统可能破坏或限制个人做出基于理性、事实或其他可信信息的自主决策和选择的能力。示例:AI 可能操纵用户变得过度依赖它来支持他们做出重要的人生选择。

机制的探索与减轻策略

建立信任和亲密度的机制涉及 AI 系统通过礼貌、共享兴趣、模仿和赞美等手段与用户建立联系。这种联系可以促进用户对 AI 的信任,从而增加说服的可能性。然而,由于 AI 系统实际上并不具备真实的情感和意识,这种信任建立过程可能带来欺骗的风险,从而对用户的信任和自主性造成伤害。

拟人化是另一种机制,它通过赋予 AI 系统人类特质,使用户更倾向于将其视为具有社交性的实体。这增强了 AI 的说服力,但同时也可能导致用户对 AI 的本质产生误解,从而在认知上受到伤害。

个性化机制允许 AI 系统根据用户的具体信息、偏好和观点来定制其输出,从而提高说服的有效性。但这种个性化也可能被滥用,通过针对用户的特定弱点进行操纵,增加说服的伤害性。

欺骗和缺乏透明度是 AI 说服中的一个重要问题。AI 系统能够生成令人信服的虚假响应,这可能导致用户形成错误的信念,从而增加说服的伤害性。这种欺骗行为直接损害了用户的认知自主性和决策过程的完整性。

操纵策略涉及 AI 系统采用社会从众压力、激发负面情绪、煤气灯效应、异化/他者化、替罪羊和威胁等手段来操纵用户。这些策略通过利用用户的心理弱点和认知偏差,绕过理性决策过程,对用户造成伤害。

改变选择环境的机制通过锚定效应、默认规则、诱饵效应、参考点框架和选择性信息展示等手段,影响用户的选择。这种机制通过改变用户面对的选择环境,间接影响用户的决策过程。

减轻策略的实施

研究人员提出了一系列减轻策略,旨在降低 AI 说服可能带来的伤害。这些策略的实施需要跨学科的合作和持续的研究努力,以确保 AI 系统的开发和部署能够符合伦理标准并尊重用户的利益。

评估和监控是减轻策略的首要步骤。研究人员建议开发高度可扩展的自动评估机制,以衡量 AI 系统何时以及通过哪些机制进行说服。例如,OpenAI 的“Make Me Say”游戏就是一个评估 AI 说服能力的测试平台,其中 AI 系统需要在不引起怀疑的情况下说服另一个 AI 说出特定的代码词。类似地,这种评估也可以通过真人参与来进行,以确保评估结果能够真实反映人类的判断。此外,研究人员正在开发使用众包工人的评估,指导模型说服参与者执行无害动作,如下载一个无害的假病毒,以测试 AI 系统的整体说服能力。

提示工程涉及构建文本提示,以指导 AI 系统朝着期望的行为和结果发展。通过精心设计的提示,可以影响 AI 系统的反应,促使其生成非操纵性的回应。例如,可以提示 AI 使用特定的风格、包含相关的背景信息、扮演一个角色,如“中立客观的新闻记者”,或避免使用特定的操纵机制。尽管这种方法成本效益高且易于实施,但它的有效性可能取决于领域知识、创造力和迭代实验。

分类器的开发是另一种减轻策略,它利用分类器来检测和过滤 AI 输出中的操纵性语言。研究人员已经使用少量示例(如少镜头学习和零镜头学习)来训练分类器,以检测社会偏见和仇恨言论。这些方法可以扩展到检测 AI 输出中的操纵和操纵机制。Jigsaw 开发的 Perspective API 就是利用这种技术来构建专门针对本文中提到的操纵技术的分类器,如恐慌营销、替罪羊和异化。

强化学习和可扩展监督方法通过人类反馈来训练 AI,使其行为与人类价值观更加一致。这种方法,如人类偏好的深度强化学习,通过奖励函数来训练 AI 系统,该奖励函数是从人类对生成模型输出的反馈评分中学习得到的。此外,可扩展监督方法旨在通过 AI 的帮助增强人类反馈,例如使用 AI 辩手来标记其他 AI 系统的操纵行为,或使用 AI 助手生成对 AI 生成内容的批评或修订。

可解释性是提高 AI 决策过程透明度的关键。通过理解 AI 系统如何产生其输出,我们可以识别和解决内部机制,这些机制可能被用于操纵目的。尽管理解大型神经网络(如 LLM)的内部计算非常困难,但最近在提取可解释特征方面已经取得了进展。

减轻 AI 说服伤害是一个持续的挑战,需要多方面的方法。研究人员正在继续完善和增强伤害地图,扩展机制地图,并积极开发和测试针对机制和模型特征的减轻策略。

论文链接:https://arxiv.org/pdf/2404.15058

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/842279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习Uni-app开发小程序Day27

这一章学习了几个功能点,例如:try{}catch处理同步请求下载记录异常处理、onShareAppMessage分享好友和分享微信朋友圈、对分享页面传参进行特殊处理、共用分类列表页面实现我的下载和评分页面、使用mp-html富文本插件渲染公告详情页面 try{}catch处理同…

AI+低代码,打通企业大模型应用最后一公里!

一、AI的趋势与发展 一夜之间,微软的AI全宇宙似乎已成型。 5月22日凌晨,在一年一度的2024微软Build大会上,微软CEO萨蒂亚纳德拉一口气宣布了50多项AI能力更新,涵盖GPT-4o上云、自研Cobalt芯片、团队版Copilot、SOTA小模型等。 此…

网络通信过程的技术分析

网络通信过程的技术分析 目录 网络通信过程的技术分析 一、引言 二、网络通信基础 三、通信协议 四、数据传输过程 五、网络设备与通信 六、网络安全与通信 七、高级网络通信概念 八、结论 一、引言 网络通信是现代计算机网络中的核心活动,它涉及多个层面的…

Diffusion相关原理

Diffusion相关原理 1、数学:重参数化 (用于高斯拟合求导)变分推断原理 (用于损失) 2、生成模型系列1、AE自动编码器(AutoEncoder)2.VAE的模型架构模型原理数学原理AE和VAE对比 3、DDMP图像高斯加…

信息化项目必须进行验收测试吗?软件测试公司验收测试流程分享

信息化项目验收是指在软件开发完成之后,对其进行独立检查和确认,以确定它是否达到了预期的质量和功能需求。在进行验收之前,必须进行验收测试,这是非常重要的一步。 为什么要进行验收测试呢?好处可不少哦!…

Flutter 中的 ExpansionTile 小部件:全面指南

Flutter 中的 ExpansionTile 小部件:全面指南 在 Flutter 应用中,ExpansionTile 是一个常用的折叠列表项,它允许用户点击标题来展开或折叠更多的内容。这个组件在实现可折叠列表、FAQ 部分或显示详情信息时非常有用。本文将详细介绍 Expansi…

张量视图(Tensor Views)

文章目录 前言1.torch.as_strided()2.torch.detach()3.torch.diagonal()4.torch.expand()5.torch.movedim()6.torch.narrow()7.torch.permute()8.torch.select()9.torch.squeeze()10.torch.transpose()11.torch.t()12.torch.real和torch.imag13.torch.unflatten()14.torch.unsq…

Redis教程(二十):Redis中Lua脚本的使用

Lua脚本 Lua 脚本主要在于提供一种强大且灵活的方式来扩展和定制应用程序的功能。在不同的场景和平台上,Lua 脚本的作用各不相同,以下是一些主要的用途: 嵌入式脚本 Lua 最初设计的目的就是作为一个嵌入到应用程序中的脚本语言。这使得应用开发者可以提供一种途径,让最…

Flutter 中的 LinearProgressIndicator 小部件:全面指南

Flutter 中的 LinearProgressIndicator 小部件:全面指南 在用户界面设计中,进度指示器是提供用户等待反馈的重要元素。Flutter 提供了多种进度指示器组件,其中 LinearProgressIndicator 用于展示水平的进度条。本文将详细介绍 LinearProgres…

【React】二次封装Antd的Table组件

使用Table并不难,但是每次使用都会伴随着很大一部分逻辑,如loding效果、表格分页筛选排序、调接口完毕后赋值等等,使用方法基本一致,所以可以将他们二次封装,从而减少代码量,提升代码可读性。 二次封装表格…

5.29高通技术分享抢先看 | 2024高通边缘智能创新应用大赛公开课

火力全开!2024高通边缘智能创新应用大赛首期公开课将在5月29日晚上8点炫酷启动! 届时,来自大赛主办方高通技术公司的产品市场总监李骏捷和高级资深工程师李万俊将于云端聚首,带来一场关于边缘智能的前沿技术对话。 各位参赛者及…

预防侵权知识丨什么是图形商标?怎么用产品图片进行图形商标查询检索?

图形商标查询检索是跨境电商预防侵权中重要的一环,但是有很多卖家对图形商标不太了解,也不知道怎么进行图形商标的查询检索。所以,我们一起来看下。 一、什么是图形商标 图形商标是商标的一种,指的是由几何图形或其它事物图案构…

网络流量监控指标有哪些?

目录 什么是网络流量监控? 关键网络流量监控指标 带宽利用率 网络延迟(Latency) 抖动(Jitter) 丢包率(Packet Loss Rate) 吞吐量(Throughput) 会话数量&#xff0…

深入理解C++智能指针系列(三)

引言 在现代软件开发中,内存管理是一个核心主题,特别是在使用C这类需要手动管理内存的语言时。智能指针作为一种高效的工具,能够简化内存管理的复杂性。本文将讨论如何利用 std::unique_ptr 来封装复杂的内存管理任务,特别是在涉…

30秒学会一个ChatGpt-4o小技巧 --- 照片漫画化

文章目录 选择照片修改图片 选择照片 先选择自己的一张照片 当然首先你得能够访问ChatGpt-4o, 图片生成能力只有ChatGpt-4才有 所以我们先登录到 国内能够使用的ChatGpt网站: 我要超级GPT 然后把图片上传,再写提示词:请帮我把这种照片按照日系动漫风…

vue根据登录存储的性别来改变背景图

根据登录成功之后&#xff0c;并把信息存入到本地&#xff0c;在个人页面中&#xff0c;并取出来&#xff0c;并渲染它&#xff0c;这是一个根据存储的性别来渲染个人页面的背景图&#xff0c;男女性别不同&#xff0c;背景图也不一样。 template: <div class"top"…

IT 行业的现状剖析与未来展望:商业与技术的交织

今日&#xff0c;我无意间看到 CSDN 的创作话题&#xff1a;“我眼中的 IT 行业现状与未来趋势”&#xff0c;这引发了我对 IT 行业的深入思考。以下是我的一些个人见解&#xff0c;希望能得到大家的指正和交流&#xff0c;共同进步。 IT 行业的现状与未来趋势&#xff0c;这个…

云服务器有啥用?如何拥有一台自己的云服务器?

你们平时都把珍贵的学习资料藏在哪里&#xff1f; 你们是否也遇到过学习资料丢失&#xff0c;或者放在网盘被人发现的问题&#xff1f; 云服务器作为一种灵活、高效、可扩展的计算资源&#xff0c;为用户提供了强大的计算能力和存储空间。所以我们可以尝试通过云服务器来搭建…

【Gtest使用说明】

主要测试的代码 #include <gtest/gtest.h> int add(int a, int b) {return a b; } TEST(MathTest, Add) {EXPECT_EQ(3, add(1, 2));EXPECT_EQ(9, add(2, 3));} int main(int argc, char **argv) {::testing::InitGoogleTest(&argc, argv);return RUN_ALL_TESTS(); …

821. 字符的最短距离 - 力扣

1. 题目 给你一个字符串 s 和一个字符 c &#xff0c;且 c 是 s 中出现过的字符。 返回一个整数数组 answer &#xff0c;其中 answer.length s.length 且 answer[i] 是 s 中从下标 i 到离它 最近 的字符 c 的 距离 。 两个下标 i 和 j 之间的 距离 为 abs(i - j) &#xff0c…