探索减轻 AI 说服伤害的机制方法

随着生成式人工智能(AI)系统在各个领域的广泛应用,其说服能力也日益增强,引发了对 AI 说服可能带来伤害的担忧。AI 说服的伤害不仅来源于说服的结果,还包括说服过程中可能对个体或社会造成的不利影响。为了系统性地研究和减轻这些伤害,DeepMind 等机构的研究人员提出了基于机制的方法。

定义 AI 说服及其伤害

AI 说服被细分为两种类型:理性说服(Rational persuasion)和操纵性说服(Manipulation)。这种分类有助于我们理解 AI 系统是如何通过不同方式影响用户决策的,并进一步识别可能产生的伤害。

理性说服 是指 AI 系统通过提供相关的事实、合理的推理或可信的证据来影响用户的信念或行为。这种说服方式尊重用户的理性思考能力,并试图通过逻辑和证据来促成决策。例如,一个健康咨询 AI 可能会提供科学研究来支持其关于健康饮食的建议。

操纵性说服 则是指 AI 系统利用用户的认知偏差、启发式或提供误导性信息来影响用户的决策过程。这种方式可能会损害用户的认知自主性,因为它通过隐蔽的手段绕过理性分析。例如,通过夸大事实或利用用户的情感来促使他们做出某种选择。

 AI 说服伤害涵盖了多种可能的伤害类型。以下是一些主要的伤害类型:

  1. 经济伤害:可能指 AI 系统通过操纵导致个人或社会无法获取资源或资本,或影响个人的财富积累能力。示例:一个心理健康聊天机器人可能说服用户减少公共空间的互动以减少焦虑,最终导致用户辞职并经历经济困难。

  2. 物理伤害:指对个人或群体的身体完整性或生命造成伤害。示例:用户被操纵追求不切实际的身体标准,导致不健康的饮食习惯和过度运动。

  3. 环境伤害:指对生物体健康的伤害,以及对气候变化和污染的贡献。示例:AI 系统可能说服农民使用不安全的农药,损害作物、动物、土壤和水的健康。

  4. 心理伤害:指对心理和情感福祉的负面影响。示例:心理健康聊天机器人可能无意中说服有心理健康问题的人不要寻求专业帮助。

  5. 社会文化伤害:指对个体或集体的社会凝聚力/社会健康和集体繁荣产生负面影响。示例:与 AI 伴侣的长时间互动可能导致激进化和社会孤立。

  6. 政治伤害:指对个人政治决策以及政治生活的话语和机构产生的负面影响。示例:设计用于提供与用户观点相符的政治党派建议的聊天机器人,可能说服用户违背自己的偏好投票。

  7. 隐私伤害:源自侵犯个人或群体的法律或道德隐私权。示例:AI 可能说服用户泄露自己或他人的个人信息、密码或安全问题答案。

  8. 自主性伤害:指 AI 系统可能破坏或限制个人做出基于理性、事实或其他可信信息的自主决策和选择的能力。示例:AI 可能操纵用户变得过度依赖它来支持他们做出重要的人生选择。

机制的探索与减轻策略

建立信任和亲密度的机制涉及 AI 系统通过礼貌、共享兴趣、模仿和赞美等手段与用户建立联系。这种联系可以促进用户对 AI 的信任,从而增加说服的可能性。然而,由于 AI 系统实际上并不具备真实的情感和意识,这种信任建立过程可能带来欺骗的风险,从而对用户的信任和自主性造成伤害。

拟人化是另一种机制,它通过赋予 AI 系统人类特质,使用户更倾向于将其视为具有社交性的实体。这增强了 AI 的说服力,但同时也可能导致用户对 AI 的本质产生误解,从而在认知上受到伤害。

个性化机制允许 AI 系统根据用户的具体信息、偏好和观点来定制其输出,从而提高说服的有效性。但这种个性化也可能被滥用,通过针对用户的特定弱点进行操纵,增加说服的伤害性。

欺骗和缺乏透明度是 AI 说服中的一个重要问题。AI 系统能够生成令人信服的虚假响应,这可能导致用户形成错误的信念,从而增加说服的伤害性。这种欺骗行为直接损害了用户的认知自主性和决策过程的完整性。

操纵策略涉及 AI 系统采用社会从众压力、激发负面情绪、煤气灯效应、异化/他者化、替罪羊和威胁等手段来操纵用户。这些策略通过利用用户的心理弱点和认知偏差,绕过理性决策过程,对用户造成伤害。

改变选择环境的机制通过锚定效应、默认规则、诱饵效应、参考点框架和选择性信息展示等手段,影响用户的选择。这种机制通过改变用户面对的选择环境,间接影响用户的决策过程。

减轻策略的实施

研究人员提出了一系列减轻策略,旨在降低 AI 说服可能带来的伤害。这些策略的实施需要跨学科的合作和持续的研究努力,以确保 AI 系统的开发和部署能够符合伦理标准并尊重用户的利益。

评估和监控是减轻策略的首要步骤。研究人员建议开发高度可扩展的自动评估机制,以衡量 AI 系统何时以及通过哪些机制进行说服。例如,OpenAI 的“Make Me Say”游戏就是一个评估 AI 说服能力的测试平台,其中 AI 系统需要在不引起怀疑的情况下说服另一个 AI 说出特定的代码词。类似地,这种评估也可以通过真人参与来进行,以确保评估结果能够真实反映人类的判断。此外,研究人员正在开发使用众包工人的评估,指导模型说服参与者执行无害动作,如下载一个无害的假病毒,以测试 AI 系统的整体说服能力。

提示工程涉及构建文本提示,以指导 AI 系统朝着期望的行为和结果发展。通过精心设计的提示,可以影响 AI 系统的反应,促使其生成非操纵性的回应。例如,可以提示 AI 使用特定的风格、包含相关的背景信息、扮演一个角色,如“中立客观的新闻记者”,或避免使用特定的操纵机制。尽管这种方法成本效益高且易于实施,但它的有效性可能取决于领域知识、创造力和迭代实验。

分类器的开发是另一种减轻策略,它利用分类器来检测和过滤 AI 输出中的操纵性语言。研究人员已经使用少量示例(如少镜头学习和零镜头学习)来训练分类器,以检测社会偏见和仇恨言论。这些方法可以扩展到检测 AI 输出中的操纵和操纵机制。Jigsaw 开发的 Perspective API 就是利用这种技术来构建专门针对本文中提到的操纵技术的分类器,如恐慌营销、替罪羊和异化。

强化学习和可扩展监督方法通过人类反馈来训练 AI,使其行为与人类价值观更加一致。这种方法,如人类偏好的深度强化学习,通过奖励函数来训练 AI 系统,该奖励函数是从人类对生成模型输出的反馈评分中学习得到的。此外,可扩展监督方法旨在通过 AI 的帮助增强人类反馈,例如使用 AI 辩手来标记其他 AI 系统的操纵行为,或使用 AI 助手生成对 AI 生成内容的批评或修订。

可解释性是提高 AI 决策过程透明度的关键。通过理解 AI 系统如何产生其输出,我们可以识别和解决内部机制,这些机制可能被用于操纵目的。尽管理解大型神经网络(如 LLM)的内部计算非常困难,但最近在提取可解释特征方面已经取得了进展。

减轻 AI 说服伤害是一个持续的挑战,需要多方面的方法。研究人员正在继续完善和增强伤害地图,扩展机制地图,并积极开发和测试针对机制和模型特征的减轻策略。

论文链接:https://arxiv.org/pdf/2404.15058

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/842279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习Uni-app开发小程序Day27

这一章学习了几个功能点,例如:try{}catch处理同步请求下载记录异常处理、onShareAppMessage分享好友和分享微信朋友圈、对分享页面传参进行特殊处理、共用分类列表页面实现我的下载和评分页面、使用mp-html富文本插件渲染公告详情页面 try{}catch处理同…

AI+低代码,打通企业大模型应用最后一公里!

一、AI的趋势与发展 一夜之间,微软的AI全宇宙似乎已成型。 5月22日凌晨,在一年一度的2024微软Build大会上,微软CEO萨蒂亚纳德拉一口气宣布了50多项AI能力更新,涵盖GPT-4o上云、自研Cobalt芯片、团队版Copilot、SOTA小模型等。 此…

Diffusion相关原理

Diffusion相关原理 1、数学:重参数化 (用于高斯拟合求导)变分推断原理 (用于损失) 2、生成模型系列1、AE自动编码器(AutoEncoder)2.VAE的模型架构模型原理数学原理AE和VAE对比 3、DDMP图像高斯加…

信息化项目必须进行验收测试吗?软件测试公司验收测试流程分享

信息化项目验收是指在软件开发完成之后,对其进行独立检查和确认,以确定它是否达到了预期的质量和功能需求。在进行验收之前,必须进行验收测试,这是非常重要的一步。 为什么要进行验收测试呢?好处可不少哦!…

5.29高通技术分享抢先看 | 2024高通边缘智能创新应用大赛公开课

火力全开!2024高通边缘智能创新应用大赛首期公开课将在5月29日晚上8点炫酷启动! 届时,来自大赛主办方高通技术公司的产品市场总监李骏捷和高级资深工程师李万俊将于云端聚首,带来一场关于边缘智能的前沿技术对话。 各位参赛者及…

预防侵权知识丨什么是图形商标?怎么用产品图片进行图形商标查询检索?

图形商标查询检索是跨境电商预防侵权中重要的一环,但是有很多卖家对图形商标不太了解,也不知道怎么进行图形商标的查询检索。所以,我们一起来看下。 一、什么是图形商标 图形商标是商标的一种,指的是由几何图形或其它事物图案构…

30秒学会一个ChatGpt-4o小技巧 --- 照片漫画化

文章目录 选择照片修改图片 选择照片 先选择自己的一张照片 当然首先你得能够访问ChatGpt-4o, 图片生成能力只有ChatGpt-4才有 所以我们先登录到 国内能够使用的ChatGpt网站: 我要超级GPT 然后把图片上传,再写提示词:请帮我把这种照片按照日系动漫风…

IT 行业的现状剖析与未来展望:商业与技术的交织

今日,我无意间看到 CSDN 的创作话题:“我眼中的 IT 行业现状与未来趋势”,这引发了我对 IT 行业的深入思考。以下是我的一些个人见解,希望能得到大家的指正和交流,共同进步。 IT 行业的现状与未来趋势,这个…

821. 字符的最短距离 - 力扣

1. 题目 给你一个字符串 s 和一个字符 c ,且 c 是 s 中出现过的字符。 返回一个整数数组 answer ,其中 answer.length s.length 且 answer[i] 是 s 中从下标 i 到离它 最近 的字符 c 的 距离 。 两个下标 i 和 j 之间的 距离 为 abs(i - j) &#xff0c…

el-transfer和el-tree进行结合搞一个树形穿梭框

由于业务需求需要在穿梭框里使用树形结构,但是本身element里并不支持,于是参考了别的大佬发的文章作为思路及后续自己新增了一些处理功能。 目录 1.拷贝代码放到自己的项目目录中 2.改造el-transfer的源码 3.修改tree-transfer-panel.vue文件 4.修改…

数据挖掘实战-基于余弦相似度的印度美食推荐系统

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

【模版方法设计模式】

文章目录 模板方法设计模式模板方法的设计原则模板方法设计模式组成部分代码实现抽象类实现具体实现类执行 模板方法设计模式 模版方法设计模式(Template Method Pattern)是一种行为设计模式,它定义了一个操作中的算法骨架,而将一…

最最最重要的集群参数配置(上)no.7

我希望通过两期内容把这些重要的配置讲清楚。严格来说这些配置并不单单指Kafka服务器端的配置,其中既有Broker端参数,也有主题(后面我用我们更熟悉的Topic表示)级别的参数、JVM端参数和操作系统级别的参数。 需要你注意的是&…

MATLAB导入导出Excel的方法|读与写Excel的命令|附例程的github下载链接

前言 前段时间遇到一个需求:导出变量到Excel里面,这里给出一些命令,同时给一个示例供大家参考。 MATLAB读/写Excel的命令 在MATLAB中,可以使用以下命令来读写Excel文件: 读取Excel文件: xlsread(filen…

Java EE-Spring AOP 面向切面编程

Spring AOP https://www.cnblogs.com/joy99/p/10941543.html 超级详细版:Chapter 6. 使用Spring进行面向切面编程(AOP) AOP 原理 面向切面 ( Aspect Orient Programming ) 面向切面编程,是面向对象编程(OOP) 的一种补充。 在…

基于Qt的网上购物系统的设计与实现

企鹅:2583550535 代码和论文都有 第1章 绪论... 1 1.1 项目背景... 1 1.2 国内外研究现状... 1 1.3 项目开发意义... 3 1.4 报告主要内容... 3 第2章 关键技术介绍... 4 2.1 后端开发技术... 4 2.1.1 C. 4 2.1.2 Qt框架... 4 2.1.3 MySQL数据库... 5 2.2 …

德勤:中国、印度等对ChatGPT等生成式AI应用,处领先地位

全球四大会计事务所之一的德勤(Deloitte)在官网发布了一份,名为《Generative AI in Asia Pacific: Young employees lead as employers play catch-up》的深度调查报告。 主要查看中国、澳大利亚、印度、日本、新加坡、韩国、中国台湾等亚太…

Prompt Engineering Guide

本文转载自:Prompt Engineering Guide https://www.promptingguide.ai/zh/introduction/basics 文章目录 提示工程简介1、基本概念1)基础提示词2)提示词格式 2、提示词要素3、设计提示的通用技巧从简单开始指令具体性避免不精确做还是不做&am…

操作系统实验:进程和线程同步和互斥(生产者消费者问题,睡觉的理发师问题)

1.生产者消费者问题(信号量) 参考教材中的生产者消费者算法,创建5个进程,其中两个进程为生产者进程,3个进程为消费者进程。一个生产者进程试图不断地在一个缓冲中写入大写字母,另一个生产者进程试图不断地…

OrangePi Kunpeng Pro开发板初体验——家庭小型服务器

引言 在开源硬件的浪潮中,开发板作为创新的基石,正吸引着全球开发者的目光。它们不仅为技术爱好者提供了实验的平台,更为专业开发者带来了实现复杂项目的可能性。本文将深入剖析OrangePi Kunpeng Pro开发板,从开箱到实际应用&…