网安加·百家讲坛 | 刘志诚:AI安全风险与未来展望

作者简介:刘志诚,乐信集团信息安全中心总监、OWASP广东区域负责人、网安加社区特聘专家。专注于企业数字化过程中网络空间安全风险治理,对大数据、人工智能、区块链等新技术在金融风险治理领域的应用,以及新技术带来的技术风险治理方面拥有丰富的理论和相关经验。

背景:人工智能安全——一个日益凸显的复杂议题

人工智能(AI)技术正以前所未有的速度渗透到社会生产生活的各个方面,从提升效率到驱动创新,其潜力巨大。

然而,伴随着AI能力的飞速发展,其潜在的安全风险也日益成为全球关注的焦点。“人工智能安全”这一概念本身就具有多重含义,通常可以从以下几个维度理解:

人工智能安全的三重含义

1. AI系统自身的网络安全(Security of AI - Infrastructure)

指AI系统在开发、部署和运营过程中,因存在安全漏洞而被攻击、利用,导致系统的机密性、完整性、可用性受到破坏。这更偏向传统网络安全视角,将AI视为需要保护的信息基础设施。

2. AI引发的广义安全风险(Safety of AI - Inherent Risks)

指AI技术本身及其应用可能带来的固有风险,包括数据驱动的风险、算法与模型风险、生成与对齐风险、应用与集成风险等。

3. 面向安全领域的人工智能应用(AI for Security)

指利用AI技术(如机器学习、深度学习、大语言模型)来提升网络防御能力,例如用于威胁检测、态势感知、安全策略优化等。

本文将重点关注前两种含义,即AI系统自身的安全防护以及AI技术固有和衍生的安全风险。

当前研究热点与焦点领域

当前,全球范围内对人工智能安全的研究高度活跃,主要聚焦于以下几个方面:

▪ 生成式AI的安全问题:作为当前热点,其鲁棒性、可靠性、可解释性、公平性、偏见、隐私保护、伦理治理以及在关键基础设施中的应用安全尤为突出。

▪ 可信人工智能:重点研究如何构建和评估可信赖的AI系统,特别是大型语言模型(LLM),包括提高透明度、增强可解释性、进行可信评估与测试。

▪ 对抗性机器学习:研究AI模型如何抵御恶意制作的输入(对抗样本)或其他旨在欺骗或破坏模型性能的攻击,并开发相应的防御策略。

▪ 数据安全与隐私保护:在AI全生命周期中,如何对数据进行分类、脱敏、保护,防止训练数据泄露敏感信息,尤其是在高质量公共数据趋于枯竭的情况下。

 AI伦理与治理:制定相应的法律法规、伦理准则、技术标准,平衡AI发展与安全,防范误用滥用,推动负责任的AI创新。

▪ AI Agent安全:随着AI Agent(智能体)技术的发展,其在感知、决策、行动环节可能带来的新风险,以及如何对其进行有效治理成为新议题。

人工智能安全风险分类

其他重要风险类型

1. 滥用与误用风险(Abuse & Misuse Risk)

AI技术可能被有意(滥用)或无意(误用)地用于有害目的,如生成虚假信息、进行网络攻击、侵犯版权等。

2. 失控风险(Loss of Control Risk)

AI系统行为和影响超出预期范围,在极端情况下可能带来灾难性后果。当前缺乏有效管控高级AI的技术手段。

3. 侵权与责任风险(Infringement & Liability Risk)

AI应用可能侵犯人权或知识产权,且责任界定困难。确定何时由人承担责任,何时由AI提供者或使用者负责成为挑战。

4.社会经济风险(Socioeconomic Risk)

AI对就业市场、社会不平等、信息生态的影响,可能导致技能贬值、失业增加、不平等加剧和信息泡沫等问题。

综合分析:安全风险的理论研究与实践案例

综合当前人工智能安全领域的研究动态和实践案例,我们可以看到各类风险在不同维度上的复杂交织,以及学界和产业界提出的应对方案。

数据风险的深层次分析

理论研究

研究表明,AI模型训练数据源自现实世界,不可避免地会学习和复制甚至放大社会中存在的偏见和歧视。算法可能无意中将特定群体与负面信息关联,这是数据和算法交互的结果。

在Scale Of Law规律下,高质量公共数据的稀缺性使得包含敏感信息的数据集使用增加,加剧了隐私泄露和商业侵权风险。

实践案例

多个案例显示AI在招聘、司法、金融服务、教育和内容生成等领域产生歧视性结果。

例如,个性化定价可能演变成价格歧视,政府数据治理中嵌入AI也可能因数据片面性导致算法歧视。员工使用生成式AI时无意输入敏感信息,导致数据泄露。医疗领域、智能设备和政府数据管理是数据泄露的高风险场景。

应对策略

针对上述风险,研究者和从业者提出了多种应对策略:通过数据清洗、平衡和人工审查等手段在数据阶段实现对齐;加密、强认证、访问控制和安全审计等措施加强数据保护;确保训练数据真实、准确、客观、多样且来源合法,并建立数据治理框架;遵守相关法规并进行合规审计。

算法与对齐风险的关键洞察

核心问题

算法风险和对齐风险有着密切的关联。算法作为AI的核心驱动力,其设计或实施中的错误、固有缺陷和“黑箱”特性,直接影响对齐质量。

同时,基于概率的输出机制和提示词工程的不确定性,使得模型输出的准确性、真实性和有效性无法得到完全保证。

典型表现

“幻觉”是对齐问题的典型表现,指AI生成看似合理但与事实不符或无法验证的内容。

研究发现,除了明显的幻觉,还存在“正确的废话”现象——输出在形式上符合语法和基本逻辑,但实际上缺乏实质内容和价值。这种表面合理但实质空洞的输出比明显错误更危险,因为它更难被识别。

前沿解决方案

当前前沿的解决方案包括提升算法的可解释性、进行安全测试和风险评估;通过检索增强生成(RAG)提高输出的事实准确性;应用人类反馈强化学习(RLHF)改进AI行为;开发价值观对齐方法,为AI植入道德指南针。然而,这些方法仍在发展中,其有效性有待进一步验证。

集成风险与多Agent协作的未知领域

复杂度转移

集成风险揭示了一个极具洞察力的现象:多Agent协作系统通过降低开发难度,表面上简化了复杂任务,但实际上是将复杂度从开发环节转移到了模型自动化和集成环节。这种“复杂度转移”而非“复杂度消除”的现象,创造了一种新的风险类型。

系统级风险

MCP、A2A等协议使多Agent自动化协作成为可能,依赖于复杂的感知、决策、分解、应用和集成模式。但这种依赖未知复杂度的协作机制引入了系统级风险:当各个Agent基于自身决策进行协作时,可能产生个体层面难以预测的涌现行为,增加了整体系统的不确定性。

研究与应用

作战系统、教育、电网仿真等领域正在探索Agent应用。研究表明,多Agent系统在提高效率的同时也增加了复杂性和风险。业界正在开发如多智能体框架(OWL)和模型上下文协议(MCP)等规范,旨在降低风险。然而,Agent的量化评估(实用性、社会性、价值观)仍具有重大挑战性。

综合以上分析,我们可以看到人工智能安全风险呈现出几个关键特征:

▪ 多维交织性:各类风险并非孤立存在,而是相互影响、彼此强化。

▪ 内在不确定性:AI系统的复杂性使得许多风险难以完全预测和评估。

▪ 动态演化性:风险随着技术发展和应用场景拓展不断变化

▪ 治理滞后性:现有的评估框架和治理机制难以跟上技术发展速度。

创新洞察:人工智能安全的范式转变

基于上述风险分析和挑战,我们提出以下关于人工智能安全的创新洞察和未来发展路径:

安全融合视角的创新突破

通过区分传统的“Security”(系统网络安全)和AI特有的“Safety”(AI固有风险),并强调二者的交叉融合,我们开创了一种全新的安全研究范式。这种融合不仅是概念上的叠加,更是方法论上的创新,它要求网络安全专家与AI研究者突破学科藩篱,共同构建新型安全评估框架。

数据困境与资源枯竭

“Scale Of Law的规律下,大规模数据的需求对高质量公共数据集的消耗殆尽”。这揭示了AI发展面临的深层次矛盾:更强大的模型需要更多高质量数据,但这些数据资源正在迅速枯竭。未来模型训练将不可避免地转向更敏感的数据来源,带来更复杂的隐私和道德问题。

算法“黑箱”的本质重新定义

大模型训练过程中的非核心算法被比喻为“迷信与巫术”,参与者往往也不知道哪个环节的操作带来了正向和负向的效果。这一洞察超越了传统的“黑箱”讨论,指出问题不仅是对外不透明,甚至对开发者自身也存在不可知性。

“正确的废话”:对齐风险的新维度

我们识别出了一种比“幻觉”更隐蔽的风险类型:“正确的废话”。它指输出在形式上看似合理,符合语法和基本逻辑,但实际上缺乏实质内容或准确性。这种表面合理但实质空洞的输出比明显错误更危险,因为它更难被识别,更容易被误信任。

复杂度转移理论

多Agent协作系统通过降低开发难度,实际上是将复杂度从开发环节转移到了模型和集成环节。这种“复杂度转移”而非“复杂度消除”的现象,创造了一种新的风险类型。

这一理论对理解未来AI系统的安全挑战具有革命性意义:它指出了简化开发过程的代价是引入了更难以预测和控制的系统级复杂性。当我们使用MCP或A2A协议让多Agent系统自动协作时,表面上降低了开发门槛,但实际上是将复杂度嵌入了更深层次的系统架构中,这种“依赖未知复杂度的模式”带来的安全风险是全新的,需要新的评估框架。

面向未来的安全发展路径

1.整合性安全框架

打破Security和Safety的界限,构建统一的安全评估和防护体系,将安全考量融入AI全生命周期。

2.数据效率与伦理平衡

发展小样本学习、合成数据技术,同时建立数据使用的伦理框架,应对数据资源枯竭挑战。

3.系统化理解与控制

超越组件级安全,转向系统级风险管理,特别关注多Agent系统的涌现风险和集成威胁。

4.不确定性的适应性管理

接受AI系统固有的不确定性,发展适应性安全策略,建立多层次防护机制。

5.安全评估方法创新

推动验证与评估方法的革新,发展针对复杂AI系统的动态、持续性评估体系。

结论

通过将人工智能安全分解为数据、算法、对齐与集成四大风险维度,我们不仅系统化梳理了当前AI安全挑战,更提出了多个具有前瞻性的创新洞察。这些洞察超越了传统的安全讨论框架,揭示了AI安全的根本性挑战——不是已知风险的规避,而是未知复杂性的管理。

在“复杂度转移”“正确的废话”“算法巫术”等创新概念的引导下,我们倡导了一种全新的AI安全范式,这种范式不再追求绝对的确定性和可控性,而是承认并正视AI系统的根本不确定性,通过系统化、多层次的安全架构来管理这种不确定性。这一范式转变不仅对技术发展有指导意义,也为政策制定、伦理规范和社会治理提供了新的思考框架。

参考文献

1.OpenAI. (2023). GPT-4 System Card. https://cdn.openai.com/papers/gpt-4-system-card.pdf

2.Google DeepMind. (2023). Frontier AI Safety and Preparedness. https://deepmind.google/discover/blog/frontier-ai-safety-and-preparedness/

3.中国科学院. (2023). 中国科学院发布《人工智能安全白皮书》. https://www.cas.cn/yw/202311/t20231117_4998381.shtml

4.国家互联网信息办公室. (2023). 《生成式人工智能服务管理暂行办法》. http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm

5.Future of Life Institute. (2023). Statement on AI Risk. https://futureoflife.org/open-letter/ai-risk/

6.Anthropic. (2023). Core Challenges in AI Safety. https://www.anthropic.com/research

7.刘鹏, 张建华. (2022). 人工智能伦理的研究趋势、热点与前沿——基于CiteSpace的可视化分析. 情报杂志, 41(09), 170-177.

8.李德毅, 高山, 崔岩. (2023). 读懂AI Agent:多智能体协作的智能风险与治理. 中国工程科学, 25(04), 54-61.

9.李晓东, 陈泽宇, 黄明. (2023). 基于风险的人工智能监管治理:理论范式与实践路径. 电子政务, (06), 2-14.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901886.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TOA与AOA联合定位的高精度算法,三维、4个基站的情况,MATLAB例程,附完整代码

本代码实现了三维空间内目标的高精度定位,结合到达角(AOA) 和到达时间(TOA) 两种测量方法,通过4个基站的协同观测,利用最小二乘法解算目标位置。代码支持噪声模拟、误差分析及三维可视化,适用于无人机导航、室内定位等场景。订阅专栏后可获得完整代码 文章目录 运行结果…

2025MathorcupC题 音频文件的高质量读写与去噪优化 保姆级教程讲解|模型讲解

2025Mathorcup数学建模挑战赛(妈妈杯)C题保姆级分析完整思路代码数据教学 C题:音频文件的高质量读写与去噪优化 随着数字媒体技术的迅速发展,音频处理成为信息时代的关键技术之一。在日常生活中,从录音设备捕捉的原始…

Deno Dep:颠覆传统的模块化未来

一、重新定义依赖管理:Deno Dep 的革新哲学 Deno Dep(原Deno包管理器)彻底重构了JavaScript/TypeScript的依赖管理方式,其核心突破体现在: 1. 浏览器优先的模块化(URL-Centric Modules) // 直…

欧拉系统升级openssh 9.7p1

开发的系统准备上线,甲方对欧拉服务器进行了扫描,发现openssh版本为8.2p1,存在漏洞,因此需要升级openssh至9.7p1。欧拉系统版本为20.03 SP3。 1、下载openssh 9.7p1 https://www.openssh.com/releasenotes.html, 将下…

如何精通C++编程?

如果从学生时代算起的话,我学习和使用C已经差不多快十年了,仍然不敢说自己已经掌握了C的全部特性,但或许能够给出一些有用的建议吧。 我学习C全靠自学,花费了不少的功夫,在这里分享一些学习心得,希望对大家…

提高Qt工作线程的运行速度

1. 使用线程池(QThreadPool)替代单一线程 做过,但是当时没想到。。。 目的:减少线程创建和销毁的开销,复用线程资源。 实现步骤: 创建自定义任务类:继承QRunnable,实现run()方法。…

Solon AI MCP Server 入门:Helloworld (支持 java8 到 java24。国产解决方案)

目前网上能看到的 MCP Server 基本上都是基于 Python 或者 nodejs ,虽然也有 Java 版本的 MCP SDK,但是鲜有基于 Java 开发的。 作为Java 开发中的国产顶级框架 Solon 已经基于 MCP SDK 在进行 Solon AI MCP 框架开发了,本文将使用 Solon AI …

STL之迭代器(iterator)

迭代器的基本概念 迭代器(iterator)模式又称为游标(Cursor)模式,用于提供一种方法顺序访问一个聚合对象中各个元素, 而又不需暴露该对象的内部表示。或者这样说可能更容易理解:Iterator模式是运用于聚合对象的一种模式,通过运用该模式&#…

Android系统通知机制深度解析:Framework至SystemUI全链路剖析

1. 前言 在Android 13的ROM定制化开发中,系统通知机制作为用户交互的核心组件,其实现涉及Framework层到SystemUI的复杂协作。本文将深入剖析从Notification发送到呈现的全链路流程,重点解析关键类的作用机制及系统服务间的交互逻辑&#xff…

UE5角色状态机中跳跃落地移动衔接问题

UE5系列文章目录 文章目录 UE5系列文章目录前言一、状态机设置二、主要蓝图 前言 先说说遇到的问题,在我按空格键跳跃落地以后,角色落地再按WSAD键移动就出现了画面中角色抽搐的情况 一、状态机设置 在Unreal Engine 5中创建角色时,处理跳…

使用SVM对心脏数据是否患病进行分类预测

作者简介 杜嘉宝,男,西安工程大学电子信息学院,2024级研究生 研究方向:变压器故障预警与检测 电子邮件:djb857497378gmail.com 王子谦,男,西安工程大学电子信息学院,2024级研究生&a…

Node做BFF中间层架构优化前端开发体验并提升系统整体性能。

文章目录 1. BFF 层的定位2. 技术选型3. 架构设计3.1 分层设计3.2 示例架构 4. 核心功能实现4.1 数据聚合4.2 权限校验4.3 缓存优化 5、实战示例1. 场景说明2. ECharts 数据格式要求3. BFF 层实现步骤3.1 接收前端参数3.2 调用后端服务获取数据 4. 前端使用 总结 在使用 Node.j…

文件系统 软硬连接

🌻个人主页:路飞雪吖~ 🌠专栏:Linux 目录 一、理解文件系统 🌠磁盘结构 二、软硬连接 🌟软硬链接 🌠软链接: 🌠硬链接: 🌟理解软硬链接的应…

单片机 | 基于51单片机的自动循迹小车设计

以下是一个基于51单片机的自动循迹小车设计详解,包含原理、公式和完整代码: 一、系统原理 核心模块: 传感器:红外对管(TCRT5000)x4主控芯片:STC89C52RC(51单片机)电机驱动:L298N驱动模块电源:7.4V锂电池(电机) + 5V稳压(单片机)工作原理: 红外对管发射红外线,…

2025.04.17【Stacked area】| 生信数据可视化:堆叠区域图深度解析

文章目录 生信数据可视化:堆叠区域图深度解析堆叠面积图简介为什么使用堆叠面积图如何使用R语言创建堆叠面积图安装和加载ggplot2包创建堆叠面积图的基本步骤示例代码 解读堆叠面积图堆叠面积图的局限性实际应用案例示例:基因表达量随时间变化 结论 生信…

基于单片机的智能养生油炸炉系统设计与实现

标题:基于单片机的智能养生油炸炉系统设计与实现 内容:1.摘要 本文针对传统油炸炉功能单一、无法满足现代养生需求的问题,设计并实现了基于单片机的智能养生油炸炉系统。通过采用STC89C52单片机作为控制核心,结合温度传感器、液位传感器、继电器等硬件&…

QML与C++:基于ListView调用外部模型进行增删改查(附自定义组件)

目录 引言相关阅读项目结构文件组织 核心技术实现1. 数据模型设计联系人项目类 (datamodel.h)数据模型类 (datamodel.h)数据模型实现 (datamodel.cpp) 2. 主程序入口点 (main.cpp)3. 主界面设计 (Main.qml)4. 联系人对话框 (ContactDialog.qml)5. 自定义组件CustomTextField.qm…

【MySQL】事务ACID理解记忆

事务的 ACID 特性详解 数据库中的 事务(Transaction) 是一组操作的集合,这些操作要么全部执行,要么全部不执行。为了保证事务可靠执行,必须满足 ACID 四大特性: 特性英文缩写简要说明原子性Atomicity事务…

MYSQL “Too Many Connections“ 错误解决

1.查询当前连接数 show status like "Threads_connected"; 2.查询数据库最大连接数 show variables like "max_connections" 3.查询所有活动连接 show processlist; 4.根据查询结果观察是否有长时间未被释放的连接 参数解释 : 字段说明id连接的唯一…

Python爬虫实战:基于 Scrapy 框架的微博数据爬取研究

一、引言 1.1 研究背景 在当今数字化时代,社交媒体已成为信息传播和公众交流的重要平台。微博作为国内极具影响力的社交媒体之一,每日产生海量的用户生成内容,涵盖新闻资讯、社交互动、娱乐八卦、热点话题讨论等多个领域。这些数据不仅反映了公众的兴趣偏好、情感态度和社…