网安加·百家讲坛 | 刘志诚：AI安全风险与未来展望

作者简介：刘志诚，乐信集团信息安全中心总监、OWASP广东区域负责人、网安加社区特聘专家。专注于企业数字化过程中网络空间安全风险治理，对大数据、人工智能、区块链等新技术在金融风险治理领域的应用，以及新技术带来的技术风险治理方面拥有丰富的理论和相关经验。

背景：人工智能安全——一个日益凸显的复杂议题

人工智能（AI）技术正以前所未有的速度渗透到社会生产生活的各个方面，从提升效率到驱动创新，其潜力巨大。

然而，伴随着AI能力的飞速发展，其潜在的安全风险也日益成为全球关注的焦点。“人工智能安全”这一概念本身就具有多重含义，通常可以从以下几个维度理解：

人工智能安全的三重含义

1. AI系统自身的网络安全(Security of AI - Infrastructure)

指AI系统在开发、部署和运营过程中，因存在安全漏洞而被攻击、利用，导致系统的机密性、完整性、可用性受到破坏。这更偏向传统网络安全视角，将AI视为需要保护的信息基础设施。

2. AI引发的广义安全风险(Safety of AI - Inherent Risks)

指AI技术本身及其应用可能带来的固有风险，包括数据驱动的风险、算法与模型风险、生成与对齐风险、应用与集成风险等。

3. 面向安全领域的人工智能应用(AI for Security)

指利用AI技术（如机器学习、深度学习、大语言模型）来提升网络防御能力，例如用于威胁检测、态势感知、安全策略优化等。

本文将重点关注前两种含义，即AI系统自身的安全防护以及AI技术固有和衍生的安全风险。

当前研究热点与焦点领域

当前，全球范围内对人工智能安全的研究高度活跃，主要聚焦于以下几个方面：

▪ 生成式AI的安全问题：作为当前热点，其鲁棒性、可靠性、可解释性、公平性、偏见、隐私保护、伦理治理以及在关键基础设施中的应用安全尤为突出。

▪ 可信人工智能：重点研究如何构建和评估可信赖的AI系统，特别是大型语言模型（LLM），包括提高透明度、增强可解释性、进行可信评估与测试。

▪ 对抗性机器学习：研究AI模型如何抵御恶意制作的输入（对抗样本）或其他旨在欺骗或破坏模型性能的攻击，并开发相应的防御策略。

▪ 数据安全与隐私保护：在AI全生命周期中，如何对数据进行分类、脱敏、保护，防止训练数据泄露敏感信息，尤其是在高质量公共数据趋于枯竭的情况下。

▪ AI伦理与治理：制定相应的法律法规、伦理准则、技术标准，平衡AI发展与安全，防范误用滥用，推动负责任的AI创新。

▪ AI Agent安全：随着AI Agent（智能体）技术的发展，其在感知、决策、行动环节可能带来的新风险，以及如何对其进行有效治理成为新议题。

人工智能安全风险分类

其他重要风险类型

1. 滥用与误用风险(Abuse & Misuse Risk)

AI技术可能被有意（滥用）或无意（误用）地用于有害目的，如生成虚假信息、进行网络攻击、侵犯版权等。

2. 失控风险(Loss of Control Risk)

AI系统行为和影响超出预期范围，在极端情况下可能带来灾难性后果。当前缺乏有效管控高级AI的技术手段。

3. 侵权与责任风险(Infringement & Liability Risk)

AI应用可能侵犯人权或知识产权，且责任界定困难。确定何时由人承担责任，何时由AI提供者或使用者负责成为挑战。

4.社会经济风险(Socioeconomic Risk)

AI对就业市场、社会不平等、信息生态的影响，可能导致技能贬值、失业增加、不平等加剧和信息泡沫等问题。

综合分析：安全风险的理论研究与实践案例

综合当前人工智能安全领域的研究动态和实践案例，我们可以看到各类风险在不同维度上的复杂交织，以及学界和产业界提出的应对方案。

数据风险的深层次分析

理论研究

研究表明，AI模型训练数据源自现实世界，不可避免地会学习和复制甚至放大社会中存在的偏见和歧视。算法可能无意中将特定群体与负面信息关联，这是数据和算法交互的结果。

在Scale Of Law规律下，高质量公共数据的稀缺性使得包含敏感信息的数据集使用增加，加剧了隐私泄露和商业侵权风险。

实践案例

多个案例显示AI在招聘、司法、金融服务、教育和内容生成等领域产生歧视性结果。

例如，个性化定价可能演变成价格歧视，政府数据治理中嵌入AI也可能因数据片面性导致算法歧视。员工使用生成式AI时无意输入敏感信息，导致数据泄露。医疗领域、智能设备和政府数据管理是数据泄露的高风险场景。

应对策略

针对上述风险，研究者和从业者提出了多种应对策略：通过数据清洗、平衡和人工审查等手段在数据阶段实现对齐；加密、强认证、访问控制和安全审计等措施加强数据保护；确保训练数据真实、准确、客观、多样且来源合法，并建立数据治理框架；遵守相关法规并进行合规审计。

算法与对齐风险的关键洞察

核心问题

算法风险和对齐风险有着密切的关联。算法作为AI的核心驱动力，其设计或实施中的错误、固有缺陷和“黑箱”特性，直接影响对齐质量。

同时，基于概率的输出机制和提示词工程的不确定性，使得模型输出的准确性、真实性和有效性无法得到完全保证。

典型表现

“幻觉”是对齐问题的典型表现，指AI生成看似合理但与事实不符或无法验证的内容。

研究发现，除了明显的幻觉，还存在“正确的废话”现象——输出在形式上符合语法和基本逻辑，但实际上缺乏实质内容和价值。这种表面合理但实质空洞的输出比明显错误更危险，因为它更难被识别。

前沿解决方案

当前前沿的解决方案包括提升算法的可解释性、进行安全测试和风险评估；通过检索增强生成（RAG）提高输出的事实准确性；应用人类反馈强化学习（RLHF）改进AI行为；开发价值观对齐方法，为AI植入道德指南针。然而，这些方法仍在发展中，其有效性有待进一步验证。

集成风险与多Agent协作的未知领域

复杂度转移

集成风险揭示了一个极具洞察力的现象：多Agent协作系统通过降低开发难度，表面上简化了复杂任务，但实际上是将复杂度从开发环节转移到了模型自动化和集成环节。这种“复杂度转移”而非“复杂度消除”的现象，创造了一种新的风险类型。

系统级风险

MCP、A2A等协议使多Agent自动化协作成为可能，依赖于复杂的感知、决策、分解、应用和集成模式。但这种依赖未知复杂度的协作机制引入了系统级风险：当各个Agent基于自身决策进行协作时，可能产生个体层面难以预测的涌现行为，增加了整体系统的不确定性。

研究与应用

作战系统、教育、电网仿真等领域正在探索Agent应用。研究表明，多Agent系统在提高效率的同时也增加了复杂性和风险。业界正在开发如多智能体框架（OWL）和模型上下文协议（MCP）等规范，旨在降低风险。然而，Agent的量化评估（实用性、社会性、价值观）仍具有重大挑战性。

综合以上分析，我们可以看到人工智能安全风险呈现出几个关键特征：

▪ 多维交织性：各类风险并非孤立存在，而是相互影响、彼此强化。

▪ 内在不确定性：AI系统的复杂性使得许多风险难以完全预测和评估。

▪ 动态演化性：风险随着技术发展和应用场景拓展不断变化

▪ 治理滞后性：现有的评估框架和治理机制难以跟上技术发展速度。

创新洞察：人工智能安全的范式转变

基于上述风险分析和挑战，我们提出以下关于人工智能安全的创新洞察和未来发展路径：

安全融合视角的创新突破

通过区分传统的“Security”（系统网络安全）和AI特有的“Safety”（AI固有风险），并强调二者的交叉融合，我们开创了一种全新的安全研究范式。这种融合不仅是概念上的叠加，更是方法论上的创新，它要求网络安全专家与AI研究者突破学科藩篱，共同构建新型安全评估框架。

数据困境与资源枯竭

“Scale Of Law的规律下，大规模数据的需求对高质量公共数据集的消耗殆尽”。这揭示了AI发展面临的深层次矛盾：更强大的模型需要更多高质量数据，但这些数据资源正在迅速枯竭。未来模型训练将不可避免地转向更敏感的数据来源，带来更复杂的隐私和道德问题。

算法“黑箱”的本质重新定义

大模型训练过程中的非核心算法被比喻为“迷信与巫术”，参与者往往也不知道哪个环节的操作带来了正向和负向的效果。这一洞察超越了传统的“黑箱”讨论，指出问题不仅是对外不透明，甚至对开发者自身也存在不可知性。

“正确的废话”：对齐风险的新维度

我们识别出了一种比“幻觉”更隐蔽的风险类型：“正确的废话”。它指输出在形式上看似合理，符合语法和基本逻辑，但实际上缺乏实质内容或准确性。这种表面合理但实质空洞的输出比明显错误更危险，因为它更难被识别，更容易被误信任。

复杂度转移理论

多Agent协作系统通过降低开发难度，实际上是将复杂度从开发环节转移到了模型和集成环节。这种“复杂度转移”而非“复杂度消除”的现象，创造了一种新的风险类型。

这一理论对理解未来AI系统的安全挑战具有革命性意义：它指出了简化开发过程的代价是引入了更难以预测和控制的系统级复杂性。当我们使用MCP或A2A协议让多Agent系统自动协作时，表面上降低了开发门槛，但实际上是将复杂度嵌入了更深层次的系统架构中，这种“依赖未知复杂度的模式”带来的安全风险是全新的，需要新的评估框架。

面向未来的安全发展路径

1.整合性安全框架

打破Security和Safety的界限，构建统一的安全评估和防护体系，将安全考量融入AI全生命周期。

2.数据效率与伦理平衡

发展小样本学习、合成数据技术，同时建立数据使用的伦理框架，应对数据资源枯竭挑战。

3.系统化理解与控制

超越组件级安全，转向系统级风险管理，特别关注多Agent系统的涌现风险和集成威胁。

4.不确定性的适应性管理

接受AI系统固有的不确定性，发展适应性安全策略，建立多层次防护机制。

5.安全评估方法创新

推动验证与评估方法的革新，发展针对复杂AI系统的动态、持续性评估体系。

结论

通过将人工智能安全分解为数据、算法、对齐与集成四大风险维度，我们不仅系统化梳理了当前AI安全挑战，更提出了多个具有前瞻性的创新洞察。这些洞察超越了传统的安全讨论框架，揭示了AI安全的根本性挑战——不是已知风险的规避，而是未知复杂性的管理。

在“复杂度转移”“正确的废话”“算法巫术”等创新概念的引导下，我们倡导了一种全新的AI安全范式，这种范式不再追求绝对的确定性和可控性，而是承认并正视AI系统的根本不确定性，通过系统化、多层次的安全架构来管理这种不确定性。这一范式转变不仅对技术发展有指导意义，也为政策制定、伦理规范和社会治理提供了新的思考框架。