浅析大语言模型安全和隐私保护国内外标准和政策

过去两年，大模型技术已经普及并逐步渗透到各行各业，2025年注定是大模型应用井喷式发展的一年，AI在快速发展的同时，其带来的安全风险也逐渐凸显。人工智能系统的安全性和隐私保护已经成为社会关注的重点。

600+款AI应用，覆盖各行各业

附下载：600多个人工智能AI工具汇总（AIGC时代-超级个体的崛起）.xlsx (访问密码: 6277)

人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期各环节都面临安全风险，既包括自身技术缺陷或不足带来的风险（如提示词注入），也包括不当使用、滥用甚至恶意利用带来的安全风险（如数据泄露）。

例如，在自动驾驶领域，如何确保车辆能够正确识别交通信号和行人，避免事故的发生，这是一个涉及公共安全的重要问题。在金融领域，人工智能被用于风险评估和反欺诈系统中，如果算法存在偏见或者被恶意利用，可能会导致严重的经济损失和社会信任危机。

2023年8月，国家六个部委发布的《生成式人工智能服务管理暂行办法》正式施行，更是强调了大语言模型安全的重要性，防止生成潜在隐私泄露、违法犯罪内容。

生成式人工智能服务管理暂行办法

2024年9月国家网络安全宣传周主论坛在广州举办，全国网络安全标准化技术委员会在论坛上发布了《人工智能安全治理框架》1.0版，以下简称“框架”。

人工智能安全治理框架

框架主要由人工智能安全治理原则、人工智能安全治理框架构成、人工智能安全风险分类、技术应对措施、综合治理措施、人工智能安全开发应用指引等六部分构成。该框架中指出了人工智能的存在多种安全风险，典型如下：

对抗攻击风险：攻击者通过创建精心设计的对抗样本数据，隐蔽地误导、影响，以至操纵人工智能模型，使其产生错误的输出，甚至造成运行瘫痪。
“投毒” 风险：训练数据中含有虚假、偏见、侵犯知识产权等违法有害信息，或者来源缺乏多样性，导致输出违法的、不良的、偏激的等有害信息内容。训练数据还面临攻击者篡改、注入错误、误导数据的“投毒”风险，“污染”模型的概率分布，进而造成准确性、可信度下降。
数据泄露风险：人工智能研发应用过程中，因数据处理不当、非授权访问、恶意攻击、诱导交互等问题，可能导致数据和个人信息泄露。for:政府、企业等机构工作人员在业务工作中不规范、不当使用人工智能服务，向大模型输入内部业务数据、工业信息，导致工作秘密、商业秘密、敏感业务数据泄露。
滥用风险：人工智能可被用于实施自动化网络攻击或提高攻击效率，包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等，降低网络攻击门槛，增大安全防护难度。

框架中对风险进行了全部梳理，可以参见下图
安全风险与技术应对措施、综合治理措施映射表