科技云报道:从数据到生成式AI,是该重新思考风险的时候了

科技云报道原创。

OpenAI“宫斗”大戏即将尘埃落定。

自首席执行官Sam Altman突然被董事会宣布遭解雇、董事长兼总裁Greg Brockman辞职;紧接着OpenAI员工以辞职威胁董事会要求Altman回归;再到OpenAI董事会更换成员、Altman回归OpenAI。

表面上看,这似乎是一场针对一家独领风骚的技术初创公司控制权的争夺战,但从种种迹象来看,此次“宫斗”的导火索,更多应源自对AI未来发展理念的分歧:一派扛着“加速主义”旗帜,希望AI在技术精英的带领下加速前进改造世界;另一边则是以利他主义理论为根基、力求让AI在人类控制下发展的保守派别。
在这里插入图片描述
从创造栩栩如生的艺术到如同真人般的精度模仿人类语言,生成式AI正在改写创新和自动化的规则。

AI大模型训练的高耗能、AI对语言情感和伦理道德的把握程度、AI对假消息和公众舆论的操纵、生成式AI在人类创新创造中的角色……在生成式AI加速奔跑的今天,有些问题依然值得我们细细思考。

AI大模型成下一个 安全新战场

今年三月,三星电子刚刚在企业内部引入ChatGPT服务不久,就发生了三起机密数据泄露事件。部分员工将涉及半导体生产的机密代码与内部会议信息输入ChatGPT端口,导致这些敏感资料被上传至美国服务器,极可能已经泄漏。事件发生后,三星迅速采取措施约束员工使用ChatGPT的场景和行为,也引发了行业对于这类大模型技术带来的数据隐私和安全问题的讨论。

客观而言,在互联网时代,任何向云端上传数据的行为都具有潜在的安全风险。云计算刚刚兴起的时代,就有很多企业担忧敏感数据被云服务商泄露,拒绝将其上传至云端。

时至今日,仍有大批企业在本地存储隐私数据来增强安全性,云服务商仍然没有完全赢得企业的信任。

而生成式AI的热潮则令这一问题雪上加霜。一方面,由于大模型训练、运营所需的成本极为高昂,极少有企业能够负担巨大的投资而在本地建设自有大模型服务。

另一方面,由云服务商提供的大模型服务在训练和交互时需要海量数据,尤其是特定领域的数据。大模型掌握的领域数据越多,特别是与企业研发、运营相关的数据越多,输出的效果往往越令人满意。

例如,企业开发人员使用AI代码辅助生成工具时,一般需要上传企业已有的代码库,使大模型给出更精准的代码预测结果;企业营销人员将过往的营销材料输入大模型,就可以自动生成高质量的营销内容,提升工作效率。

为此,企业和研究机构往往会收集包括用户生成内容的文本、图像等数据,这些原始训练数据中可能含有用户的敏感隐私信息。

如果数据采集不当、存在偏见或标签错误、数据被投毒,都有可能导致大模型产生错误输出、存在歧视或其他负面影响,同时数据在应用的过程中,也要面临数据泄露、隐私曝光等风险,这既存在法律风险,也会引发公众对AI的信任危机。

另外,提供大模型服务的云厂商一般会同时服务众多客户,而大模型在获得各个企业的数据后,如何将这些数据充分隔离在每个客户的服务范围之内,就成为了困扰云厂商与企业的一大难题。

一旦数据的隔离失败,从甲客户获得的数据就可能被用在对乙客户给出的交互回答中,造成数据泄露。

如果企业上传的大量隐私机密数据未能得到充分保护,恶意攻击者或者云厂商内部的恶意人士就可能利用软件漏洞或职权获取这些信息,攫取不当利益的同时,也对企业造成了无可估量的伤害。

考虑到大模型所需的训练和交互数据数量庞大,远远超过以往企业上传到云端的规模,这种风险相比过去也有数量级的增长。

目前,生成式AI已经展现前所未有的智能化水平,由此将占据企业的IT关键位置,而就此重要性带来的受攻击频度,也将使得生成式AI成为云计算、大数据、物联网、移动互联网之后的一个全新的安全战场。

与此同时,大模型技术也将会在多个方面帮助提升网络安全运维效率,在更深层次改变网络安全格局的基础。

有些人士还认为,生成式AI将进一步扩大贫困差距,加深数字鸿沟。生成式AI作为新兴的AI技术,需要基于大量的数据与巨大的计算能力,这就意味着生成式AI只能在技术先进的国家和地区普及开来,并被少数经济体所掌控。

数字贫困差距进一步扩大,科技弱势地区的话语权被忽视,其潜在的风险就是发达经济体的价值观广泛传播,数字鸿沟也会不可逆地加深。

用技术对抗技术用魔法打败魔法

随着大模型时代的到来,其强大能力也为安全防护技术的变革提供了新的思路。“用AI的力量来对抗AI”已经成为一个热点方向。

事实上,对抗攻防思路并不是模型安全的专属。早在上个十年,面对种种安全威胁,人工智能领域就逐步形成了“以攻测防——以攻促防——攻防一体化”的安全理念,通过模拟各类攻击场景,不断探索模型和系统的弱点,以此推动算法和工程端的防御能力加强。

只不过,以往安全防护主要依赖机器学习算法模型,这需要大量专业数据知识积累,且面临知识盲区和小样本冷启动不及时的问题。利用大模型技术,可以实现更智能化的安全防控。

当前,生成式AI面临的安全问题可以分为三级。初级问题是技术攻击问题,也就是网络攻击、漏洞攻击、数据攻击问题,特别是提供给大模型不好的数据或污染它的训练数据,可能会导致结果出错。这类问题相对比较好解决。

比较难解决的是中级问题,主要涉及内容安全。例如大模型可以成为人们很好的帮手,也能成为坏人的工具。它可以帮一个水平不怎么样的黑客写更好的攻击代码、诈骗邮件。

如何让它的内容更加可控?如何防止AI大模型不作恶?这已经超越了技术范畴。尽管现在有人为大模型做了内置的所谓“安全护栏”,但它很容易遭到注入攻击或算法攻击。

从高级问题来看,大模型可以把人类所有知识融会贯通,再来和人类做交流、做提示。但当AI的能力超越人类后,还能不能甘于做人类的工具,这些技术带来的挑战最终还要靠技术来解决,技术自身会不断进化,不能因为未来还没有发生的问题就不发展相关技术。

从产业界现状来看,AI安全与否如何评测,目前尚缺乏一套易用和标准化的评测工具和规则。

这也是大模型防御中能够补充的另一方面,通过大模型技术学习风险知识和标准规则来提升AI对于风险的认知理解能力,以实现用大模型对抗大模型来进行极速防御和快速冷启动的目的。

面对大模型下的网络安全挑战,需要企业、安全团队和监管机构等共同努力来应对。

首先,加强大模型的训练和管理。通过采用更加有效的数据增强和处理技术,减少大模型的过拟合和梯度爆炸等问题,提高模型的鲁棒性和可靠性。同时,对大模型的训练和管理也需要加强监管和审计,确保数据的隐私和安全。

其次,研发新型安全防御技术。针对大模型的攻击手段不断变化和更新,需要研发新型的安全防御技术来应对。例如,可以利用人工智能技术来检测和防御恶意代码和网络钓鱼攻击等。

以文本安全为例,大模型可以基于安全标准规则、风险领域知识和历史风险样本进行训练,提升模型对于风险标准和内容的理解力,从而实现对风险检测能力的提升。

也采用大模型生成能力结合安全知识图谱,来构造攻击样本持续迭代优化检测模型。

第三,强化数据安全保护。除了要关注大模型在互联网上的攻防对抗,大模型本身的安全和隐私问题同样引发了担忧。

针对大模型的训练和使用过程中可能存在的数据安全问题,需要采取一系列的隐私保护技术。例如,使用同态加密、差分隐私、安全多方计算、模型水印和指纹等多种技术来保护数据的隐私和安全。

第四,加强监管和法律保护。技术立法往往落后于技术发展的步伐,缺少法规和条例的引导和规制,越来越多使用生成式AI的公司发现其系统运行的安全性受到很大挑战。

面对大模型下的网络安全挑战,也需要监管机构和法律机构加强管理和监管。例如,政府监管机构要通过政策立法对生成式AI的设计、演进进行有效引导、统筹管理。

制定的政策框架需要与各国的立法和监管背景保持一致,并且要随AI技术更迭而更新,不断提高现有法规的适用度。在监管的同时给予AI创新的自由度,协同创造出更高质量的内容。

生成式AI是非常复杂的问题,伦理、数据、训练等领域的复杂度都是前所未有的,是一个新领域,也是摆在所有人面前的一个命题。

从科技企业的发展史看,在新技术发展的前期,不同路线、理念的参与者往往能够团结协作,共同为了科技普及而合作前进。

但当科技普及已经发生,关于商业化、实现路径的种种理念差异,却可能走上不同的道路。在AI普及和深度应用的前夜里,或许,关于未来技术应该如何普及、如何监管的理念与路径之争,才刚刚拉开帷幕。

面对未来的安全发展趋势和挑战,企业更应该携起手来,共同建立可度量的安全体系,为应对智能化时代的攻防新趋势,打造内在自适应的“安全免疫力”。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/214825.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java--LocalDate、LocalTime、LocalDateTime、ZoneId、Instant

1.为什么要学习JDK8新增的时间 LocalDate:代表本地日期(年、月、日、星期) LocalTime:代表本地时间(时、分、秒、纳秒) LocalDateTime:代表本地日期、时间(年、月、日、星期、时、分、秒、纳秒) 它们获取对象的方案 2.LocalDate的常用API(…

【精选】 VulnHub (超详细解题过程)

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【python】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏…

C# 任务的异常和延续处理

写在前面 当Task在执行过程中出现异常或被取消等例外的情况时,为了让执行流程能够继续进行,可以使用延续方法实现这种链式处理;还可以针对前置任务不同的执行结果,选择执行不同的延续分支方法。子任务执行过程中的任何异常都会被…

线程安全的哈希表ConcurrentHashMap

1. HashTable 不推荐使用,无脑给各种方法加锁 2.ConcurrentHashMap 多线程下推荐使用 锁粒度控制 HashTable直接在方法上加synchronized,相当于对哈希表对象加锁,一个哈希表只有一把锁。多线程环境下,无论线程如何操作哈希表…

深入理解Dubbo-3.高级功能剖析和原理解析

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码、Kafka原理、分布式技术原理🔥如果感觉博主的文章还不错的话&#xff…

利用贝叶斯超参数优化,提升模型效果更科学(附Python代码)

超参数优化在大多数机器学习流水线中已成为必不可少的一步,而贝叶斯优化则是最为广为人知的一种“学习”超参数优化方法。 超参数优化的任务旨在帮助选择学习算法中成本(或目标)函数的一组最佳参数。这些参数可以是数据驱动的(例…

【UE5】初识MetaHuman 创建虚拟角色

步骤 在UE5工程中启用“Quixel Bridge”插件 打开“Quixel Bridge” 点击“MetaHumans-》MetaHuman Presets UE5” 点击“START MHC” 在弹出的网页中选择一个虚幻引擎版本,然后点击“启动 MetaHuman Creator” 等待一段时间后,在如下页面点击选择一个人…

Apipost版IDEA插件:Apipost-Helper

Apipost-Helper是由Apipost推出的IDEA插件,写完接口可以进行快速调试,且支持搜索接口、根据method跳转接口,还支持生成标准的API文档,注意:这些操作都可以在代码编辑器内独立完成,非常好用!这里…

Tair(2):Tair安装部署

1 安装相关依赖库 yum install -y gcc gcc-c make m4 libtool boost-devel zlib-devel openssl-devel libcurl-devel yum:是yellowdog updater modified 的缩写,Linux中的包管理工具gcc:一开始称为GNU C Compiler,也就是一个C编…

N皇后,回溯【java】

问题描述 八皇后问题是十九世纪著名的数学家高斯于1850年提出的。 问题是:在88的棋盘上摆放八个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行、同一列或同一斜线上。可以把八皇后问题扩展到n皇后问题,即在nn的棋盘上摆…

AX和A(T)X的区别是?

目录 1.快速了解的例子: (1)假设所有节点的初始特征都是[1, 0, 0] ,那么AX的结果是: (2) 的结果是: (3) 总结: 2.计算结构系数的例子 (1&#xff09…

day45-46-Vue+ElementUI实现学生管理

VueElementUI实现学生管理 代码: qiushiju/java2313_vue_elementui_crud (gitee.com) 一、思考 考虑需求(登录,查询全部,基本增删改查,分页,搜索,批量) 设计数据库搭建项目 后端…

2024美赛备战2--模型建立(*****必看****)

建模 美赛涉及的建模知识范围非常广且深,纵观美赛真题不难发现,很多的模型 都是读研或者读博的时候才会真正深入开始研究,因此,对于做建模的同学来说, 是无法在赛前吃透大量模型的。推荐本科生分两个步骤去有效准备比赛…

【S32DS RTD实战】-1.3-S32K3工程生成S19,BIN,Hex文件,以及Post-build steps的妙用

目录 1 方法一:逐个生成Motorola S-record(s19,srec…),Intel HEX,Bin文件 1.1 生成Motorola S-record(s19,srec…)文件 1.2 生成Intel HEX文件 1.3 生成Bin文件 2 …

计算机服务器中了mkp勒索病毒怎么办,mkp勒索病毒解密数据恢复

网络技术的不断发展,也为网络安全带来了威胁,近期云天数据恢复中心的工程师陆续接到很多企业的求助,在本月,很多企业的计算机服务器遭到了mkp勒索病毒攻击,导致企业计算机系统瘫痪,无法正常工作&#xff0c…

《深入理解计算机系统》学习笔记 - 第四课 - 机器级别的程序

Lecture 05 Machine Level Programming I Basics 机器级别的程序 文章目录 Lecture 05 Machine Level Programming I Basics 机器级别的程序intel 处理器的历史和体系结构芯片的构成AMD 公司(Advanced Micro Devices,先进的微型设备) C, 汇编, 机器代码定义汇编/机器…

2024美赛备战1--数据处理(数据预处理,异常值处理,预测模型,插值拟合 *****必看****)

1.数据预处理 所谓数据预处理,就是指在正式做题之前对数据进行的一些处理。在有些情 况下,出题方提供的数据或者网上查找的数据并不能直接使用,比如缺少数据甚 至是异常数据,如果直接忽略缺失值,或者没发现异常数据&am…

数字图像处理(实践篇)二十一 人脸识别

目录 1 安装face_recognition 2 涉及的函数 3 人脸识别方案 4 实践 使用face_recognition进行人脸识别。 1 安装face_recognition pip install face_recognition 或者 pip --default-timeout100 install face_recognition -i http://pypi.douban.com/simple --trusted-…

川崎ZX-6R确定引进,636它真的来了,3C认证已过。

最新消息,兄弟们,你们期待已久的川崎ZX6R(636)基本已经确定引进了,官方的3C认证已经通过,那么从3C里面我们可以看到哪几个信息?产品代号ZX636J就是心心念念的ZX-6R了。 有些小伙伴不太清楚3C认…

t-SNE完整笔记 (附Python代码)

t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可…