Ilya出走记:SSI的超级安全革命

图片|OpenAI官网

©自象限原创

作者丨罗辑、程心

和OpenAI分道扬镳以后,Ilya“神秘而伟大”的事业终于揭开了面纱。

6月20日,前OpenAI核心创始人 Ilya Stuskever,在官宣离职一个月后,Ilya在社交媒体平台公开了最新的动向:将成立新的实验室Superintellgence(以下简称SSI),构建安全的超级智能。

▲图源:社交媒体X截图

这个名,明眼人一看就知道是冲着OpenAI去的。

2023年12月,在OpenAI十年的Ilya官宣离职引起了整个AI圈的轩然大波。虽然离职的具体原因扑朔迷离,但在Ilya离职前后,OpenAI负责模型安全的由Ilya主导的超级对齐(Superalignment)实验室宣布解散,外界纷纷推测,Ilya一直以来的理念是谨慎地发展人工智能,与Altman大刀阔斧地推进技术的战略相左。

而SSI,首先坚持了OpenAI成为非营利组织独立实验室的初衷,其次践行了Ilya一直以来对模型安全的谨慎态度。并且Ilya还补充道:我们将以一个焦点、一个目标、一个产品,直接追求安全的超级智能。

▲图源:社交媒体X截图

截至发稿前,Sam Altman并未回应,并没有让吃瓜群众们预想的“Altman假惺惺的表示祝福”成真。

而之所以业内如此重视Ilya在这个节点成立SSI,并不只是因为这个人,更是大模型的发展已经到了不得不重视模型安全的重要节点。

在刚刚过去的北京智源大会上,杨植麟、张鹏等一线创业者也曾讨论过这个问题,我们对模型安全的重视程度远远小于它的重要程度,而SSI的成立,或许会开辟一条与OpenAI完全相反的路。

用Ilya的眼睛,看AI的危险

似乎Ilya对模型安全是执拗的,甚至被人暗指“没必要”。“如果不是因为他是OpenAI的技术首脑,曾一手打造了GPT、DALLE-E等明星产品,SSI根本不会受到如此大的关注。”

但他们却忽略了,Ilya对人工智能技术的重要性,并不是从OpenAI开始的,而是从他的老师辛顿就奠定了他的话语权。

从80年代就开始战斗在人工智能最前线的辛顿,被誉为“深度学习之父”。作为教授的他桃李满天下(包括吴恩达),在他年轻一代的学生中,Ilya是最得意的门生之一。

▲图源:辛顿和Ilya合影

2023年5月初,辛顿辞去他在谷歌担任了十多年的职位,表示作出这个决定是为了可以自由讨论“人工智能的危险”。此后,他频繁接受媒体采访,不遗余力地对人工智能可能操纵人类发出警报。

尽管人类可以赋予人工智能一些伦理原则,但辛顿仍然感到紧张,“因为到目前为止,我还想象不到更智能的事物被一些没它们智能的事物所控制的例子。打个比方,假设青蛙创造了人类,那么你认为现在谁会占据主动权,是人,还是青蛙?”

师从辛顿的Ilya,几乎完全继承了被辛顿“蒸馏”过的,对于人工智能的谨慎,以及在谨慎之下的小心翼翼。

Ilya之于OpenAI,许多网友都认为他的个人贡献要大于Sam Altman。如果说SamAltman是OpenAI的面子,那Ilya就是OpenAI的里子,或者说是技术灵魂。

私底下的Ilya很内向但却并不胆怯。他之所以如此,很多人好奇,他作为影响这个世界技术变革的人,一定看到了什么。

但却没有人知道。

Ilya在OpenAI打造的超级对齐实验室,目的就是为了通过可控的技术手段使得AI发展的路径可控,确保AGI的发展符合人类利益。

一些前OpenAI员工透露,Ilya对超级对齐实验室的工作非常重视,并亲自参与其中。他希望通过这一实验室的工作,为未来的AGI系统设计出可靠的对齐方案。

想要理解何为“超级对齐”,就要演示一下现在的对齐技术,通过RHLF注入,能够实现两种对齐:一种是价值观的对齐:比如不要建立男女的性别对立、不要歧视同性恋等等;另一种是话题层面的对齐:明确国家的边界、不让搞黄色、不能诈骗等等。但Ilya所谓的超级对齐,却并不是这么简单。

有人还记得人工智能的三原则么?

其中之一便是“无条件服从人类”,而价值观和话题的对齐是远远不足以完成这个目标的,Ilya他认为技术的本质类似于人类的生物进化,如果进化的开始,是一个没有“无条件对人类的爱”的 AI,那等它长成AGI以后,也一定不可控。

对应了他在X中发表的:直接追求安全的超级智能。

没错,超级对齐的本质其实是通过让大模型产生“对人类无条件的爱”。

这听起来似乎很扯淡,但或许SSI的本质就是如此。

人,AI安全的最后一道防线

那么问题来了,大部分人做不到。

是的,可能大部分公司都是OpenAI而非SSI。那么除了大模型公司在内部致力于构建一个安全、可信的大模型之外,这两年随着技术和应用的发展,社会各界也对AI和大模型的安全作出了许多努力。

2021年11月,联合国教科文组织就曾通过《人工智能伦理问题建议书》,希望为人工智能的发展,以及预防其潜在风险提供建议。

今年3月份,联合国教科文组织总干事奥德蕾·阿祖莱还在公开呼吁,希望各国尽快实施这项建议,为人工智能发展设立伦理标准。

而随着中国AI大模型的蓬勃发展,中国企业也越来越多地参与到了这类国际AI安全准则的制定中。

比如今年4月在日内瓦召开的联合国科技大会上,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。

而这两项标准,由来自百度、腾讯、蚂蚁集团、科大讯飞等众多中国企业的专家学者共同参与编制而成。

在国际组织通过编制规范指导AI安全发展的同时,各地政府的法案也在相继落地。

5月21日,欧洲的《人工智能法案》正式获得了欧洲理事会的批准。这项法案最早由欧盟委员会在2021年提出,作为全球首个AI法案,它通过构建广泛适用的人工智能监管机制,为人工智能技术的发展提供了法律框架,为全球的AI监管提供了可借鉴的法律基础。

国内AI安全相关的政策则落地在2023年7月,国家网信办联合国家发改委、工信部等七部门,公布了《生成式人工智能服务管理暂行办法》,该办法就生成式人工智能可能面临的安全问题提出了一系列明确的约束规范。

当然,法律规定的社会的下限,大模型安全的上线仍然需要在产业界寻找答案。

我们前面提到,大模型在公司内部训练的过程中,需要通过数据、算法、学习框架等多个维度保证大模型的安全可靠。

但其实在公司外部,完成训练的大模型要推向市场,还存在一套由第三方完成的大模型安全测试评估框架,目前主流的安全性测评方法主要有固定数据集测评和红队模型测评两类。

2023年,OpenAI在GPT-4发布之前就曾对其进行了六个多月的评估、测试及改进。在这轮测试中,OpenAI就邀请了AI领域专家参与红队测试(Red Teaming)以识别安全风险。

固定数据集测评,则是由研究人员针对大模型的各类安全风险制定风险评估矩阵,类似绩效考核打分。

研究人员通过人类标注数据的方式采集安全性评估数据,然后以测试模型在这些数据集上的表现评估模型的安全程度。

2023年底,OpenAI在官网公布了名叫“Preparedness Framework”的安全评估框架,是这类固定数据集测评的范本之一。

▲OpenAI安全评估模型的计分卡,图源:OpenAI官网

在国内,清华大学计算机系的黄民烈研究团队在2023年3月就发布了大模型安全分类体系,该团队从系统层面和模型层面出发,打造更可控、可信的大模型安全框架,是国内较早参与到模型安全评估体系的团队之一。

除此之外,蚂蚁安全实验室也推出了大模型安全检测平台“蚁鉴2.0”和大模型风险防御平台“天鉴”两大产品。

在具体能力上,风险监测平台可以诊疗检测、定位问题;风险防御平台可以对风险进行防治。

比如在大模型生成可控问题上,蚂蚁安全实验室提出了如通过SFT、RLHF/RRHF、RLAIF等技术和高质量标注做人类对齐;在图像方面做风险抑制,进行可控调试;为大模型外挂千万级安全知识库生成和检索等等方式。

在模型层面的问题之外,使用模型带来的安全问题也同样重要。

6月11日,苹果在WWDC上推出了其全新的 AI 系统“Apple Intelligence”。为了保护用户隐私和数据安全,苹果将大模型的工作分为两类。

其中简单的任务在手机设备端执行,保证数据不离开手机。如果是需要调用云端算力的复杂任务,苹果打造了一套具备芯片级别隐私和安全保护的服务器——“Private Cloud Compute”。这套服务器可以实现加密传输,服务器只识别数据,不收集数据,且在任务完成后,该数据也会被立即删除。

其中关键的一点是,Apple Intelligence集成了GPT-4o作为第三方大模型支持。为了保证数据安全和用户的知情权,苹果设置Siri启用Chat GPT时会向用户提出申请。

也就是说,在苹果的安全框架里,虽然企业会做好一切前期准备,但用户自己才是安全防范的最后一道防火墙。

就像OpenAI一直都在官网提醒用户,“在使用 GPT-4 输出的内容时应格外小心,特别是在高风险场景下(如医学、化学等领域),需要人工核查事实准确性或者避免使用 AI 给出的答案。”

所以,虽然身处AI时代,工具已经如此强大,但在一切工具就绪之后,我们仍应记住,我们自己才是保护自己的最后一道防线。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/31555.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利氪科技拿下C轮超级融资,国产智能底盘黑马奔向黄金时代

“智能驾驶遗珠,国产替代富矿。” 这是海通证券在最近一期研报中,描述线控底盘产业的用语。它很巧妙地点明了,这个藏在车身之下的部分,拥有何种特征——稳坐技术体系的核心点位,拥有前景广阔的市场。 事实上&#xf…

为什么要学习PMP

学习PMP(项目管理专业人士认证)能够在职场竞争力、薪资待遇、项目管理技能等方面带来显著的提升。以下是学习PMP的具体分析: 1、职场竞争力 升职加薪:学习PMP能够提升个人在项目中的管理能力和解决问题的能力,从而在…

一问搞懂Linux信号【上】

Linux信号在Linux系统中的地位仅此于进程间通信,其重要程度不言而喻。本文我们将从信号产生,信号保存,信号处理三个方面来讲解信号。 🚩结合现实认识信号 在讲解信号产生之前,我们先做些预备的工作。 现实生活中信号…

vue3-openlayers 轨迹回放(历史轨迹),实时轨迹

vue3-openlayers 轨迹回放(历史轨迹),实时轨迹 本篇介绍一下使用vue3-openlayers轨迹回放(历史轨迹),实时轨迹 1 需求 轨迹回放(历史轨迹)实时轨迹 2 分析 可以使用和上一篇相同…

编译原理-各章典型题型+思路求解

第2章文法和语言习题 基础知识: 思路: 基础知识: 思路: 基础知识: 编译原理之 短语&直接短语&句柄 定义与区分_编译原理短语,直接短语,句柄-CSDN博客 思路: 题目: 基础解释&#xff1a…

一种快速设计PCB外壳的方法

设计PCB外壳比较好用的工具是SW但是有时候需要快速设计外壳的情况下使用立创EDA的外壳设计功能很好用,设计完成之后可以直接导出STL文件: 可以看到设计的外壳还是蛮精美的: 特别注意,设计外壳的时候要考虑如何把PCB放进壳子中&…

【文心智能体大赛】迎接属于你的休闲娱乐导师!

迎接属于你的休闲娱乐导师! 前言创建智能体发布智能体最后结语 前言 文心智能体平台AgentBuilder 是百度推出的基于文心大模型的智能体(Agent)平台,支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式&…

【秋招刷题打卡】Day01-自定义排序

Day01-自定排序 前言 给大家推荐一下咱们的 陪伴打卡小屋 知识星球啦&#xff0c;详细介绍 >笔试刷题陪伴小屋-打卡赢价值丰厚奖励 < ⏰小屋将在每日上午发放打卡题目&#xff0c;包括&#xff1a; 一道该算法的模版题 (主要以力扣&#xff0c;牛客&#xff0c;acwin…

EulerOS 安装docker 拉取opengauss 、redis镜像

#下载docker包 wget https://download.docker.com/linux/static/stable/x86_64/docker-18.09.9.tgz #解压 tar zxf docker-18.09.9.tgz #移动解压后的文件夹到/usr/bin mv docker/* /usr/bin #写入docker.service cat >/usr/lib/systemd/system/docker.service <<E…

通过 Setapp 使用 240 多款 Mac 生产力工具以及 GPT-4o

Setapp 是一项革命性的订阅服务&#xff0c;可以使用 240 多款 Mac 应用程序的综合套件&#xff0c;并配有强大的人工智能助手。 通过 Setapp 为你的工作效率和生产力增添魔力。 Setapp 官网&#xff1a;访问&#xff08;提供 7 天试用&#xff09; Setapp 的主要功能 AI 助手…

Spring Boot中的各种事件

spring boot 各种事件贯穿整个启动的生命周期&#xff0c;读懂了这些事件也差不多理解了springboot的启动流程。 SpringApplicationRunListener中的事件 接口org.springframework.boot.SpringApplicationRunListener定义了spring启动过程中各个事件被触发的顶层方法 public …

WPF文本框中加提示语

效果&#xff1a; WPF中貌似不能像winfrom里一样直接加提示语&#xff0c;需要使用TextBox.Style&#xff0c;将Trigger标签插入进去。 贴源码&#xff1a; <WrapPanel Name"TakeOverExpressNo1"><Label Content"物流单号&#xff1a;"><…

oracle12c到19c adg搭建(六)切换后12c备库服务器安装19c软件在19c主库升级数据字典后尝试同步

一、安装19c软件 参考文章oracle12c到19c adg搭建&#xff08;三&#xff09;oracle19c数据库软件安装 二、原主库尝试通过19c软件启动数据库 2.1复制12c的相关参数文件和密码文件到19c目录 注意:密码文件需要从已切换主库19c传过来 [oracleo12u19p ~]$ cd /u01/app/oracle…

labelme 标注岩石薄片数据集流程

labelme 数据标注使用流程 1.打开anaconda环境2.打开labelme工具3.打开数据集文件夹4.开始标注5. 标注完成6. 修改labels.txt文件7. 将标注结果可视化8. 完成json转图片9. 全部命令总结 1.打开anaconda环境 2.打开labelme工具 输入下列两条命令&#xff0c;打开labelme工具 &a…

Vue的学习之安装Vue

目录 一、Vue的特点 二、Vue的学习 一、Vue的特点 1.采用组件化模式&#xff08;xxx.vue包含htmlcssjs&#xff09; 2.声明式编码&#xff0c;编码人员无需直接操作DOM&#xff0c;提高开发效率 3.使用虚拟DOM优秀的DIFF算法&#xff08;DIFF是用于新旧虚拟DOM的比较&#…

RabbitMQ(七)Shovel插件对比Federation插件

文章目录 Shovel和Federation的主要区别&#xff08;重点&#xff09;一、启用Shovel插件二、配置Shovel三、测试1、测试计划2、测试效果发布消息源节点目标节点 Shovel和Federation的主要区别&#xff08;重点&#xff09; • Shovel更简洁一些 • Federation更倾向于跨集群使…

如何使用idea连接Oracle数据库?

idea版本&#xff1a;2021.3.3 Oracle版本&#xff1a;10.2.0.1.0&#xff08;在虚拟机Windows sever 2003 远程连接数据库&#xff09; 数据库管理系统&#xff1a;PLSQL Developer 在idea里面找到database&#xff0c;在idea侧面 选择左上角加号&#xff0c;新建&#xff…

英码科技携手昇腾打造“三位一体”智慧化工解决方案,使能化工产业管理更高效、智能

我国是世界公认的化工大国。然而&#xff0c;大部分化工园区的日常管理方式较为传统&#xff0c;各园区、厂区的门禁、视频、停车场等子系统犹如一个个独立的“岛屿”&#xff0c;每个“岛屿”需要耗费大量人力及时间成本进行巡检、记录、上报&#xff0c;且不能做到全域、全时…

websocket服务执行playwright测试

上一篇博客从源码层面分析了playwright vscode插件实现原理&#xff0c;在上一篇博客中提到&#xff0c;backend服务是一个websocket服务。这遍博客将介绍如何封装一个websocket服务&#xff0c;通过发送消息来执行playwright测试。 初始化项目 第一步是初始化项目和安装必要的…

LangChain入门学习笔记(三)—— Model I/O之Prompts

如果说LCEL是粘合剂&#xff0c;那么它需要粘合起来的要素就是各种组件。其中最核心的要素就是LangChain官方文档中定义的Model I/O&#xff1a;Prompts、Chat Models、LLMs和Output Parsers。这4个基本组件&#xff0c;可以处理基本的用户输入并通过大模型处理后按要求输出。 …