OpenAI教GPT-3学会上网,「全知全能」的AI模型上线了

12b88f5ad724522c0b8166166fb6e257.png

来源:机器学习研究组订阅

它被命名为 WebGPT,OpenAI 认为浏览网页的方式提高了 AI 解答问题的准确性。

如果 AI 学会上网,那么它就拥有了无限获取知识的方式,之后会发生什么就不太好预测了。于是著名 AI 研究机构 OpenAI 教那个开启了通用人工智能大门、体量巨大的人工智能模型 GPT-3 学会了上网。

e84b9571cd1af1f3872b0f9b7c2c5c9f.png

2020 年 5 月,OpenAI 上线具有 1750 亿参数的 GPT-3,这个大模型可谓功能强大,它使用的最大数据集在处理前容量达到了 45TB,不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。这样强大的深度学习模型,不禁让人产生一种错觉:真正的 AI 要来了吗?

在 GPT-3 之后,语言大模型成为了各家科技公司研究的重要趋势,有把大模型和知识图谱结合的,也有在「大」这个方向上一头走到黑的。今年 12 月,谷歌 GLaM 已经把参数量推高到了 1.2 万亿。

像 GPT-3 这样的语言模型对许多不同的任务都很有用,但在执行现实世界知识任务时往往会产生「幻觉」信息。它们往往有一个缺点——缺乏常识。比如在被问及「我的脚有几个眼睛」时,它会回答「两个」。这一缺陷被业内称为「GPT-3 的阿喀琉斯之踵」。在具体的应用中,它会导致模型在一些涉及逻辑推理和认知的任务上表现较差。

 为了解决这个问题,OpenAI 教会了 GPT-3 使用基于文本的 web 浏览器。

现在,这个模型能正确地处理一些棘手的问题:比如,有人询问了一个错误的问题:「莎士比亚什么时候写的《哈利 · 波特》系列小说?」

该模型回答:莎士比亚没有写《哈利 · 波特》小说。这些小说是由 J.K. 罗琳完成的……

现在看来,这个会上网的 WebGPT,不会再直接回答「我的脚有几个眼睛」这样错误明显的问题,而是帮你纠正。

083101f78caa13b703df2b0ddf749b97.png

从回答的内容来看,这个模型完全正确,此外,该模型还给读者提供了引用文献,如蓝体数字所示,答案的最后还给出了相关链接,点击每个链接,还能链接到相应的网页。

又比如,有人问:海马体中有相互连接吗?模型的回答感觉比专业人士还要专业。同样的,模型还给出了参考链接。

6318813e6bce9ff4b83c06ecb6b2ce47.png

对于一些更专业的问题,WebGPT 也不在话下,比如,什么是机器学习中的稀疏 transformer?对于这个问题,可能刚入行 AI 的研究者都回答不了,但是该模型能给出准确的答案,还带公式的那种。

4eb7824c9788366ada32c656f9730b69.png

下面是模型搜索过程:

87b63c1c832e660b6735ed7df67807ce.gif

上述功能是如何实现的呢?具体来说,OpenAI 对 GPT-3 进行了微调,以使用基于文本的网络浏览器更准确地回答开放式问题,这允许模型搜索和浏览网页。该模型原型复制了人类在线研究问题答案的方式,涉及提交搜索查询,跟踪链接,以及向上和向下滚动网页。模型经过训练后,它会引用信息源,这使得模型提供反馈更容易,从而提高事实的准确性。

此外,该模型还提供了一个开放式问题和浏览器状态摘要,并且必须具有诸如「Search……」、「Find in page:……」或「Quote:……」之类的命令。通过这种方式,模型从网页中收集段落,然后使用这些段落来撰写答案。

 通过设置任务,OpenAI 能够使用模仿学习(imitation learning)在不同任务上训练模型,然后根据人类反馈优化答案质量。OpenAI 在 ELI5 上对模型进行了训练和评估,其中 ELI5 是一个由 Reddit 用户提问的问题集。

e11878f425228bfa13e14a7543f80162.png

论文地址:https://cdn.openai.com/WebGPT.pdf

模型训练

如此智能的模型是怎么实现的呢?

总体而言,OpenAI 对 GPT-3 模型家族的模型进行了微调,重点研究了具有 760M、13B 和 175B 参数的模型。从这些模型出发,OpenAI 使用了四种主要的训练方法:

  • 行为克隆(Behavior cloning,BC):OpenAI 使用监督学习对演示进行了微调,并将人类演示者发出的命令作为标签;

  • 建模奖励(Reward modeling,RM):从去掉 unembedding 层的 BC 模型开始,OpenAI 训练的模型可以接受带有引用的问题和答案,并输出标量奖励,奖励模型使用交叉熵损失进行训练;

  • 强化学习(RL):OpenAI 使用 Schulman 等人提出的 PPO 微调 BC 模型。对于环境奖励,OpenAI 在 episode 结束时获取奖励模型分数,并将其添加到每个 token 的 BC 模型的 KL 惩罚中,以减轻奖励模型的过度优化;

  • 剔除抽样(best-of-n):OpenAI 从 BC 模型或 RL 模型(如果未指定,则使用 BC 模型)中抽取固定数量的答案(4、16 或 64),并选择奖励模型排名最高的答案。 

对于 BC、RM 和 RL,OpenAI 使用了相互不相交的问题集。总结来说,BC 中,OpenAI 保留了大约 4% 的演示作为验证集。RM 中,OpenAI 使用了不同大小模型(主要是 175B 模型)对比较数据集答案进行采样,使用不同方法和超参数的组合进行训练,并将它们组合成单个数据集。最终奖励模型经过大约 16,000 次比较的训练,其余 5,500 次用于评估。而 RL 中采用混合的方式,其中 90% 问题来自 ELI5,10% 问题来自 TriviaQA。

结果

ELI5 结果

模型经过训练可以回答来自 ELI5 的问题,OpenAI 训练了三种不同的模型(760M、13B 和 175B),对应于三种不同的推理时间计算预算。OpenAI 表现最好的模型(175B best-of-64)产生的答案在 56% 的时间里比人类演示者写的答案更受欢迎。尽管这些是用于训练模型的同一种演示,但我们能够通过使用人工反馈来改进模型的答案以进行优化。

6b0bddce1dc83308a7b6f411c1310d30.png

在 ELI5 测试集上,将 OpenAI 的模型与人类演示者进行比较。 

TruthfulQA 结果

对于从训练分布(training distribution)中提出的问题,OpenAI 最好的模型的答案平均与我们的人类演示者写的答案一样准确。然而,对于 out-of-distribution 问题,鲁棒性是一个挑战。为了探讨这个问题,OpenAI 在 TruthfulQA 数据集上进行了评估。OpenAI 的模型在 TruthfulQA 上优于 GPT-3,并表现出更有利的扩展特性。然而,OpenAI 的模型落后于人类的表现,部分原因是它们引用了不可靠的来源。该研究希望使用对抗训练等技术来减少这些问题。

399d7ae1448297f00de62906f57a669f.png

TruthfulQA 结果。

评估实时准确性

为了提供正确的反馈以提高事实准确性,人类必须能够评估模型产生的回答。这可能是个极具挑战性的任务,因为回复可能是技术性的、主观的或含糊不清的。出于这个原因,开发者要求模型引用其回答的来源。

经过测试,OpenAI 认为 WebGPT 还是无法识别很多细微差别,人们预计随着人工智能系统的改进,这类决策将变得更加重要,需要跨学科研究来制定既实用又符合认知的标准。或许辩论的方式可以缓解这些问题。

部署和训练的风险

因为生成错误陈述的几率更低,WebGPT 显然比 GPT-3 更加优秀,但它仍然存在风险。带有原文引用的答案通常被认为具有权威性,这可能会掩盖 OpenAI 新模型仍然存在基本错误的事实。该模型还倾向于强化用户的现有信念,研究人员们正在探讨如何最好地解决这些问题。

除了出错和误导之外,通过让 AI 模型访问网络的方法训练,为该研究引入了新的风险。对此 OpenAI 表示人工智能的浏览环境还不是完全的网络访问,是通过模型将查询请求发送到 Microsoft Bing Web Search API 并关联网络上已有链接实现的,这可能会产生副作用。

OpenAI 表示,根据对 GPT-3 的已有经验,该模型似乎不足以危险地利用这些与外界互联的方式。然而,风险会随着模型能力的增加而增加,研究人员正在努力建立针对它们的内部保护措施。

OpenAI 认为,人类的反馈和 Web 浏览器等工具为实现稳定可信,真正通用的 AI 系统找到了一条有希望的途径。尽管目前的语言大模型还面临很多未知和挑战,但人们在这个方向上仍然取得了重大进展。

参考链接:

https://openai.com/blog/improving-factual-accuracy/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

e9710174da5d3ba8cb1d9ae8d0a9133a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483015.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hadoop(2):常见的MapReduce[在Ubuntu中运行!]

1 以词频统计为例子介绍 mapreduce怎么写出来的 弄清楚MapReduce的各个过程&#xff1a; 将文件输入后&#xff0c;返回的<k1,v1>代表的含义是&#xff1a;k1表示偏移量&#xff0c;即v1的第一个字母在文件中的索引&#xff08;从0开始数的&#xff09;&#xff1b;v1表…

springboot学习笔记-01-springboot-helloworld的编写以及原理初步了解(自动装配)

文章目录原理初探主程序关于spring boot&#xff0c;谈谈你的理解&#xff1a;微服务阶段原理初探 pom.xml spring-boot-dependencies&#xff1a;核心依赖在父工程中&#xff01;我们在写或者引入一些springboot依赖的时候&#xff0c;不需要指定版本&#xff0c;就因为有这…

2022年:机器人技术的重大革命

来源&#xff1a;ScienceAI编辑&#xff1a;萝卜皮一段时间以来&#xff0c;跟踪机器人技术发展的人已经注意到该领域的一场无声革命。虽然自动驾驶汽车占据了所有的头条新闻&#xff0c;但人工智能、机器视觉和机器学习的交叉领域正在迅速成为下一阶段机器人技术的基础。通过将…

陈天奇高赞文章:新一代深度学习编译技术变革和展望

来源&#xff1a;机器之心作者&#xff1a;陈天奇陈天奇是机器学习领域著名的青年华人学者之一&#xff0c;本科毕业于上海交通大学ACM班&#xff0c;博士毕业于华盛顿大学计算机系&#xff0c;研究方向为大规模机器学习。在本文中&#xff0c;陈天奇回答了目前深度学习编译技术…

操作系统欢乐笔记-01-带你推开操作系统的大门(雾)

B站-操作系统-哈尔并工业大学-劝退警告223 文章目录1.什么是操作系统&#xff1f;什么是操作系统&#xff1f;小目标&#xff1f;2.揭开钢琴的盖子熟悉的win开机画面从白纸到图灵机冯-诺依曼一拍脑袋瓜&#xff0c;他说摁下开机键这段不是rap 223 劝退警告emmmmm1.什么是操作系…

2022年值得关注的22项新兴技术

来源&#xff1a;参考消息网英国《经济学人》网站11月8日发表题为《下一个是什么&#xff1f;2022年值得关注的22项新兴技术》的文章。在文章列举的22项新技术中&#xff0c;既有今年大热的“元宇宙”、太空旅游、脑机接口&#xff0c;也有备受期待的量子计算、艾滋病病毒疫苗……

分别安装搭建lamp服务环境

一、 分别安装搭建lamp服务环境 准备工作&#xff1a; 1、配置防火墙&#xff0c;开启80端口、3306端口vi /etc/sysconfig/iptables-A INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT #允许80端口通过防火墙-A INPUT -m state –state NEW -m tcp -p tcp –dp…

springdata学习笔记-01-helloworld-(暂时不全223)

第一天 orm思想和hibernate以及jpa的概述和jpd的基本操作 传统jdbc操作 获取链接创建statement对象可以对占位符赋值发送查询 操作繁琐占位符赋值麻烦 orm思想 主要目的&#xff1a;操作实体类就相当于操作数据库表建立两个映射关系 实体类和表的映射关系实体类中属性和表中…

nginx学习笔记-01nginx入门,环境搭建,常见命令

nginx学习笔记-01nginx入门&#xff0c;环境搭建&#xff0c;常见命令 文章目录nginx学习笔记-01nginx入门&#xff0c;环境搭建&#xff0c;常见命令1.nginx的基本概念2.nginx的安装&#xff0c;常用命令和配置文件3.nginx配置实例1.nginx的基本概念 nginx是什么&#xff0c;做…

MIT博士用概率编程让AI和人类一样看三维|NeurIPS 2021

来源&#xff1a;机器学习研究组订阅人与AI之间最大的区别就是对常识的利用&#xff01;无论各种AI模型在各大排行榜以何种性能超越了人类&#xff0c;它们在常识的利用上仍然远远不及人类&#xff0c;而这也正是目前AI研究中需要面临的一个巨大的挑战。对于自然语言处理的研究…

Unity Shader 2D水流效果

水流的模拟主要运用了顶点变换和纹理动画的结合&#xff1b; 顶点变换中&#xff0c;利用正弦函数模拟河流的大致形态&#xff0c;例如波长&#xff0c;振幅等。 纹理动画中&#xff0c;将纹理坐标朝某一方向持续滚动以形成流动的效果。 脚本如下&#xff1a; 1 Shader "M…

2022年智能家居十大预测新鲜出炉:全屋智能驶入快车道?健身镜成新宠……

来源&#xff1a;物联网智库 2021年接近尾声&#xff0c;这一年&#xff0c;新冠病毒仍旧没有离开地球&#xff0c;而在疫情常态化、工作与生活回归正轨之余&#xff0c;人们对于网络与虚拟世界的依赖度也陡然骤增。这一转变无疑将极大拉动消费端的数字化产业发展&#xff0c;除…

数据结构与算法——动态规划

文章目录1.内容概述2.爬楼梯2.1 题目描述2.算法思想2.3 代码实现3.打家劫舍3.1 题目描述3.2 算法思路3.3 代码实现4.最大子序和4.1 题目描述4.2 算法思路4.3 代码思路5. 零钱兑换5.1 题目描述5.2 算法思路5.3 代码实现6.三角形最小路径和6.1 题目描述6.2 算法思路6.3 代码实现7…

vue学习笔记-01-前端的发展历史(从后端到前端,再到前后端分离,再到全栈)

vue学习笔记-01-前端的发展历史&#xff08;从后端到前端&#xff0c;再到前后端分离&#xff0c;再到全栈&#xff09; 这篇文章是博主在看vue-前端发展简史的时候做的笔记&#xff0c;以供后续学习复习 文章目录vue学习笔记-01-前端的发展历史&#xff08;从后端到前端&#…

黑客帝国「缸中之脑」有眉目了?培养皿中百万人脑细胞学会打乒乓球,仅用了5分钟...

来源&#xff1a;机器之心编辑&#xff1a;张倩、杜伟既然生物神经元如此高效&#xff0c;为什么不拿来用呢&#xff1f;最新版本的《黑客帝国》还有两天才会上映&#xff0c;但最近的一些科技进展总让我们觉得&#xff0c;导演描述的世界似乎离我们越来越近了。其中一个进展来…

《Science》基因组比对的革命性技术

来源&#xff1a;生物通加州大学圣克鲁斯基因组研究所(UC Santa Cruz Genomics Institute)的研究人员推出了一种名为“长颈鹿”(Giraffe)的新工具&#xff0c;可以有效地将新的基因组序列绘制到代表多种不同人类基因组序列的“泛基因组”(pangenome)上。使用泛基因组学方法而不…

vue学习笔记-02-前端的发展历史浅谈mmvm设计理念

vue学习笔记-02-前端的发展历史浅谈mmvm设计理念 文章目录1. MVVM模式的实现者2.第一个vue程序3.什么是mvvm&#xff1f;4.为什么要用mvvm&#xff1f;5.mvvm的组成部分7.MVVM 模式的实现者8.为什么要使用 Vue.js1. MVVM模式的实现者 Model:模型层&#xff0c;在这里表示JavaSc…

linux——select、poll、epoll

文章目录1.多路I/O转接服务器2.select3.select代码4.poll5.epoll5.1 基础API5.3 epoll代码5.4 边沿触发和水平触发5.4.1 水平出发LT5.4.2 边缘触发5.4.3 服务器的边缘触发和水平触发5.4 边缘触发但是能一次读完6.epoll反应堆模型6.1 反应堆模型6.2 epoll反应堆代码7.心跳包8.线…

年终盘点:2021年中国科技的重大突破

来源&#xff1a;科技日报2021年已经步入尾声&#xff0c;过去的一年是科技界屡创新高、收获满仓的一年。这一年&#xff0c;恰逢中国共产党百年华诞&#xff0c;我国科技界更是取得多项重要突破。量子计算获得重大进展&#xff0c;使我国成为唯一在两个物理体系中实现量子计算…

vue学习笔记-03-浅谈组件-概念,入门,如何用props给组件传值?

vue学习笔记-03-浅谈组件-概念&#xff0c;入门&#xff0c;如何用props给组件传值&#xff1f; 文章目录vue学习笔记-03-浅谈组件-概念&#xff0c;入门&#xff0c;如何用props给组件传值&#xff1f;什么是组件&#xff1f;为什么要使用组件&#xff1f;如何使用组件呢&…