OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远

除了OpenAI自己,居然还有别人能用上GPT-4-Base版??

也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。

EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究**“上下文学习足以让大模型跟随指令吗?”**。

图片

也就是不用监督微调、也不用RHLF或其他强化学习对齐方法,只靠提示词能走多远?

预训练模型,究竟能不能一步登天,直接改造成聊天机器人或AI助手?

图片

如果可行,将大大降低类ChatGPT大模型的开发难度。

免微调对齐靠谱吗?

免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。

目前的SOTA方法URIAL来自艾伦研究所,使用系统提示词+少数风格示例就能达到不错的效果。

图片

但EPFL团队发现,URIAL仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。

实验中,在Llama系列、Mistral系列和一般人接触不到的GPT-4-Base都观察到这种现象。

其中GPT-4-Base的API访问权限从OpenAI Researcher Access Program项目中申请到。

图片

EPFL团队从这里出发,尝试了各种办法来提升上下文学习的效果。

首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

图片

然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0基准测试中。

图片

此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。

也就是说,不同的示例适合不同的模型

图片

团队还进行了一系列消融实验,以更多地了解上下文学习的工作原理。

他们发现,在MT-Bench这样的综合评测中,示例包含正确的“问题-答案对”至关重要

这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。

图片

所以最终得出的结论是:

即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。

论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。

指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。

想让AI助手更“听话”,暂时还是很难有捷径可走。

论文地址:

https://arxiv.org/abs/2405.19874

参考链接:
[1]https://x.com/maksym_andr/status/1796574297894318136

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/27170.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

某文旅集团定岗定编项目成功案例纪实

——加强一专多能培训,增加人员履职,提高工作饱和度 【客户行业】文旅行业;国有企业 【问题类型】定岗定编 【客户背景】 北方某一线城市的文旅集团,是国资委下属的一家企业,主营业务包括:出租商业用房…

HCIE-QOS流量监管-拥塞管理

QOS流量监管-拥塞管理 QOS数据处理流程流量限速技术-令牌桶技术单桶单速双色标记法双桶单速三色标记法(常用)双桶双速三色标记法 流量监管承诺访问速率流量监管使用场景配置基于接口的流量监管配置MQC实现流量监管 流量整形流量整形的实现 (1)流量整形的…

【Python】Python开发面试题库:综合考察面试者能力

文章目录 Python开发面试题库:综合考察面试者能力1. 基础语法与数据类型问题1:变量与数据类型问题2:列表与字典操作问题3:字符串操作问题4:元组解包问题5:集合操作问题6:基本运算问题7&#xff…

LeetCode | 21.合并两个有序链表

这道题也是很经典的一道题了,408的算法题中也考过这个思想,因为两个链表已是升序,合并只需要两个指针,分别指向两个表的表头,分别比较两个指针所指向的结点的val,小的就插入到目标链表里面,再后…

鸿蒙轻内核Kconfig使用笔记

鸿蒙轻内核使用Kconfig进行图形化配置,本文专门讲解下鸿蒙轻内核LiteOS-M和LiteOS-A的图形化配置方法。本文中所涉及的源码,均可以在开源站点 https://gitee.com/openharmony/kernel_liteos_a 、 https://gitee.com/openharmony/kernel_liteos_m 获取。本…

交友系统定制版源码 相亲交友小程序源码全开源可二开 打造独特的社交交友系统

交友系统源码的实现涉及到多个方面,包括前端页面设计、后端逻辑处理、数据库设计以及用户交互等。以下是一个简单的交友系统源码实现的基本框架和关键步骤: 1.数据库设计:用户表:存储用户基本信息,如用户ID、用户名、密码、头像、性别、年龄、地理位置…

深入解析 MySQL 事务:从基础概念到高级应用

深入解析 MySQL 事务:从基础概念到高级应用 一、定义 事务是由一个或多个 SQL 语句组成的独立工作单元,在这个单元中,每个 SQL 语句都是相互依赖的。事务作为一个不可分割的整体存在,要么全部成功,要么全部失败&…

APP安全测试总结-看这篇就够了

APP安全测试项总结如下: 一、静态分析 代码审查:检查代码是否存在安全漏洞,如硬编码密码、敏感信息明文存储等。配置文件分析:分析APP的配置文件,查看是否存在不当的权限设置等。反编译测试:使用反编译工…

【我是产品经理_注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞 …

go匿名函数

【1】Go支持匿名函数,如果我们某个函数只是希望使用一次,可以考虑使用匿名函数 【2】匿名函数使用方式: (1)在定义匿名函数时就直接调用,这种方式匿名函数只能调用一次(用的多) &am…

【推荐系统简介以及其链路流程】

文章目录 1、数据收集和预处理1.1、推荐系统的数据架构 2、用户(user)画像和物品(item)画像的构建3、特征工程3.1、特征提取的框架3.1.1、物料画像3.1.2、用户画像3.1.3、交叉特征3.1.4、偏差特征 3.2、数值特征的处理3.2.1、缺失…

数据更新-插入元组(VALUES)、修改属性(SET)、删除元组(DELETE)

一、插入元组 1、插入单个元组&#xff08;使用的是VALUES子句&#xff09; &#xff08;1&#xff09;语句格式 INSERT INTO <表名> 【&#xff08;<属性名1【&#xff0c;<属性名2>&#xff0c;...】&#xff09;】 VALUES &#xff08;<常量1>【&a…

RGB摄像头设置图像格式(YUV/MJPEG)不生效问题

linux平台摄像RGB摄像头图像格式不生效问题记录。 有问题的代码流程&#xff1a; 1.rgb_init打开摄像头 2.start设置rgb图像格式然后取流 3.stop停止取流 4.rgb_deinit关闭摄像头 使用流程&#xff1a; 设置MJPEG格式&#xff0c;开始取流&#xff0c;停止取流&#xff0…

后端项目实战--瑞吉外卖项目软件说明书

瑞吉外卖项目软件说明书 一、项目概述 瑞吉外卖项目是一个外卖服务平台&#xff0c;用户可以通过该平台浏览餐厅菜单、下单、支付以及追踪订单状态。产品原型就是一款产品成型之前的一个简单的框架&#xff0c;就是将页面的排版布局展现出来&#xff0c;使产品得初步构思有一…

有哪些常用ORM框架

ORM&#xff08;Object-Relational Mapping&#xff0c;对象关系映射&#xff09;是一种编程技术&#xff0c;它允许开发者使用面向对象的编程语言来操作关系型数据库。ORM的主要目的是将数据库中的数据表映射到编程语言中的对象&#xff0c;从而使得开发者可以使用对象的方式来…

如何加速海外网络?提升海外应用访问速度的策略

随着全球化的迅猛发展&#xff0c;越来越多的国内企业需要与海外合作伙伴进行业务往来和数据交流。然而&#xff0c;许多企业在访问国外网站和应用时常常面临卡顿和延迟的问题&#xff0c;这不仅降低了工作效率&#xff0c;还可能错失商机。那么&#xff0c;企业如何在访问海外…

Android面试题之ActivityManagerService的启动流程

本文首发于公众号“AntDream”&#xff0c;欢迎微信搜索“AntDream”或扫描文章底部二维码关注&#xff0c;和我一起每天进步一点点 SystemServer启动 创建SystemContex 用于加载系统相关的资源&#xff0c;比如theme&#xff0c;android命名空间下的资源等创建引导服务&#…

mysql和postgreSQL的区别

mysql 1、mysql多表连接查询方式支支持nest loop&#xff0c;不支持hash join和sort merge join。pg支持多种连接查询方式。 2、mysql子查询性能比pg低。 3、mysql的复制是异步的&#xff0c;即无法通过主从架构做到数据零丢失。一些第三方公司也有改造mysql源代码实现同步复制…

【堆】Leetcode 373. 查找和最小的 K 对数字【中等】

查找和最小的 K 对数字 给定两个以 非递减顺序排列 的整数数组 nums1 和 nums2 , 以及一个整数 k 。 定义一对值 (u,v)&#xff0c;其中第一个元素来自 nums1&#xff0c;第二个元素来自 nums2 。 请找到和最小的 k 个数对 (u1,v1), (u2,v2) … (uk,vk) 。 示例 1: 输入: …

C++中的中介者模式

目录 中介者模式&#xff08;Mediator Pattern&#xff09; 实际应用 聊天室 空中交通管制系统 智能家居控制系统 总结 中介者模式&#xff08;Mediator Pattern&#xff09; 中介者模式是一种行为型设计模式&#xff0c;它定义了一个对象来封装一系列对象之间的交互。通…