[阅读笔记15][Orca]Progressive Learning from Complex Explanation Traces of GPT-4

接下来是微软的Orca这篇论文,23年6月挂到了arxiv上。

目前利用大模型输出来训练小模型的研究都是在模仿,它们倾向于学习大模型的风格而不是它们的推理过程,这导致这些小模型的质量不高。Orca是一个有13B参数的小模型,它可以学习到LLM的推理过程。这篇论文中GPT-4作为教师模型,ChatGPT作为助教,使用渐进式学习来训练小模型。
下图展示了各模型相对于ChatGPT的性能得分,由GPT-4进行打分,这里Orca是领先于和它同等大小的模型,甚至比超大模型ChatGPT还要好。(不过Orca本来就是用了GPT-4的回答进行了训练,GPT-4更认可它的回答也是意料之中的)

目前一些研究工作使用下图中的方式借助GPT-4来生成数据,然后用该数据对小模型进行指令微调。普通的指令微调通常只有简短的输入输出。当这些输入输出用于训练较小的模型时,就像现有的一些工作一样,它们追踪LLM推理过程的能力有限。

为了解决现有工作的不足,本文中提出了解释微调这一新型微调方法。如图中所示,将系统消息一起输入给GPT-4,系统消息可以要求LLM为回答生成解释信息或者逐步进行推理。

作者手动制作了16个不同的系统消息,如下图所示,这里展示了其中的8个系统消息。

对于每一个数据集都有一组适合它的系统消息。这里就不得不提到模型训练用到的数据集了,训练集从FLAN-v2中采样,FLAN-v2又包括了5个子集,每个子集对应多个数据集。一共从FLAN-v2中采样了五百万条问题,下面右图显示了这些问题在各个子集中的占比。根据子集不同又有不同的系统消息,下面左图展示了不同子集中系统消息的频率分布。这五百万条问题输入ChatGPT获取回答,从中再抽一百万条输入GPT-4获取回答。这就构成了这篇论文使用的训练集了。

接下来要谈谈这篇论文使用的渐进式学习方法,所谓渐进式学习其实就是先用ChatGPT那五百万条数据训练,然后再用GPT-4那一百万条数据训练。
这里作者提到了为什么要用ChatGPT,主要有两个原因。第一个原因是模型的能力差距,Orca只有13B,相对GPT-4实在太弱了。有论文证明过,这时候引入一个能力差距比较小的中级教师作为过渡可以提升蒸馏效果。也就是渐进式学习的过程,学生首先从简单的例子中学习,然后再接触更难的例子,这时候从一个更优秀的老师那里得到改进过的推理步骤和逐步的解释。第二个原因就是GPT-4使用代价更高,如下面左图所示,GPT-4的价格更贵、每分钟允许请求数更少、每分钟可用token更少。基于这两个原因才引入了ChatGPT这个助教。下面右图显示了加入ChatGPT那五百万条数据后所带来的性能提升。

最后是模型的结果展示,左边是在某些考试上的得分,可以看到已经很接近ChatGPT了,右边是某些考试的平均得分,可以看到Orca明显优于同等规模的vicuna,同时表现接近了更大规模的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1161.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java中的四种引用类型

6.Java中的引用类型 1.强引用 一个对象A被局部变量、静态变量引用了就产生了强引用。因为局部变量、静态变量都是被GC Root对象关联上的,所以被引用的对象A,就在GC Root的引用链上了。只要这一层关系存在,对象A就不会被垃圾回收器回收。所以只…

计算机视觉——OpenCV Python位运算与图像掩码

概述 位运算与图像掩码的结合允许对图像的特定区域进行精确的操作。通过使用位运算(如AND、OR、XOR和NOT),可以基于掩码的选择性地修改图像数据。位运算与图像掩码结合使用的一些关键点和应用场景: 选择性修改: 通过位…

内网云盘如何内网穿透实现公网访问

云盘是一种专业的互联网存储工具,是互联网云技术的产物,它通过互联网为企业和个人提供信息的存储、读取、下载等服务,具有安全稳定、海量存储的特点。随着企业信息化发展,云盘系统需求不断扩大,相关系统软件被广泛应用…

通用大模型研究重点之五:llama family

LLAMA Family decoder-only类型 LLaMA(Large Language Model AI)在4月18日公布旗下最大模型LLAMA3,参数高达4000亿。目前meta已经开源了80亿和700亿版本模型,主要升级是多模态、长文本方面工作。 模型特点:采用标准的…

IoC 思想简单而深邃

一、序言 本文跟大家聊聊 IoC 这一简单而深邃的思想。 二、依赖倒置原则 软件工程理论中共有六大设计原则: 单一职责原则:不存在多于一个的因素导致类的状态发生变更,即一个类只负责一项单一的职责。里氏替换原则:基类出现的地…

VSCode搭建内核源码阅读开发环境

0. 参考链接 使用VSCode进行linux内核代码阅读和开发_vscode阅读linux内核-CSDN博客 1. 搭建Linux内核源码阅读环境 现状,Linux内核源码比较庞大文件非常多,其中又包含的众多的宏定义开关配置选项,这使得阅读内核源代码称为一件头疼的事。 …

常见的七种排序

目录 一、插入排序 1、直接插入排序 2、希尔排序(缩小增量排序) 二、选择排序 3、直接选择排序 4、堆排序 三、交换排序 5、冒泡排序 6、快速排序 四、归并排序 7、归并排序 五、总结 一、插入排序 1、直接插入排序 思路: i 用来…

Lustre架构介绍的阅读笔记-客户端

本文是在阅读Introduction to Lustre* Architecture的Lustre File System – Clients时的笔记。 Lustre客户端部署在客户的计算节点上,工作时不占用本地的硬盘。 不使用本地硬盘作为缓存或者后备空间。对存储系统的访问均通过网络。 Lustre客户端作为Linux内核的…

文本溢出体验进阶:CSS 技巧实现单行/多行隐藏展示以及实际场景应用,确保内容可读性和布局整洁性

CSS文本溢出隐藏是一种常见的场景,它广泛应用于各种网页设计中,旨在确保内容的可读性和布局的整洁性,特别是在空间有限或需要适应不同屏幕尺寸的情况下。 一、文本溢出隐藏并显示省略号 1、单行文本溢出隐藏并显示省略号 对于单行文本&…

form的作用

HTML中的<form>标签主要用于收集用户输入的数据&#xff0c;并在用户提交表单时将这些数据发送到服务器进行处理。<form>标签及其内部的元素&#xff08;如<input>, <textarea>, <select>等&#xff09;一起构成了一个表单&#xff0c;用户可以通…

paho-mqtt 库揭秘

文章目录 **paho-mqtt 库揭秘**第一部分&#xff1a;背景介绍第二部分&#xff1a;paho-mqtt 是什么&#xff1f;第三部分&#xff1a;如何安装这个库&#xff1f;第四部分&#xff1a;库函数使用方法第五部分&#xff1a;场景应用第六部分&#xff1a;常见Bug及解决方案第七部…

【C语言笔记】dll库“__declspec”属性关键字总结,dllexport,dllimport

dll库“__declspec”属性关键字总结&#xff0c;dllexport&#xff0c;dllimport 一&#xff0c;简介二&#xff0c;介绍2.1 __declspec(dllexport)示例&#xff1a;1&#xff0c;extern "C"&#xff1a;2&#xff0c;__declspec(dllexport)&#xff1a; 2.2 __decls…

Swift-25-普通函数、闭包函数与Lamda表达式编程

函数 语法定义 先来看下swift中函数的定义&#xff0c;函数用关键字func来指定&#xff0c;语法相对复杂一点&#xff0c;主要有下列4种基本情况&#xff0c;还有比较复杂的&#xff0c;会在后续详细讲解。 无参函数定义 有参函数定义 一个简单的函数和函数调用示例如下&…

分类预测 | Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类预测

分类预测 | Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类预测 目录 分类预测 | Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现SCSO-SVM沙猫群优化算法优化支持向量机多特征分类…

A1322 电烙铁发热芯热电偶温度与电压数据

就是这种四根线比较细的发热芯&#xff1a; 两根红色线是发热丝&#xff0c;另外两根是热电偶线&#xff0c;透明线是正极&#xff0c;不能搞错了。 非常粗略的测了一下&#xff0c;根本没有考虑误差。拿万用表直接测量热电偶的输出电压&#xff1b;用可调电源手动调节电压&am…

suse15 系统分区信息损坏修复案例一则

关键词 suse linux、系统分区fdisk、分区类型testdisk、grub2、bios There are many things that can not be broken&#xff01; 如果觉得本文对你有帮助&#xff0c;欢迎点赞、收藏、评论&#xff01; 一、问题现象 业务反馈一台suse服务器&#xff0c;因错误执行了fdisk分区…

TCP三次握手的原因

三次握手才可以阻止重复历史连接的初始化&#xff08;主要原因&#xff09;三次握手才可以同步双方的初始序列号三次握手才可以避免资源浪费为了确认双方的接收能力和发送能力都正常 为了实现可靠传输&#xff0c; 通信双方需要判断自己已经发送的数据包是否都被接收方收到&…

Linux 服务器硬件及RAID配置实战

服务器详解 服务器分类 可以分为&#xff1a;塔式服务器、机架服务器、刀片服务器、机柜服务器等。 其中以机架式居多 服务器架构 服务器品牌&#xff1a; 戴尔、AMD、英特尔、惠普、华为、华3&#xff08;H3C&#xff09;、联想、浪潮、长城 服务器规格&#xff1a; 规格…

【 C++ 】 讲解与实现 对数器接口

什么是对数器 说是叫对数器&#xff0c;但我觉得叫做核验器更好。 为什么&#xff1f;因为其作用是核验算法是否正确&#xff0c;所以我觉得叫核验器更好。 注意&#xff1a;本文实现的是生成只能int类型的对数器&#xff0c;其余类型不支持。 对数器的原理 对于一个核验器&am…

怎么用手机远程控制电脑 远程控制怎么用

怎么用手机远程控制电脑&#xff1a;远程控制怎么用 在这个科技日新月异的时代&#xff0c;远程控制电脑已经成为了很多人的需求。有时&#xff0c;我们可能在外出时突然需要访问家中的电脑&#xff0c;或者在工作中需要远程操控办公室的电脑。这时&#xff0c;如果能用手机远…