大模型常用微调数据集

文章目录

    • 指令微调数据集
    • 人类对齐数据集

    为了增强模型的任务解决能力,大语言模型在预训练之后需要进行适应性微调,通常涉及两个主要步骤,即指令微调(有监督微调)和对齐微调。

指令微调数据集

    在预训练之后,指令微调(也称为有监督微调)是增强或激活大语言模型特定能力的重要方法之一(例如指令遵循能力)。本小节将介绍几个常用的指令微调数据集,并根据格式化指令实例的构建方法将它们分为三种主要类型,即自然语言处理任务数据集、日常对话数据集和合成数据集。

图片名称
指令微调的数据集

    在指令微调被提出前,早期的研究通过收集不同自然语言处理任务(如文本分类和摘要等)的实例,创建了有监督的多任务训练数据集。这些多任务训练数据集成为了构建指令微调数据集的重要来源之一。一般的方法是使用人工编写的任务描述来扩充原始的多任务训练数据集,从而得到可以用于指令微调的自然语言处理任务数据集。其中,P3和 FLAN是两个代表性的基于自然语言处理任务的指令微调数据集。

    P3(Public Pool of Prompts)是一个面向英文数据的指令微调数据集,由超过 270 个自然语言处理任务数据集和 2,000 多种提示整合而成(每个任务可能不止一种提示),全面涵盖多选问答、提取式问答、闭卷问答、情感分类、文本摘要、主题分类、自然语言推断等自然语言处理任务。P3 是通过 Promptsource(一个收集任务提示的众包平台)收集的,其子集被用来训练 T0 模型。

    早期的 FLAN 是通过将 62 个广泛使用的 NLP 基准数据集进行格式化得到的英语指令数据集。现在俗称的 FLAN 实际上是指 FLAN-v2,主要由四个子集 Muffin、NIV2、T0-SF 和 CoT 构成。其中,Muffin 由之前 FLAN 的 62 个任务和新加入的 26 个任务组成(包括对话数据和代码合成数据);T0-SF 则是从T0 模型的数据中抽取出来,同时确保与 Muffin 不重叠;NIV2 指的是数据集Natural-Instructions v2;而 CoT 则是为了增强模型的推理能力而加入的九种不同推理任务的组合。与此同时,FLAN-v2 对每项任务都设置了最大上限,因为在同一混合数据集中,有些任务比其他任务大得多,这可能会在采样中占主导地位,从而影响模型的训练效果。据 FLAN 论文,使用了Muffin:52%,T0-SF:15%,CoT:3%,NIV2:30% 这一混合比例,通常能够使得模型具有较好表现。

    日常对话数据集是基于真实用户对话构建的,其中查询主要是由真实用户提出的,而回复是由人类标注员回答或者语言模型所生成。主要的对话类型包括开放式生成、问答、头脑风暴和聊天。其中,三个较为常用的日常对话数据集包括ShareGPT、OpenAssistant和 Dolly。

    ShareGPT,该数据集因来源于一个开源的数据收集平台 ShareGPT 而得名。在该平台中,用户可以将自己的各种对话数据通过浏览器插件进行上传。这些对话包括来自 OpenAI ChatGPT 的用户提示和回复,语种主要为英语和其他西方语言。具体来说,查询来自于用户的真实提问或指令,回复则是 ChatGPT 对此生成的回答。

    OpenAssistant,该数据集是一个人工创建的多语言对话语料库,共有91,829条用户提示,69,614 条助手回复。OpenAssistant 共包含 35 种语言的语料,每条语料基本都附有人工标注的质量评级(例如回复的有用性、无害性等)。值得注意的是,这里所有的数据都是由用户真实提供的,与上面所提到 ShareGPT 的数据构建方式并不相同。

    Dolly,该数据集是一个英语指令数据集,由 Databricks 公司发布。Dolly 包含了 15,000 个人类生成的数据实例,旨在让大语言模型与用户进行更符合人类价值的高效交互。该数据集由 Databricks 员工标注得到,主题涉及 InstructGPT 论文中提到的 7 个领域,包括头脑风暴、分类、封闭式质量保证、生成、信息提取、开放式质量保证和总结等。

    合成数据集通常是使用大语言模型基于预定义的规则或方法进行构建的。其中,Self-Instruct-52K和 Alpaca-52K是两个具有代表性的合成数据集。

    Self-Instruct-52K 是使用 self-instruct 方法生成的英语指令数据集,共包含 52K 条指令以及 82K 个实例输入和输出。最初,由人工收集创建了 175 个种子任务,每个任务包括 1 个指令和 1 个包含输入输出的实例。然后,每次随机抽取了 8 个指令作为示例,以此提示 GPT-3 生成了新的指令,之后在这些已有指令的基础上,继续利用 GPT-3 生成实例输入及其对应的输出,从而获得了更多数据。这些新得到的指令和输入输出经过滤(去除低质量或重复数据)后会加入数据集中,并继续类似的循环。通过迭代上述过程,最终获得了 52K 条指令和 82K 个实例数据,其中每一条指令可能会用于生成多个输入输出的实例。

    Alpaca-52K 数据集同样是基于 self-instruct 方法进行构建的,它是在 Self-Instruct-52K 的 175 个种子任务上,利用 OpenAI 的 text-davinci-003模型获得了 52K 个不重复的指令,并根据指令和输入生成了输出,进而构成了完整的实例数据。与 Self-Instruct-52K 不同,这里每条指令仅对应于一个输入输出实例。此外,Alpaca-52K 在生成数据的过程中考虑到了输入的可选性,最终的数据中只有 40% 具有输入部分。也正是因此,Alpaca 也包含两种提示模板:包括输入以及不包括输入。

人类对齐数据集

    除了指令微调之外,将大语言模型与人类价值观和偏好对齐也非常重要。现有的对齐目标一般聚焦于三个方面:有用性、诚实性和无害性。本节将介绍几个代表性的对齐微调数据集,它们各自针对上述对齐目标进行了标注,包括 HH-RLHF、SHP、PKU-SafeRLHF、Stack Exchange Preferences、Sandbox Alignment Data 和 CValues。下表展示了这些数据集合的详细信息。

图片名称
全球数据圈规模

    HH-RLHF,该数据集包含两大类标注数据,分别关注于大语言模型的有用性和无害性。整个数据集共包含约 169K 个开放式对话,每个对话涉及一个众包工作者向一个智能信息助手寻求帮助、建议或请求完成任务等情景。信息助手将会为每个用户查询提供两个回复,一个回复被选择而另一个被拒绝。对于有用性相关的数据中,被认为更有用的回复将被选择;而对于无害性相关的数据中,被认为更有害的回复则将被选择。

    SHP,该数据集主要关注模型生成回复内容的有用性。该数据集共 385K 个数据实例,对于 18 个不同主题领域中问题/指令的人类偏好进行标注,涵盖了从烹饪到法律建议等各种主题。每个数据实例都是基于一个寻求帮助的 Reddit 帖子构建的,包含该帖子中的问题和帖子下两个排名较高的评论。这两个评论其中一个被 Reddit 用户认为更有用,另一个被认为不太有帮助。与 HH-RLHF不同,SHP 中的数据并非模型生成,而是人类的回复贴子。

    PKU-SafeRLHF,该数据集侧重于对回复内容的有用性和无害性进行标注。该数据集囊括了 330K 个专家注释的实例,每一个实例都包含一个问题及其对应的两个回答。其中,每个回答都配备了安全性标签,用以明确指出该回答是否安全。此外,标注者还会就这两个回答在有用性和无害性方面进行细致的比较和偏好注释。

    Stack Exchange Preferences,该数据集专注于对答案的有用性进行标注,涵盖了来自知名编程问答社区 Stack Overflow 的约 10M 个问题和答案,具有很高的实用价值。每个数据实例均包含一个具体的问题以及两个或更多的候选答案。每个候选答案都附有一个根据投票数计算得出的分数,并附带了一个表示是否被选中的标签。

    Sandbox Alignment Data,该数据集致力于运用模型自身的反馈机制来进行数据标注,而非依赖人类的直接参与。此数据集源自于一个名为 SANDBOX 的虚拟交互环境,该环境模拟了人类社交互动的场景。在这个环境中,多个大语言模型根据问题给出回复然后互相“交流”,并根据彼此的反馈来不断修正和完善自己的回复,以期达到更佳的交互效果。该数据集涵盖了 169K 个实例,每个实例均包含一个查询、多个回复选项以及由其他模型给出的相应评分。

    CValues,该数据集是一个面向中文的大模型对齐数据集,提出了安全性和责任性这两个评估标准。这个数据集包含了两种类型的提示:安全性提示和责任性提示。安全性提示共有 1,300 个,主要用于测试模型的安全性表现,这些提示的回复被人工标注为安全或不安全,但由于内容敏感,因此并未开源;责任性提示共有 800 个,这些提示由领域专家提供,并用于评估模型在特定领域内的责任性表现,专家也为这些提示的回复进行了打分。由于内容敏感,实际开放的数量有删减。除此之外,CValues 还提供对比形式的数据集,该数据集中一共有 145K 样例,每条样例包含提示、正例回复(被认为更安全更负责任的回复)和负例回复,这部分数据被完全开源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/9885.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动手学深度学习——多层感知机

1. 感知机 感知机本质上是一个二分类问题。给定输入x、权重w、偏置b,感知机输出: 以猫和狗的分类问题为例,它本质上就是找到下面这条黑色的分割线,使得所有的猫和狗都能被正确的分类。 与线性回归和softmax的不同点&#xff1…

Ubuntu/Linux 安装Docker + PyTorch

文章目录 1. 提前准备2. 安装Docker2.1. 卸载冲突软件(非必要)2.2. 在Ubuntu系统上添加Docker的官方GPG密钥2.3. 将Docker的仓库添加到Ubuntu系统的APT源列表中2.4. 安装最新Docker2.5. 检查 3. 安装Nvidia Container Toolkit3.1. 在Ubuntu系统上添加官方…

求一个B站屏蔽竖屏视频的脚本

求一个B站屏蔽竖屏视频的脚本 现在B站竖屏竖屏越来越多了,手机还好点给我一个按钮,选择不喜欢,但是我一般都用网页版看视屏,网页版不给我选择不喜欢的按钮,目测大概1/4到1/3的视频都是竖屏视频。 目前网页版唯一的进…

MarkText 下载安装和运行

1 官网页面 2 Github 页面 3 选择合适的版本,下载后运行。 附录: 官网: https://www.marktext.cc/ Github 地址: https://github.com/marktext/marktext/releases 目前最新版 v0.17.1,Mar 8, 2022。

二叉树的遍历(前序 中序 后序)

一、前序遍历 顺序为: 根-->左子树---->右子树 先访问根节点,再递归进入根节点的左子树(通过递归不断往下遍历),直到访问的节点没有左子树,此时递归进入其右子树(通过递归进行相同操作&a…

有限单元法-编程与软件应用(崔济东、沈雪龙)【PDF下载】

专栏导读 作者简介:工学博士,高级工程师,专注于工业软件算法研究本文已收录于专栏:《有限元编程从入门到精通》本专栏旨在提供 1.以案例的形式讲解各类有限元问题的程序实现,并提供所有案例完整源码;2.单元…

在centos7中运行向量数据库PostgreSQL连接不上如何排查?

1. 检查 PostgreSQL 服务状态 首先,您需要确认 PostgreSQL 服务是否正在运行。您可以使用以下命令来检查服务状态: sudo systemctl status postgresql如果服务没有运行,您需要启动它: sudo systemctl start postgresql2. 确认 …

OSPF链路状态数据库

原理概述 OSPF是一种基于链路状态的动态路由协议,每台OSPF路由器都会生成相关的LSA,并将这些LSA通告出去。路由器收到LSA后,会将它们存放在链路状态数据库LSDB中。 LSA有多种不同的类型,不同类型的LSA的功能和作用是不同的&…

【智能优化算法】金豺狼优化算法(Golden jackal optimization,GJO)

金豺狼优化(Golden jackal optimization,GJO)是期刊“Expert Systems with Applications”(中科院一区IF 8.3)的2022年智能优化算法 01.引言 金豺狼优化(Golden jackal optimization,GJO)旨在为解决实际工程问题提供一种替代的优化方法。GJO的灵感来自金…

【智能优化算法】卷尾猴搜索算法(Capuchin search algorithm,CapSA)

【智能优化算法】卷尾猴搜索算法(Capuchin search algorithm,CapSA)是期刊“NEURAL COMPUTING & APPLICATIONS”(IF 6.0)的2021年智能优化算法 01.引言 【智能优化算法】卷尾猴搜索算法(Capuchin search algorithm,CapSA)用于解决约束和全局优化问…

VMware Workstation 17 Player 创建虚拟机教程

本教程是以windows server 2012物理机服务器安装好的VMware Workstation 17 Player为例进行演示,安装VMware Workstation 17 Player大家可以自行网上搜索安装。 1、新建虚拟机 双击安装好的VMvare图标,点击创建虚拟机。 2、选择是否安装系统 本步骤选…

【静态分析】软件分析课程实验A4-类层次结构分析与过程间常量传播

官网:作业 4:类层次结构分析与过程间常量传播 | Tai-e 参考:https://www.cnblogs.com/gonghr/p/17984124 ----------------------------------------------------------------------- 1 作业导览 为 Java 实现一个类层次结构分析&#xf…

shiro-quickstart启动报错

说明:最近在学登录框架,记录一下学习刚shiro框架,启动快速入门样例的错误; 场景 把shiro代码download下来,打开samples(样例)包,打开快速入门,启动,报错&am…

聊天室项目思路

发起群聊: 从好友表选取人发送到服务器,服务器随机生成不重复的群号,存储在数据库,同时建立中间表,处理用户与群聊的关系 申请入群: 输入群号,发消息给服务器,服务器查询是否存在…

06-xss攻防于绕过

xss的攻击于防御 攻击的利用方式 1)获取cookie,实现越权,如果是获取到网站管理员的cookie,也可以叫提权。注意尽量尽快退出账号,删除session,让session失效 2)钓鱼网站,模拟真实的…

Android 按钮Button点击音效

一、新建工程 编译运行&#xff0c;确保工程无误&#xff0c;这里不过多赘述。 二、UI布局 添加两个播放音效Button <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"…

leetcode-括号生成-101

题目要求 思路 1.左括号的数量等于右括号的数量等于n作为判出条件&#xff0c;将结果存到res中 2.递归有两种&#xff0c;一种是增加左括号&#xff0c;一种是增加右括号&#xff0c;只要左括号的数量不超过n&#xff0c;就走增加左括号的递归&#xff0c;右括号的数量只要小于…

element ui的table多选

使用el-table的selection-change事件来获取选中的值&#xff1b; 例&#xff1a; html代码&#xff1a; <el-button type"primary" click"openTableSet">列表设置</el-button><!-- 列表设置弹框 --> <el-dialog :close-on-click-mo…

【文化课学习笔记】【物理】功与能

【物理】功与能 功 基础概念 定义 一个物体在力的作用下&#xff0c;沿力的方向&#xff0c;通过一段距离(位移)&#xff0c;则称这个力做了功。 公式 功的定义式&#xff1a; \[W Fx \] 这里的 \(x\) 指的是物体沿力的方向上发生的位移。由于力 \(F\) 和位移 \(x\) 都是矢量&…

[笔试训练](十八)

目录 052:字符串压缩 053:chika和蜜柑 054:01背包 052:字符串压缩 压缩字符串(一)_牛客题霸_牛客网 (nowcoder.com) 题目&#xff1a; 题解&#xff1a; 双指针模拟 class Solution { public:string compressString(string param) {int nparam.size();string ret;int num…