大模型几种对齐方法DPO, SFT, RLHF理解学习

大模型几种对齐方法DPO, SFT, RLHF理解学习

diannao/2025/4/27 6:49:04/文章来源:https://blog.csdn.net/u012505617/article/details/142551523

1. 背景

大模型为什么需要对齐？

首先我们要搞清楚一个问题：LLM大语言模型预训练是监督还是无监督学习？

答案是无监督学习。

在预训练阶段，大语言模型（LLM）通过无监督学习大量的文本数据，例如网页、电子书、新闻等，以学习词语的分布、句子的语法结构和语言常识等，这一过程是一个无监督学习过程。模型通过大规模数据自我学习，而不是通过特定任务的标签引导，这使得LLM能够获取广泛且深入的语言知识。

预训练带来一系列好处的同时，也会导致一些问题：比如模型输出与预期目标不一致；生成歧视性、偏见性或有害的内容；模型过度泛化等。

为了解决这些问题，我们一般有在后阶段采用监督微调（SFT）、直接偏好对齐（DPO）、基于人类的强化学习（RLHF）等方法。这篇文章主要介绍这三种方法。

2.监督微调 SFT (Supervised Fine-Tuning)

定义与原理：

监督微调是一种使用有监督学习来微调预训练语言模型的方法。其目标是通过有标签的数据集（通常包含输入和期望输出的示例）来优化预训练模型，使其能够更好地完成特定任务或生成符合特定要求的输出。（如图）

优势与局限：

优势：能够快速提高模型在特定任务上的性能，同时保持大部分预训练知识。
局限：依赖于高质量的有标签数据，且可能存在标签偏差和过拟合的风险。

3.直接偏好对齐 DPO (Direct Preference Optimization)

定义与原理：

直接偏好对齐是一种旨在直接优化模型以符合人类偏好的方法。与RLHF相比，DPO不需要额外的奖励模型或强化学习框架，而是直接优化语言模型本身。

优势与局限：

优势：简化了训练流程，减少了对额外模型（如奖励模型）的依赖
局限：可能需要更多的偏好数据来确保优化效果的准确性，且优化过程可能较为复杂。

4.基于人类反馈的强化学习RLHF(Reinforcement Learning from Human Feedback)

定义与原理：

RLHF是一种结合强化学习和人类反馈来优化语言模型的方法。其核心思想是通过人类的反馈来指导模型的优化过程，使模型能够生成更符合人类期望的输出。

优势与局限：

优势：能够利用人类反馈来优化模型输出，使模型更符合人类期望和偏好。
局限：需要大量的人类反馈数据，且训练过程较为复杂和耗时。同时，奖励模型可能存在偏差和局限性。

参考：

https://zhuanlan.zhihu.com/p/695990388

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/54867.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

解决Android中使用jdk 9以上中的某个类（AbstractProcessor）但是无法导入的问题

解决Android中使用jdk 9以上中的某个类（AbstractProcessor）但是无法导入的问题

前景提要今天在使用jdk中的AbstractProcessor类的时候，怎么都找不到，网上各种搜索，加什么依赖都没用，看了下依赖确实有这个类但是就是无法正常导入然后翻了下android.jar，发现没有这个类疑问但是你尝试一下发…

阅读更多...

Linux学习之路 -- 线程 -- 条件变量与生产消费模型

Linux学习之路 -- 线程 -- 条件变量与生产消费模型

前面我们已经提过线程互斥的相关概念，但是我们在前文的抢票逻辑中，我们其实很容易发现一个问题。那就是票可能被一直被一个人抢，这里我们就需要引入条件变量的概念。目录 1、条件变量 <1>线程同步 <2>相关概念 <3>相…

阅读更多...

leetcode946. 验证栈序列

leetcode946. 验证栈序列

给定 pushed 和 popped 两个序列，每个序列中的值都不重复，只有当它们可能是在最初空栈上进行的推入 push 和弹出 pop 操作序列的结果时，返回 true；否则，返回 false 。示例 1： 输入：pushed [1…

阅读更多...

YOLO格式数据集转为COCO数据集（简单粗暴）

YOLO格式数据集转为COCO数据集（简单粗暴）

最近需要用的coco格式的数据集，但是在网上找的很多毕竟麻烦，简单记录一下！ 1、调整目录结构（以GC10-DET数据集为例） YOLO格式数据集目录结构如下： 简单来说就是images文件夹里面有train、val、test三个文…

阅读更多...

rk3588s android12 自启动 C程序

rk3588s android12 自启动 C程序

首先是拷贝ＴＥＳＴ程序　到ａｎｄｒｏｉｄ跟文件系统看看能否成功。首先将需要　在android 系统中启动的 TEST 程序，拷贝到虚拟机。这个程序然后需要拷贝到 android 的文件系统中。我是这样做的。改的是这个文件。然后，编译+烧写测试。发现，在android 系…

阅读更多...

国内车市销量激增，理想成功超越BBA

国内车市销量激增，理想成功超越BBA

文/王俣祺导语：随着“金九银十”的到来，国内汽车市场迎来了一个充满活力的开局。乘用车市场的销量已经迎来新的突破，彰显出中国汽车市场的韧性和潜力。尤为引人注目的是，新能源汽车销量同样激增，成为推动市场增长的重…

阅读更多...

字节豆包C++一面-面经总结

字节豆包C++一面-面经总结

talk is cheap show me the code lc206：链表反转：给你单链表的头节点 head ，请你反转链表，并返回反转后的链表。 class Solution { public:ListNode* reverseList(ListNode* head) {if(headnullptr||!head->next)return head…

阅读更多...

RHCSA认证-Linux(RHel9)-Linux入门

RHCSA认证-Linux(RHel9)-Linux入门

文章目录概要一、创建、查看和编辑⽂本1.1 输出重定向1.2 vim编辑器1.3 shell 变量1.5 获取帮助二、管理本地用户和组2.1 描述用户2.2 切换用户和赋权2.3 用户管理2.4 用户组管理2.5 密码策略三、控制文件访问3.1 列出文件和文件权限3.2 更改文件权限和拥有者3.3 控制默认权…

阅读更多...

Node.js官网无法正常访问时安装NodeJS的方法

Node.js官网无法正常访问时安装NodeJS的方法

目录一、使用 nvm 进行安装二、通过阿里云开源镜像站进行安装一、使用 nvm 进行安装此时如果直接使用 nvm install 命令进行安装会报错： nvm install 16.14.0Could not retrieve https://nodejs.org/dist/latest/SHASUMS256.txt. Get “https://nodejs.org/dis…

阅读更多...

STM32精确控制步进电机

STM32精确控制步进电机

目的：学习使用STM32电机驱动器步进电机，进行电机运动精确控制。测试环境： MCU主控芯片STM32F103RCT6 ；A4988步进电机驱动器模块； 微型2相4线步…

阅读更多...

AMP网站如何适配提升SEO效果？

AMP网站如何适配提升SEO效果？

AMP网站如何适配提升SEO效果？ 很多网站本来就有了 PC 和 M 站，现在多来了个 AMP，如何适配提升网站SEO效果呢？有两种适配形式： 1.PC AMP 这种形式比较简单，只需要配置好 amphtml 和 canonical 即可。关系…

阅读更多...

电信光猫破解记录

电信光猫破解记录

设置桥接上网什么的都需要光猫超级管理员密码，记录一下自己破解电信光猫超级管理员密码的过程 1、MAC转初始密码串记录MAC地址 MAC地址在光猫背后生成密码串把MAC地址中的横杠删除，得到一个密码串 2、windows开启 tel功能打开控制面板进入程序和…

阅读更多...

论文阅读《Co-clustering for Federated Recommender System》

论文阅读《Co-clustering for Federated Recommender System》

论文概况本文是2024 WWW的一篇联邦推荐论文，提出了一个基于特定类别物品相似度来进行聚类的联邦推荐框架。 Introduction 分析了经典聚类技术KMeans在联邦推荐设置中的不足，提出了一种新的共聚类联邦推荐机制CoFedRec，该机制在每个通信回合…

阅读更多...

堆排序算法详解：原理与Python实现

堆排序算法详解：原理与Python实现

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「storm…

阅读更多...

后端回写前端日期格式化

后端回写前端日期格式化

问题不进行格式化处理，就会导致传递的字符串很奇怪解决方案注解（字段） <dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-databind</artifactId><version>2.9.2</…

阅读更多...

【unity进阶知识1】最详细的单例模式的设计和应用，继承和不继承MonoBehaviour的单例模式，及泛型单例基类的编写

【unity进阶知识1】最详细的单例模式的设计和应用，继承和不继承MonoBehaviour的单例模式，及泛型单例基类的编写

文章目录前言一、不使用单例二、普通单例模式1、单例模式介绍实现步骤：单例模式分为饿汉式和懒汉式两种。 2、不继承MonoBehaviour的单例模式2.1、基本实现2.2、防止外部实例化对象2.3、最终代码 3、继承MonoBehaviour的单例模式3.1、基本实现3.2、自动创建和挂载单…

阅读更多...

java jdk8内存序列化为xml

java jdk8内存序列化为xml

在Java JDK 8中，将对象内存序列化为XML格式，可以使用JAXB（Java Architecture for XML Binding），它是JDK 8的一部分，并且被广泛用于Java对象与XML之间的转换。以下是一个使用JAXB在JDK 8中将Java对象序列化为…

阅读更多...

QT窗口无法激活弹出问题排查记录

QT窗口无法激活弹出问题排查记录

问题背景问题环境操作系统: 银河麒麟V10SP1qt版本 : 5.12.12 碰见了一个问题应用最小化,然后激活程序窗口无法弹出这里描述一下代码的逻辑,使用QLocalServer实现一个单例进程,具体的功能就是在已存在一个程序A进程时,再启动这个程序A,新的程序A进程会被杀死,然后激活已存…

阅读更多...

PSS-sdy_opengl_sdd

PSS-sdy_opengl_sdd

PSS-sdy_opengl_sdd是一个基于商用工具SCADE Display（OpenGL）的二次开发项目。该项目构建的工具可用于生成SCADE Display（OpenGL）软件模型的软件设计文档。其设计思想详见： SCADE Display（OpenGL&#xf…

阅读更多...

linux信号| 学习信号三步走 | 学习信号需要打通哪些知识脉络？

linux信号| 学习信号三步走 | 学习信号需要打通哪些知识脉络？

前言: 本节内容主要讲解linux下信号的预备知识以及信号的概念， 信号部分我们将会分为几个阶段进行讲解：信号的概念， 信号的产生， 信号的保存。本节主要讲解信号 ps:本节内容适合学习了进程相关概念的友友们进行观看哦目录什么是…

阅读更多...

最新文章