广东省广州市白云区广云路11号/百度荤seo公司

广东省广州市白云区广云路11号,百度荤seo公司,多个wordpress,软件外包开发保密协议监督微调 (SFT) 和强化学习 (RL)都是目前大模型的基础模型后训练技术,像DeepSeek-R1、kimi等的训练方法都将两种技术应用到了极致。 如何去设计训练步骤(先SFT再RL,还是直接RL)都需要对SFT和RL的能力有较深刻的了解。 本篇就以面…

监督微调 (SFT) 和强化学习 (RL)都是目前大模型的基础模型后训练技术,像DeepSeek-R1、kimi等的训练方法都将两种技术应用到了极致。

如何去设计训练步骤(先SFT再RL,还是直接RL)都需要对SFT和RL的能力有较深刻的了解。

本篇就以面经的形式,探讨SFT、RL两种不同的后训练范式在基于文本规则和视觉变体的情况下对模型记忆与泛化能力的作用。

  一、SFT和RL分别对基座大模型的作用和影响是什么?

1.  SFT

1)作用

通过在特定任务,通常为指令格式的数据集上训练预训练模型,使其适应下游任务。

2)影响

  • SFT 倾向于记忆训练数据,在基于规则的文本和视觉环境中都难以泛化到分布外的数据。

  • SFT 对于有效的 RL 训练仍然非常重要:SFT 可以稳定模型的输出格式,使得后续的 RL 能够实现性能的提升。

2. RL

1)作用

用于使模型与人类偏好对齐,或训练基础模型来解决特定任务。

2)影响

  • RL在基于规则的文本和视觉环境中均能展现出泛化能力。

  • RL在复杂的、多模态任务中泛化能力强,且可以提升模型潜在的视觉识别能力,有助于增强视觉领域泛化能力。

总结就是RL 泛化,SFT 记忆。

  二、当模型包含视觉组件时,RL/SFT 如何影响其对不同视觉变体的泛化能力?

这块其实主要看多模态大模型中,视觉变化对分布外(OOD)泛化的影响。

图片

从上图看,强化学习(RL)在规则变化中展现出泛化能力,而监督微调(SFT)则呈现相反的趋势。

  三. RL/SFT 如何影响视觉语言模型(VLM)中的视觉识别能力?

图片

RL提高了视觉识别准确率,这也是RL提高了泛化能力的表现。

而SFT降低了视觉识别准确率和整体性能。

  四. SFT 在 RL 训练中扮演什么角色?

实验流程是最好在 SFT 之后实例化 RL,特别是当基座模型都还没有学会模板指令的时候。

图片

上图是一个示例,如果没有 SFT,基础模型会表现出较差的指令遵循能力,倾向于生成冗长、离题且非结构化的响应。

这个问题使得检索任务相关的信息和用于 RL 训练的奖励变得不可能。

当主干模型不遵循指令时,SFT(监督微调)对于 RL(强化学习)训练是必要的。

 

五. 验证迭代次数如何影响泛化能力

图片

验证是多步骤训练和评估流程中的一个关键组成部分,上图表明随着验证步骤的增加,强化学习的泛化能力表现更佳。

上述研究均来自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起来这篇论文的研究结果跟DeepSeek以及o系列推理模型的训练报告都非常契合,特别是DeepSeek-R1的“SFT->RL->增强SFT->增强RL”这种左脚踩右脚直接起飞的操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/70380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Three.js 快速入门教程【一】开启你的 3D Web 开发之旅

系列文章目录 Three.js 快速入门教程【一】开启你的 3D Web 开发之旅 Three.js 快速入门教程【二】透视投影相机 Three.js 快速入门教程【三】渲染器 Three.js 快速入门教程【四】三维坐标系 Three.js 快速入门教程【五】动画渲染循环 Three.js 快速入门教程【六】相机控件 Or…

Navicat Premium17 连接Oracle出现 “未加载 Oracle库

报错信息如下 解决方案: 安装 Navicat for Oracle 12 for Mac 若已经打开任何来源,但运行还是遇到已损坏按照如下操作即可解决! 终端中输入 xattr -cr cr 后面输入一个空格!不要回车!如下图 把 Navicat for Oracle…

Transformer解析——(一)概述

本系列已完结,全部文章地址为: Transformer解析——(一)概述-CSDN博客 Transformer解析——(二)Attention注意力机制-CSDN博客 Transformer解析——(三)Encoder-CSDN博客 Transforme…

Canvas进阶-2、可视化应用

前言 Canvas 可以用来创建各种 数据可视化 图表和图形,通过绘制不同的形状、线条和颜色来展示数据的特征和趋势。 数据可视化的基本原理是将数据转化为可视化的图形元素,以便人们更容易理解和分析数据。这涉及到以下几个方面: 数据映射&…

小米AX3000T 路由器如何开启 SSH 安装 OpenWRT 系统,不需要降级 v1.0.91 (2025)

小米AX3000T 路由器如何开启 SSH 安装 OpenWRT 系统,不需要降级 v1.0.91 (2025) 本文内容需要你有一定的 Linux 操作基础,最好是程序员那种,英文水平足够用才行。一般人不需要使用这么复杂的路由器操作系统&#xff0c…

python查错误TypeError: bad operand type for unary -: ‘str‘

TypeError: bad operand type for unary -: str​​​ 这个错误表明尝试对一个字符串类型的数据使用一元减号运算符(​​-​​),而在 Python 中,一元减号运算符只能用于数值类型(如整数、浮点数等)&#xf…

搭建Kubernetes (K8s) 集群----Centos系统

前期准备 准备3台Linux虚拟机(CentOS系统),参考 https://carry.blog.csdn.net/article/details/144578009https://carry.blog.csdn.net/article/details/144578009搭建Docker环境,参考 https://carry.blog.csdn.net/article/de…

wps中的js开发

严格区分大小写 /*** learn_js Macro*/ function test() {Range(D7).Value2Selection.Value2; // Selection.formula "100" }function Workbook_SheetSelectionChange(Sh, Target) {if(Sh.Name Sheet1) {test();}}function test2() {// 把I4单元格及其周边有数的单…

第3章 3.2 配置系统 .NET Core配置系统

3.2.1 配置系统的基本使用 .NET Core中的配置系统支持非常丰富的配置源,包括文件(JSON、XML、INI等)、注册表、环境变量、命令行、Azure Key Vault等,配置系统还支持自定义配置源。 用配置系统开发包Microsoft.Extensions.Confi…

第六届计算机信息和大数据应用国际学术会议(CIBDA 2025)

重要信息 大会官网:www.ic-cibda.org(了解会议,投稿等) 大会时间:2025年3月14-16日 大会地点:中国-武汉 简介 第六届计算机信息和大数据应用(CIBDA 2025)将于2025年3月14-16日在中国…

Mac M3/M4 本地部署Deepseek并集成vscode

Mac 部署 使用傻瓜集成平台ollama,ollama平台依赖于docker,Mac的M3/M4 因doesn’t have VT-X/AMD-v enabled 所以VB,VM无法使用,导致docker无法启动,需要使用docker的替代品podman, 它完全兼容docker brew install p…

最优化方法-牛顿法

牛顿法 泰勒级数 泰勒级数展开 $$ \begin{aligned} f(x)&\lim\limits_{n\rightarrow \infin}\sum\limits_{i1}n\frac{1}{n!}f{(n)}(x_0)(x-x_0)^n\ &f(x_0)f’(x_0)(x-x_0)\frac{f’(x_0)}{2!}(x-x_0)2\cdots\frac{1}{n!}fn(x_0)(x-x_0)^n\ &\quad~ O\left[(x-x_…

【系统架构】分布式事务模型详解

1. 分布式基础理论 1.1 CAP理论 CAP 理论可以表述为,一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)这三项中的两项。 一致性是…

「正版软件」PDF Reader - 专业 PDF 编辑阅读工具软件

PDF Reader 轻松查看、编辑、批注、转换、数字签名和管理 PDF 文件,以提高工作效率并充分利用 PDF 文档。 像专业人士一样编辑 PDF 编辑 PDF 文本 轻松添加、删除或修改 PDF 文档中的原始文本以更正错误。自定义文本属性,如颜色、字体大小、样式和粗细。…

在 Mac ARM 架构 (Apple Silicon,例如 M1, M2, M3 芯片) 上使用官方安装包安装 MySQL

在 Mac ARM 架构 (Apple Silicon,例如 M1, M2, M3 芯片) 上使用官方安装包安装 MySQL,步骤与在 Intel Mac 上类似,但需要确保下载的是 ARM 架构兼容的版本。以下是详细的安装步骤: 步骤 1: 下载 MySQL Community Server DMG 安装…

以ChatGPT为例解析大模型背后的技术

目录 1、大模型分类 2、为什么自然语言处理可计算? 2.1、One-hot分类编码(传统词表示方法) 2.2、词向量 3、Transformer架构 3.1、何为注意力机制? 3.2、注意力机制在 Transformer 模型中有何意义? 3.3、位置编…

【ARM入门指南】一文搞懂什么是ARM

在单片机与嵌入式系统的浩瀚宇宙中,ARM架构犹如一颗耀眼的星辰,持续引领着技术创新的潮流。对于刚刚踏入这一领域的初学者而言,深入了解ARM是迈入嵌入式开发大门的关键一步。ARM,这个名字背后,不仅代表着一家在半导体设…

Http升级为Https - 开发/测试服环境

1.应用场景 主要用于开发/测试服环境将http升级为https, 防止前端web(浏览器)出现Mixed Content报错; 2.学习/操作 1.文档阅读 deepseek 问答; 2.整理输出 报错信息: Mixed Content: The page at <URL> was loaded over HTTPS, but requested an insecure XMLHttpRequ…

使用 AIStor 和 OpenSearch 增强搜索功能

在这篇文章中&#xff0c;我们将探讨搜索&#xff0c;特别是 OpenSearch 如何帮助我们识别模式或查看不断增长的数据中的趋势。例如&#xff0c;如果您正在查看运营数据&#xff0c;如果您的服务似乎是随机的&#xff0c;那么您需要尽可能回溯以识别模式并找出原因。这不仅适用…

Python——生成AIGC图像

文章目录 一、背景介绍 二、效果图展示 三、完整代码 四、分步解释 五、实用建议 1&#xff09;提示词技巧 2&#xff09;性能优化 3&#xff09;常见问题处理 4&#xff09;扩展功能建议 六、注意事项 1. 硬件要求 2. 法律合规 3. 模型安全 一、背景介绍 AIGC&a…