【推理llm论文精度】DeepSeek-R1:强化学习驱动LLM推理能力飞跃

最近deepseek R1模型大火,正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
在这里插入图片描述

近年来,大型语言模型(LLM)在推理能力上取得了显著进展,但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepSeek-R1 论文,探索了**强化学习(RL)**在激发LLM推理潜力方面的新方法,并开源了模型和相关资源。

一、背景:后训练与推理能力提升(提出问题:如何超越openai的o1模型)

后训练已成为提升LLM推理能力的关键环节。OpenAI的o1系列模型通过推理时缩放思维链(CoT),在推理任务上取得突破。然而,如何有效进行推理时缩放仍是开放问题。

此前研究探索了奖励模型、强化学习、搜索算法等方法,但通用推理性能仍有提升空间。DeepSeek-R1的目标是探索纯强化学习提升LLM推理能力的可能性,关注LLM在无监督数据下的自我进化

二、DeepSeek-R1-Zero:从零开始的纯RL探索(利器1: RL引导V3模型出现自我进化)

DeepSeek-R1-Zero是DeepSeek-AI的首个纯RL推理模型,完全不依赖监督微调(SFT),直接在 DeepSeek-V3-Base 上应用RL。

RL算法:GRPO

DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法,节省RL训练成本。GRPO避免了传统的评论员模型,通过组得分估计基线,目标函数如下:

J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]

奖励模型:规则驱动

奖励模型采用规则驱动方式,包含:

  • 准确率奖励:评估答案正确性,规则驱动验证。
  • 格式奖励:强制模型思考过程置于<think></think>标签内。

训练模版:引导思考

训练模版引导模型先输出思考过程,再给出答案,结构如下:

A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

性能与自我进化

DeepSeek-R1-Zero展现了自我进化能力,推理能力随RL训练稳步提升。在AIME 2024测试中,pass@1分数从15.6%跃升至71.0%,媲美OpenAI-01-0912。训练中还出现**“顿悟时刻”**,模型学会分配更多思考时间,提升解题能力。

局限性

DeepSeek-R1-Zero存在可读性差语言混合问题。

三、DeepSeek-R1:冷启动与多阶段RL(利器2:多阶段训练,推理能力起飞,瞬间兼顾通用能力)

DeepSeek-R1在Zero基础上,引入冷启动数据多阶段训练,旨在提升性能并解决Zero的局限性。

  1. 冷启动

DeepSeek-R1收集少量高质量长CoT数据进行微调,作为RL初始actor,提升训练稳定性。冷启动数据强调可读性,采用格式 | special_token | <reasoning_process> | special_token | <summary>

  1. 推理导向RL

在冷启动微调后,进行与Zero相同的RL训练,重点增强推理能力。引入语言一致性奖励,缓解语言混合问题,最终奖励结合准确率和语言一致性。

  1. 拒绝采样与SFT

RL收敛后,使用checkpoint收集SFT数据,扩展到写作、角色扮演等通用任务,提升模型泛化能力。SFT数据包括:

  • 推理数据:拒绝采样生成,包含生成奖励模型辅助判断的数据,过滤低质量CoT。
  • 非推理数据:复用DeepSeek-V3 pipeline和SFT数据,少量CoT用于复杂任务。

使用约80万SFT数据微调DeepSeek-V3-Base。

  1. 面向所有场景的RL

二次RL阶段,提升模型的helpfulnessharmlessness。结合规则驱动(推理数据)和奖励模型(通用数据),训练目标兼顾推理能力和安全对齐。

四、蒸馏:赋予小型模型推理能力(不止拉升自己模型推理能力,顺便提拉一下同行)

为使小型模型具备推理能力,DeepSeek-AI采用蒸馏技术,使用DeepSeek-R1数据微调Qwen和Llama系列。实验表明,蒸馏显著提升小型模型推理能力,例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI开源了蒸馏模型,仅SFT,未包含RL阶段,旨在展示蒸馏有效性。

实验评估

DeepSeek-R1在知识型、代码型和数学型基准上进行全面评估,并与主流模型对比。

DeepSeek-R1评估结果

  • 知识型基准:优于DeepSeek-V3,STEM问题提升显著。
  • 长文本QA (FRAMES):表现出色,文档分析能力强。
  • 事实性QA (SimpleQA):优于DeepSeek-V3。
  • 指令遵循 (IF-Eval):表现出色,归功于SFT和RL阶段的指令数据。
  • 开放域问答 (AlpacaEval & ArenaHard):卓越性能,写作能力强,大规模RL提升泛化能力。
  • 数学 & 代码任务:媲美OpenAI-01-1217,大幅超越其他模型。

蒸馏模型评估

DeepSeek-R1-Distill-Qwen-7B超越GPT-40-0513,DeepSeek-R1-14B超越QwQ-32B-PreviewDeepSeek-R1-32B/70B显著超越o1-mini,证明蒸馏潜力巨大。
在这里插入图片描述

讨论:蒸馏 vs. 强化学习

实验对比了蒸馏模型和RL训练模型。结果表明,蒸馏模型DeepSeek-R1-Distill-Qwen-32B优于RL训练模型DeepSeek-R1-Zero-Qwen-32B,即使后者经过大规模RL训练。

结论:

  1. 蒸馏更强大模型到小型模型效果显著,纯RL小型模型计算成本高,性能可能不及蒸馏。
  2. 蒸馏经济有效,但突破智能边界可能仍需更强基础模型和更大规模RL

结论与创新贡献

DeepSeek-R1研究探索了RL提升LLM推理能力,DeepSeek-R1-Zero验证了纯RL潜力,DeepSeek-R1通过冷启动和多阶段训练进一步提升性能,并通过蒸馏赋予小型模型推理能力。

文章创新点和贡献:

  1. 公开纯RL如何提升LLM推理能力:首次公开验证纯RL无需SFT即可激励LLM推理能力,解开o1模型面纱。
  2. 更强的模型,更低的成本,还是开源的:多多少少有点针对openai,不不不,是close ai
  3. 核心点
  • DeepSeek-R1多阶段训练流程:有效提升推理能力、可读性和通用性。(DeepSeek来告诉世界,推理能力要怎么训出来)
  • 证明蒸馏技术传递推理能力:蒸馏可高效赋予小型模型高性能推理能力。(普遍使用,老少兼宜)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/895200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

启明星辰发布MAF大模型应用防火墙产品,提升DeepSeek类企业用户安全

2月7日&#xff0c;启明星辰面向DeepSeek等企业级大模型业务服务者提供的安全防护产品——天清MAF&#xff08;Model Application Firewall&#xff09;大模型应用防火墙产品正式发布。 一个新赛道将被开启…… DeepSeek的低成本引爆赛道规模 随着DeepSeek成为当前最热的现象级…

day10-字符串

目录 字符串1、API 和 API 帮助文档2、String概述3、String构造方法代码实现 和 内存分析3.1 创建String对象的两种方式3.2 Java的内存模型 4、字符串的比较4.1 号的作用4.2 equals方法的作用 练习5、用户登录6、遍历字符串和统计字符个数7、字符串拼接和翻转8、较难练习-金额转…

使用git commit时‘“node“‘ 不是内部或外部命令,也不是可运行的程序

第一种&#xff1a; 使用git commit -m "xxx"时会报错&#xff0c;我看网上的方法是在命令行后面添加--no-verify&#xff1a;git commit -m "主题更新" --no-verify&#xff0c;但是不可能每次都添加。 最后解决办法是&#xff1a;使用git config --lis…

DeepSeek从入门到精通:全面掌握AI大模型的核心能力

文章目录 一、DeepSeek是什么&#xff1f;性能对齐OpenAI-o1正式版 二、Deepseek可以做什么&#xff1f;能力图谱文本生成自然语言理解与分析编程与代码相关常规绘图 三、如何使用DeepSeek&#xff1f;四、DeepSeek从入门到精通推理模型推理大模型非推理大模型 快思慢想&#x…

使用OBS推流,大华摄像头 srs服务器播放

说明&#xff1a; ffmpeg可以推流&#xff0c;但是是命令行方式不太友好&#xff0c;还可以使用主流的OBS开源推流软件&#xff0c;可从官网Open Broadcaster Software | OBS 下载最新版本&#xff0c;目前很多网络主播都是用它做直播。该软件支持本地视频文件以及摄像头推流。…

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓

作者&#xff1a;羿莉&#xff08;萧羿&#xff09; 全球出圈的中国大模型 DeepSeek 作为一款革命性的大型语言模型&#xff0c;以其卓越的自然语言处理能力和创新性成本控制引领行业前沿。该模型不仅在性能上媲美 OpenAI-o1&#xff0c;而且在推理模型的成本优化上实现了突破…

mac下dify+deepseek部署,实现私人知识库

目前deepseek 十分火爆&#xff0c;本地部署实现私有知识库&#xff0c;帮助自己日常工作&#xff0c;上一篇使用工具cherry studio可以做到私人知识库。今天学习了一下&#xff0c;使用Dify链接deepseek&#xff0c;实现私人知识库&#xff0c;也非常不错&#xff0c;这里分享…

react概览webpack基础

react概览 课程介绍 webpack 构建依赖图->bundle 首屏渲染&#xff1a; 减少白屏等待时间 数据、结构、样式都返回。需要服务器的支持 性能优化 ***webpack干的事情 模块化开发 优势&#xff1a; 多人团队协作开发 可复用 单例&#xff1a;全局冲突 闭包 模块导入的顺序 req…

常见的九种二极管

常见的九种二极管 文章目录 常见的九种二极管1、普通二极管2、光电二极管&#xff08;LED&#xff09;3、变容二级管4、发光二极管5、恒流二极管6、快恢复二极管&#xff08;FRD&#xff09;7、肖特基二极管8、瞬态电压抑制二极管(TVS)9、齐纳二极管&#xff08;稳压&#xff0…

LabVIEW在呼吸机测试气体容量计算

在呼吸机测试中&#xff0c;精确测量气体容量变化是评估设备性能的关键步骤。通过监测呼吸机气道内的压力变化&#xff0c;并结合流阻和肺顺应性等参数&#xff0c;可以计算出单位时间内的气体容量变化。本案例基于LabVIEW实现该计算过程&#xff0c;以确保测试数据的准确性和一…

本地部署DeepSeek R1 + 界面可视化open-webui

本地部署DeepSeek R1 界面可视化open-webui ollama是物理机本地安装 open-webui是容器启动 另外&#xff0c;用docker 部署ollama也很方便ollama docker 安裝部署ollama ollama官网 安装 Linux上安装: curl -fsSL https://ollama.com/install.sh | sh使用命令行管理 拉…

使用C语言实现MySQL数据库的增删改查操作指南

使用C语言与MySQL数据库进行交互,通常涉及使用MySQL提供的C API库。这套API允许开发者在C/C++程序中执行SQL查询,从而实现数据库的增删改查操作。下面,我将详细介绍如何在C语言中实现这些基本操作。 准备工作 安装MySQL开发库:确保你的系统上安装了MySQL服务器以及MySQL开发…

在CT107D单片机综合训练平台上实现外部中断控制LED闪烁

引言 在单片机开发中&#xff0c;外部中断是一个非常重要的功能&#xff0c;它可以让单片机在检测到外部信号变化时立即做出响应。本文将详细介绍如何在CT107D单片机综合训练平台上使用外部中断来控制LED灯的闪烁。我们将使用两种不同的方式来实现这一功能&#xff1a;一种是在…

重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba

*本文作者系阿里云云原生微服务技术负责人&#xff0c;Spring AI Alibaba 发起人彦林&#xff0c;望陶和隆基对可观测和 RocketMQ 部分内容亦有贡献。 * 摘要 随着生成式 AI 的快速发展&#xff0c;基于 AI 开发框架构建 AI 应用的诉求迅速增长&#xff0c;涌现出了包括 Lang…

防御保护作业二

拓扑图 需求 需求一&#xff1a; 需求二&#xff1a; 需求三&#xff1a; 需求四&#xff1a; 需求五&#xff1a; 需求六&#xff1a; 需求七&#xff1a; 需求分析 1.按照要求进行设备IP地址的配置 2.在FW上开启DHCP功能&#xff0c;并配置不同的全局地址池&#xff0c;为…

MapReduce简单应用(三)——高级WordCount

目录 1. 高级WordCount1.1 IntWritable降序排列1.2 输入输出格式1.3 处理流程 2. 代码和结果2.1 pom.xml中依赖配置2.2 工具类util2.3 高级WordCount2.4 结果 参考 本文引用的Apache Hadoop源代码基于Apache许可证 2.0&#xff0c;详情请参阅 Apache许可证2.0。 1. 高级WordCo…

智慧机房解决方案(文末联系,领取整套资料,可做论文)

智慧机房解决方案-软件部分 一、方案概述 本智慧机房解决方案旨在通过硬件设备与软件系统的深度整合&#xff0c;实现机房的智能化管理与服务&#xff0c;提升机房管理人员的工作效率&#xff0c;优化机房运营效率&#xff0c;确保机房设备的安全稳定运行。软件部分包括机房管…

(五)Spring Boot学习——spring security +jwt使用(前后端分离模式)

一定要熟悉spring security原理和jwt无状态原理&#xff0c;理解了才知道代码作用。 在 Spring Security JWT 认证流程中&#xff0c;通常的做法是&#xff1a; 用户提交用户名和密码Spring Security 认证管理器 (AuthenticationManager) 进行认证如果认证成功&#xff0c;生…

清华DeepSeek手册:从入门到精通(网页版便于阅读)

目录 一、产品概述二、清华DeepSeek从入门到精通三、PDF文件路径 一、产品概述 DeepSeek是国产领先的人工智能技术平台&#xff0c;提供从数据分析到大型语言模型的全栈解决方案。其核心产品包括网页端数据分析工具[1] 、视觉语言模型(DeepSeek-VL)[2] 和670亿参数大型语言模型…

阿里云百炼初探DeepSeek模型调用

阿里云百炼初探DeepSeek模型调用 阿里云百炼为什么选择百炼开始使用百炼方式一&#xff1a;文本对话方式二&#xff1a;文本调试方式三&#xff1a;API调用 DeepSeek调用1、搜索模型2、查看API调用3、开始调用安装依赖查看API Key运行以下代码 4、流式输出 总结 阿里云百炼 阿…