为什么要做网站/点金推广优化公司

为什么要做网站,点金推广优化公司,石岩小学网站建设,做视频网站用什么服务器著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是…

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」

阅读笔记如下:

在人工智能领域不断演进的当下,大语言模型(LLM)已成为研究和应用的焦点。2024年,LLM领域专业化趋势愈发明显,除了预训练和微调等基础操作,从检索增强生成(RAG)到代码助手等专业应用也不断涌现。这一趋势在2025年持续加速,第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段是针对具体用例对 LLM 进行专门化。
特定领域和应用的优化受到更多重视。推理模型作为LLM专业化的重要方向,能够处理复杂任务,展现出独特的价值,著名AI研究者Sebastian Raschka对其进行了深入探讨。

推理模型:定义与应用场景

“推理模型”这一术语在AI领域的定义存在模糊性。在本文中,推理被定义为回答需要复杂、多步骤生成和中间步骤的问题的过程。像“法国首都是哪里?”这类事实性问答,无需推理即可解答;而“如果一列火车以60英里/小时的速度行驶3小时,它会行驶多远?”这样的问题,则需要通过识别距离、速度和时间的关系进行推理求解。在这里插入图片描述
图释:常规的 LLM 可能只提供简短的答案(如左图所示),而推理模型通常包括揭示部分思维过程的中间步骤。(请注意,许多没有专门为推理任务开发的 LLM 也能在其答案中提供中间推理步骤。)大多数现代 LLM 都具有基本的推理能力,可以回答诸如「如果一列火车以 60 英里 / 小时的速度行驶 3 小时,它会行驶多远?」这样的问题。因此,今天当我们提到推理模型时,我们通常指的是擅长更复杂推理任务的 LLM,例如解决谜题、谜语和数学证明。
推理模型中的中间步骤可以两种方式出现。第一种,中间步骤可能显式地出现在响应中,如上图所示。第二种,一些推理 LLM(例如 OpenAI o1)则会运行多个迭代,中间步骤对用户来说是不可见的。
在这里插入图片描述

使用「推理」的两个不同层级:1)通过多个中间步骤处理输入和生成结果,2)将某种形式的推理放在响应中提供给用户。

推理模型擅长处理复杂任务,如谜题、高级数学和编程难题等。在这些场景中,模型通过演绎或归纳推理、思维链推理,分解多步骤问题,做出复杂决策,并且能更好地泛化到新问题。不过,推理模型也存在局限性,在这里插入图片描述
在处理简单任务时,可能会因“过度思考”导致效率低下、成本增加,还可能在基于知识的任务中出现“幻觉”现象。

DeepSeek R1:训练流程与模型变体

DeepSeek发布的R1系列推理模型包含三个变体:DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill。这些模型的开发过程基于DeepSeek - V3(671B)基础模型,每个变体都经历了不同的训练阶段。
根据其技术报告中的描述的模型的开发过程。
在这里插入图片描述

  • DeepSeek - R1 - Zero:基于2024年12月发布的671B预训练版DeepSeek - V3,采用“冷启动”训练方式,仅使用强化学习(RL),跳过监督微调(SFT)步骤。训练过程中设置了准确度奖励和格式奖励,准确度奖励通过LeetCode编译器验证编码答案、确定性系统评估数学响应;格式奖励依靠LLM评判员确保响应格式正确。这种训练方式使模型涌现出基本的推理技能。
  • DeepSeek - R1:以DeepSeek - R1 - Zero为基础,增加额外的SFT阶段和进一步的RL训练。使用DeepSeek - R1 - Zero生成的“冷启动”SFT数据进行指令微调,后续的RL阶段除保留准确度和格式奖励外,还添加一致性奖励防止语言混合。经过多轮SFT数据收集和RL训练,DeepSeek - R1的性能在DeepSeek - R1 - Zero基础上显著提升。
  • DeepSeek - R1 - Distill:利用训练DeepSeek - R1过程中生成的SFT数据,对Qwen和Llama模型进行微调。这种在LLM语境下的“蒸馏”,虽不同于传统深度学习中的知识蒸馏,但能提升小模型的推理能力。小模型效率更高,可在低端硬件上运行,同时也为纯监督微调(SFT)的研究提供了案例。
为什么他们开发了这些蒸馏模型?

有两个关键原因:

  1. 小型模型更高效。这意味着它们运行成本更低,但它们也可以在低端硬件上运行,这使得它们对许多像我这样的研究人员和爱好者来说特别有趣。
  2. 纯 SFT 案例研究。这些提炼出的模型作为一个有趣的基准,展示了纯监督微调(SFT)在不使用强化学习的情况下可以将模型带到多远。
    在这里插入图片描述
    蒸馏后的模型明显弱于 DeepSeek-R1,但与 DeepSeek-R1-Zero 相比,它们却出奇地强大,尽管规模小了几个数量级。值得注意的是,这些模型与 o1 mini 相比,表现非常好

DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的涌现推理行为是否也会出现在较小的模型中。为了研究这一点,他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。

下表展示了实验的结果,其中 QwQ-32B-Preview 是千问团队基于 Qwen 2.5 32B 开发的参考推理模型(我认为训练细节从未披露过)。此比较提供了一些额外的洞察,即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引导推理能力。
在这里插入图片描述

在较小的 32B 模型上对蒸馏和 RL 进行基准比较。注释图来自 DeepSeek-R1 技术报告。

有趣的是,结果表明,对于较小的模型,蒸馏比纯 RL 更有效。这与以下观点一致:单靠 RL 可能不足以在这种规模的模型中产生强大的推理能力,而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。

  1. Qwen-32B 使用 SFT + RL 进行训练,类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时,与纯 RL 和纯 SFT 相比可以取得多大的改进。
  2. DeepSeek-V3 使用纯 SFT 进行训练,与创建蒸馏模型的方式类似。这样可以直接比较,看看 RL + SFT 相对于纯 SFT 的效果如何。

构建推理模型的四大方法

当前,增强LLM推理能力、构建推理模型的方法主要有以下四种:

  1. 推理时间扩展:在推理过程中增加计算资源提升输出质量。思维链(CoT)提示方法是典型应用,在提示词中加入“think step by step”等短语,鼓励模型生成中间推理步骤,提高复杂问题的解答准确率。此外,投票和搜索策略也属于推理时间扩展,如多数投票让模型生成多个答案,通过投票选择正确结果;集束搜索等算法同样可优化响应。虽然DeepSeek R1技术报告表明其模型未使用该方法,但它常在LLM应用层实现,OpenAI的o1和o3模型可能运用了此技术,这也解释了其成本较高的原因。
  2. 纯RL:DeepSeek R1 - Zero的训练方式证明了推理可作为纯RL涌现出的行为。与传统RL流程不同,它跳过SFT阶段,仅依靠RL训练,并设置准确度和格式奖励。尽管R1 - Zero并非性能最佳的推理模型,但它展现出推理能力,证实了纯RL开发推理模型的可行性。
  3. 监督微调加强化学习(SFT + RL):这是构建高性能推理模型的关键方法,DeepSeek - R1的开发就是典型案例。在这里插入图片描述
    在RL之前进行SFT,利用DeepSeek - R1 - Zero生成的“冷启动”SFT数据训练模型,后续的RL阶段添加一致性奖励,再经过多轮SFT数据收集和RL训练,有效提升了模型性能。OpenAI o1很可能也采用了类似方法。
  4. 纯监督微调(SFT)和蒸馏:DeepSeek通过在较大LLM生成的SFT数据集上对较小LLM进行指令微调,开发出蒸馏模型。这些小模型效率更高,可作为纯SFT的研究基准。实验表明,对于较小模型,蒸馏比纯RL更有效,高质量推理数据的SFT在小模型应用中是更优策略。

对DeepSeek R1的综合评价

DeepSeek R1系列模型是AI领域的重要成果,其详细的技术报告为研究人员提供了宝贵的方法论参考。推理可基于纯RL涌现的发现令人瞩目,并且模型遵循宽松的MIT开源许可证开源,具有积极的推动意义。

与OpenAI的o1相比,DeepSeek - R1在推理时间上更高效,但由于OpenAI未充分披露o1的信息,如是否为混合专家(MoE)模型、模型规模大小以及训练方式细节等,两者难以直接比较。

关于DeepSeek - R1的训练成本,虽有600万美元的估算,但这可能将DeepSeek - V3和DeepSeek - R1的成本混淆,DeepSeek团队并未透露R1的具体成本,目前的估算均为猜测。

启示性的工作:有限预算下的推理模型开发

开发如DeepSeek - R1级别的推理模型成本高昂,不过,模型蒸馏和一些创新方法为预算有限的研究人员提供了可能。

DeepSeek的蒸馏模型证明了小模型也能具备强大的推理性能,尽管蒸馏过程也需要大量计算资源。

Sky - T1项目:

仅用17K的SFT样本、450美元的GPU成本,训练出表现与OpenAI o1大致相当的32B模型,展示了小样本、低成本微调的潜力。在这里插入图片描述
图源:《Sky-T1:在 450 美元以内训练你自己的 O1 预览模型》一文。https://novasky-ai.github.io/posts/sky-t1/

纯 RL 的:TinyZero

在纯RL领域,TinyZero项目以不到30美元的成本训练出3B参数模型,该模型展现出自我验证能力,支持了小模型通过纯RL涌现推理能力的观点。在这里插入图片描述

超越传统 SFT:旅程学习

此外,“旅程学习”方法为推理模型开发提供了新思路。它用错误的解决路径训练模型,让模型从错误中学习,增强自我修正能力,有望提升推理模型的可靠性,尤其适用于低预算的推理模型开发场景。
在这里插入图片描述

推理模型领域正处于快速发展阶段,各种创新方法不断涌现。无论是大模型的优化,还是小模型在有限预算下的突破,都为AI技术的进步注入了活力。在未来,我们有望看到更多令人惊喜的研究成果和应用突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/69959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek 指导手册(入门到精通)

第⼀章:准备篇(三分钟上手)1.1 三分钟创建你的 AI 伙伴1.2 认识你的 AI 控制台 第二章:基础对话篇(像交朋友⼀样学交流)2.1 有效提问的五个黄金法则2.2 新手必学魔法指令 第三章:效率飞跃篇&…

MacOS使用PhpWebStudy搭建PHP开发环境

mac上的PHP开发环境搭建方式有很多, brew, docker, mamp等, 这里使用最近新出的工具PhpWebStudy来搭建mac上的php开发环境 安装 使用brew安装 brew install phpwebstudy 无法使用brew的话, 可以去官网下载最新版本安装 FlyEnv | Powerful Web Server and Environment Mana…

布隆过滤器的原理和应用场景,解决缓存穿透

一、布隆过滤器BloomFilter是什么 布隆过滤器BloomFilter是一种专门用来解决去重问题的高级数据结果。 实质就是一个大型位数组和几个不同的无偏hash函数,无偏表示分布均匀。由一个初值为零的bit数组和多个哈希函数组成,用来判断某个数据是否存在&…

(2025)深度分析DeepSeek-R1开源的6种蒸馏模型之间的逻辑处理和编写代码能力区别以及配置要求,并与ChatGPT进行对比(附本地部署教程)

(2025)通过Ollama光速部署本地DeepSeek-R1模型(支持Windows10/11)_deepseek猫娘咒语-CSDN博客文章浏览阅读1k次,点赞19次,收藏9次。通过Ollama光速部署本地DeepSeek-R1(支持Windows10/11)_deepseek猫娘咒语https://blog.csdn.net/m0_70478643/article/de…

【docker知识】快速找出服务器中占用内存较高的容器

本文由Markdown语法编辑器编辑完成。 1.背景: 近期在处理现场问题,观察服务器时,会遇到某些进程占用较高内存的情况。由于我们的服务,基本上都是以容器的方式在运行,因此就需要找到,到底是哪个容器&#…

Jenkins 安装插件 二

Jenkins 安装插件 二 一. 打开 Dashboard 打开 Jenkins 界面,不管在任何界面,只需要点击左上角 Dashboard 按钮即可 二. 打开 Manage Jenkins 找到 Manage Jenkins -> System Configuration -> Plugins 点击 Plugins 打开界面如下 Updates&a…

Postgresql 开发环境搭建指南(WindowsLinux)

一、Postgresql 简介 PostgreSQL 是一个免费的对象-关系数据库服务器(ORDBMS),在灵活的BSD许可证下发行。 RDBMS 是关系数据库管理系统,是建立实体之间的联系,最后得到的是关系表。 ORDBMS在原来关系数据库的基础上,增加了一些新…

大语言模型多代理协作(MACNET)

大语言模型多代理协作(MACNET) Scaling Large-Language-Model-based Multi-Agent Collaboration 提出多智能体协作网络(MACNET),以探究多智能体协作中增加智能体数量是否存在类似神经缩放定律的规律。研究发现了小世界协作现象和协作缩放定律,为LLM系统资源预测和优化…

dify.ai 配置链接到阿里云百练等云厂商的 DeepSeek 模型

要将 dify.ai 配置链接到阿里云百练等云厂商的 DeepSeek 模型. 申请阿里云百练的KEY 添加模型 测试模型

Win10环境使用Dockerdesktop部署Dify集成Deepseek

Win10环境借助Dockerdesktop部署Dify集成Deepseek 前言 之前笔者已经部署了基于Ollama的Deepseek: https://lizhiyong.blog.csdn.net/article/details/145505686 安装官方指示,还可以集成很多组件拓展玩法: https://github.com/deepseek…

23、深度学习-自学之路-激活函数relu、tanh、sigmoid、softmax函数的正向传播和反向梯度。

在使用这个非线性激活函数的时候,其实我们重点还是学习的是他们的正向怎么传播,以及反向怎么传递的。 如下图所示: 第一:relu函数的正向传播函数是:当输入值(隐藏层)值大于了,就输出…

RISC-V平台编译 state-thread x264 ffmpeg zlog

1.state-threads 源码下来之后 直接 make linux-debug 目录下生成了对应的.a 和 .h文件 gcc test.c -o test -l st -L . #include <stdio.h> #include <stdlib.h> #include <string.h> #include <errno.h> #include <sys/socket.h&g…

BUU37 [DASCTF X GFCTF 2024|四月开启第一局]web1234【代码审计/序列化/RCE】

Hint1&#xff1a;本题的 flag 不在环境变量中 Hint2&#xff1a;session_start&#xff08;&#xff09;&#xff0c;注意链子挖掘 题目&#xff1a; 扫描出来www.zip class.php <?phpclass Admin{public $Config;public function __construct($Config){//安全获取基…

Mysql中使用sql语句生成雪花算法Id

&#x1f353; 简介&#xff1a;java系列技术分享(&#x1f449;持续更新中…&#x1f525;) &#x1f353; 初衷:一起学习、一起进步、坚持不懈 &#x1f353; 如果文章内容有误与您的想法不一致,欢迎大家在评论区指正&#x1f64f; &#x1f353; 希望这篇文章对你有所帮助,欢…

@JsonRawValue 注解

这里写目录标题 1. 问题2. JsonRawValue 注解说明 1. 问题 在实际开发中我遇到这样一个问题&#xff0c;查询数据库的结果返回的content内容是含有转移符的JSON字符串&#xff0c;但是我需要返回的不包含转移的String字符串。经过我一顿折腾并未发现解决办法&#xff0c;直到J…

node.js+兰空图床实现随机图

之前博客一直用的公共的随机图API&#xff0c;虽然图片的质量都挺不错的&#xff0c;但是稳定性都比较一般&#xff0c;遂打算使用之前部署的兰空图床&#xff0c;自己弄一个随机图 本文章服务器操作基于雨云——新一代云服务提供商的云服务器进行操作&#xff0c;有兴趣的话可…

25农村发展研究生复试面试问题汇总 农村发展专业知识问题很全! 农村发展复试全流程攻略 农村发展考研复试真题汇总

农村发展复试当然有好的建议&#xff01;前提是复试重点面试题背好&#xff01; 你是不是也在为农村发展考研复试发愁&#xff1f;担心自己准备不充分、表现不好&#xff1f;别急&#xff01;今天&#xff0c;学姐——复试面试拿下90分成功上岸的学姐&#xff0c;来给大家分享…

代码随想录算法【Day44】

Day44 1143.最长公共子序列 class Solution { public:int longestCommonSubsequence(string text1, string text2) {vector<vector<int>> dp(text1.size() 1, vector<int>(text2.size() 1, 0));for (int i 1; i < text1.size(); i) {for (int j 1; …

论文学习记录之《CLR-VMB》

目录 一、基本介绍 二、介绍 三、方法 3.1 FWI中的数据驱动方法 3.2 CLR-VMB理论 3.3 注意力块 四、网络结构 4.1 网络架构 4.2 损失函数 五、实验 5.1 数据准备 5.2 实验设置 5.3 训练和测试 5.4 定量分析 5.5 CLR方案的有效性 5.6 鲁棒性 5.7 泛化性 六、讨…

【STM32】舵机SG90

1.舵机原理 舵机内部有一个电位器&#xff0c;当转轴随电机旋转&#xff0c;电位器的电压会发生改变&#xff0c;电压会带动转一定的角度&#xff0c;舵机中的控制板就会电位器输出的电压所代表的角度&#xff0c;与输入的PWM所代表的角度进行比较&#xff0c;从而得出一个旋转…