商场设计论文/seo标题优化步骤

商场设计论文,seo标题优化步骤,河南郑州网站推广优化,网站建设指引技术突破:从“无监督”到“自主进化”的跨越 paper :https://arxiv.org/pdf/2501.12948目录 技术突破:从“无监督”到“自主进化”的跨越1 DeepSeek-R1-Zero: RLnoSFT1.1 R1-Zero: GRPO(Group Relative Po…

技术突破:从“无监督”到“自主进化”的跨越

paper :https://arxiv.org/pdf/2501.12948

目录

  • 技术突破:从“无监督”到“自主进化”的跨越
  • 1 DeepSeek-R1-Zero: RL+noSFT
    • 1.1 R1-Zero: GRPO(Group Relative Policy Optimization)
    • 1.2 Prompt
    • 1.3 Reward
    • 1.4 Self-evolution “自我进化”
    • 1.5 Aha Moment “顿悟时刻”
  • 2 DeepSeek-R1 :Reinforcement Learning with Cold Start
  • 3 DeepSeek-Distill
  • 4 Unsuccessful Attempts
  • 5 总结
    • 5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升
    • 5.2 性能吊打GPT-4 O1:数学与代码任务双冠王
    • 5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应
    • 5.4 架构创新降本增效:打破算力封锁的性价比之王
    • 5.5 AGI新范式曙光:从“人工引导”到“自主进化”​


DeepSeek-R1-Zero: RL+noSFT
DeepSeek-R1: RL+CoT
DeepSeek-Distill: 蒸馏出小模型

1 DeepSeek-R1-Zero: RL+noSFT

      

1.1 R1-Zero: GRPO(Group Relative Policy Optimization)

  • 采样动作组:对于每个输入状态s,GRPO从当前策略θ中采样一组动作a1, a2, …, aG。这些动作基于策略模型的概率分布进行采样,确保了多样性。

  • 奖励评估:每个采样动作都会通过一个奖励函数进行评估,得到对应的奖励值r(a)。奖励函数可以根据具体任务设计,例如在数学推理任务中,奖励函数可以基于答案的正确性

  • 计算相对优势:将每个动作的奖励值进行归一化处理,得到相对优势A^i,j。这一步骤可以通过以下公式完成:
    在这里插入图片描述

  • 策略更新:根据计算得到的相对优势,更新策略模型的参数θ。更新的目标是增加具有正相对优势的动作的概率,同时减少具有负相对优势的动作的概率。GRPO目标函数如下
    在这里插入图片描述
          目标函数是数学期望
          min确保更新项不会太大和clip限制了概率比在1−ϵ 和1+ϵ 之间
          Ai控制了相对优势函数
          KL 散度约束控制新旧策略的差异,确保更新稳定(注意此处的Π_ref是参考模型指的是一个不可训练的模型,而Π_old是旧策略)

  • KL散度约束:为了防止策略更新过于剧烈,GRPO在更新过程中引入了KL散度约束。通过限制新旧策略之间的KL散度,确保策略分布的变化在可控范围内(用于控制新旧策略之间的差异,确保策略更新的稳定性。)
    在这里插入图片描述

1.2 Prompt

在这里插入图片描述

用户与助手之间的对话。用户提出一个问题,然后助手解决它。助手首先在心里考虑推理过程,然后给用户提供答案。
推理过程和答案分别被<think> </think><answer> </answer>标签包围,
即<think> 这里的推理过程 </think> 
<answer> 这里的答案 </answer>。
用户:Prompt。助手:

具体示例如
在这里插入图片描述

1.3 Reward

Reward策略:R1-Zero的具体训练reward为纯粹的规则:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在数学问题中,如果结果是确定性的,模型需要以指定格式(例如,在一个框内)提供最终答案,以便进行可靠的基于规则的正确性验证。同样地,在LeetCode问题中,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型外,使用一种格式奖励模型,该模型强制模型将其思考过程放在和标签之间。

总结R1-Zero 能够在不需要任何监督微调数据的情况下获得强大的推理能力。此外,DeepSeek-R1-Zero 的性能可以通过多数投票的方法进一步增强。例如,在使用多数投票应用于 AIME 基准测试时,DeepSeek-R1-Zero 的表现从 71.0% 提升到了 86.7%,从而超过了 OpenAI-o1-0912 的性能。

1.4 Self-evolution “自我进化”

在这里插入图片描述
Self-evolution “自我进化”:且在R1-Zero在训练过程中的思考时间和生成长度显示出持续的改进。这种改进不是外部调整的结果,而是模型内部发展的结果。通过扩展测试时间计算自然获得了解决越来越复杂的推理任务的能力。

1.5 Aha Moment “顿悟时刻”

在这里插入图片描述
Aha Moment “顿悟时刻”: 在模型的中间版本中,R1-Zero学会了通过重新评估其初始方法来分配更多的思考时间来解决问题

2 DeepSeek-R1 :Reinforcement Learning with Cold Start

在R1-Zero的成功下激发了两个自然的问题:
(1) 通过在冷启动阶段加入少量高质量数据能否进一步提高推理性能或加速收敛?
(2) 如何训练一个不仅能够生成清晰连贯的思维链(CoT),而且具备强大通用能力的用户友好型模型?

阶段1:Cold Start

  • 方法:收集并使用少量高质量的长思维链数据对模型进行微调作为初始的RL执行者。
  • 数据收集方式:包括少样本提示、直接要求模型生成详细的答案(含反思和验证)、收集DeepSeek-R1-Zero输出并进行后处理等。

阶段2:Reasoning-oriented RL 面向推理的强化学习

  • 在冷启动数据上微调DeepSeek-V3-Base之后,应用大规模强化学习训练过程。
  • 强调提升模型在编码、数学、科学和逻辑推理等任务中的推理能力。
  • 引入语言一致性奖励以减少多语言混合问题,并将准确性奖励和语言一致性奖励结合形成最终奖励。

阶段3:拒绝采样和监督微调

  • 使用来自前一阶段RL训练检查点的数据进行SFT数据收集。
  • 扩展数据集,包括那些可以通过生成奖励模型评估的数据。
  • 对于非推理任务(如写作、事实问答等),重用DeepSeek-V3的部分SFT数据集。
  • 最终,使用大约80万样本的数据集对DeepSeek-V3-Base进行两轮微调。

阶段4:所有场景下的强化学习

  • 实施第二次强化学习阶段,旨在提高模型的帮助性和无害性同时细化其推理能力。
  • 对于推理数据,继续使用基于规则的奖励指导学习;对于一般数据,则依赖奖励模型捕捉人类偏好。
  • 强调总结部分的帮助性评估以及整个响应(包括思维过程和总结)的危害性评估。

3 DeepSeek-Distill

目标:让较小的开源模型(如Qwen和Llama系列)也能拥有类似DeepSeek-R1的强大推理能力。
方法:

  • 使用在DeepSeek-R1训练过程中整理出的80万样本对这些小型模型进行直接监督微调(SFT)。这里没有包含强化学习(RL)阶段,尽管引入RL可以显著提高模型性能。
  • 选择的基础模型包括不同规模的Qwen和Llama模型,例如Qwen2.5-Math-1.5B, Qwen2.5-Math-7B等,以及Llama-3.3-70B-Instruct,因为其推理能力略优于Llama-3.1版本。

4 Unsuccessful Attempts

在DeepSeek-R1的早期开发阶段,使用过 过程奖励模型(PRM)蒙特卡洛树搜索(MCTS)

  • PRM: 缺少细粒度数据和评判
    引导模型找到解决推理任务的更好策略。这种方法依赖于对中间步骤的细粒度奖励来指导模型进行优化。
    局限性:
    • 定义细粒度步骤的困难:在一般的推理过程中,明确界定一个细粒度步骤是具有挑战性的。
    • 中间步骤正确性的验证难题:判断当前的中间步骤是否正确是一个复杂的问题。自动标注可能无法得到满意的结果,而手动标注又不利于大规模应用。
    • 奖励黑客问题:一旦引入基于模型的PRM,不可避免地会导致奖励黑客现象,即模型可能会找到绕过奖励机制的方法。重新训练奖励模型需要额外的资源,并且会使整个训练流程变得复杂。
  • MCTS: 因文本复杂性无法训练出一个不断进度的Value Network
    局限性:
    • 受AlphaGo和AlphaZero启发,研究团队探索使用MCTS来增强测试时的计算可扩展性。该方法通过将答案分解为更小的部分,使模型能够系统地探索解决方案空间。
    • 搜索空间的巨大差异:与象棋等游戏相比,文本生成任务的搜索空间呈指数级增长。为了应对这一问题,团队设定了每个节点的最大扩展限制,但这可能导致模型陷入局部最优解。
    • 价值模型的重要性与难度:价值模型的质量直接影响到生成的质量,因为它指导着搜索过程的每一步。然而,训练一个细致的价值模型本身就是一个难点,这使得模型难以逐步改进。虽然AlphaGo的成功在于训练了一个不断进步的价值模型,但在DeepSeek-R1的设置中复制这一点非常困难,因为文本生成的复杂性更高。

5 总结

🔥 ​DeepSeek-R1凭什么引爆全球AI圈?五大核心突破解析 🔥

5.1 纯强化学习(RL)革命:首次跳过SFT实现推理能力跃升

DeepSeek-R1系列通过纯强化学习训练​(无需监督微调SFT),直接激发模型自主推理能力。其核心算法GRPO(组相对策略优化)​结合规则奖励(答案准确性+格式规范),让模型在数学竞赛AIME 2024中从15.6%准确率飙升至86.7%。更惊艳的是,R1-Zero(零样本RL训练)通过自我迭代涌现出“反思”能力,主动修复推理错误,验证了RL驱动的自主进化潜力。

5.2 性能吊打GPT-4 O1:数学与代码任务双冠王

在多项权威测试中,DeepSeek-R1以**97.3%**的Math-500准确率超越OpenAI-O1(96.6%),Codeforces编程任务表现与人类顶尖选手持平。其开源版本(如7B参数模型)在AIME 2024上达55.5%,碾压同规模竞品Qwen-Preview(32B参数仅42.0%)。这种“小模型大智慧”特性,为边缘计算场景提供低成本解决方案。

5.3 开源生态引爆硅谷:从学术圈到大众的破圈效应

​技术普惠:开源R1-Zero、R1及6个蒸馏模型(基于Qwen/Llama架构),推动推理技术从实验室走向工业界。
​社区狂潮:春节期间,连重庆二线城市的老百姓都在讨论R1原理,APP内置的“DeepThink”模式虽初期冷门,却成为后续爆款的伏笔。
​国际认可:Nature杂志称其为“中国廉价、开放的推理模型标杆”,Meta、英伟达等巨头争相接入。

5.4 架构创新降本增效:打破算力封锁的性价比之王

通过DeepSeek-MoE(混合专家架构)​、MLA(多头潜在注意力)​等技术,将训练成本压缩至OpenAI的1/5(R1训练成本5.58MvsO1的30M+)。结合FP8混合精度训练和DualPipe通信优化,在国产GPU上实现671B参数模型的稳定训练,突破西方技术封锁。

5.5 AGI新范式曙光:从“人工引导”到“自主进化”​

DeepSeek-R1证明:​强化学习可替代人工标注数据,推动推理能力从“人工设计”转向“自主涌现”。其多阶段训练框架(冷启动数据+SFT+RL)为AGI训练提供新思路,被硅谷视为“OpenAI神秘感失效后”的关键竞争点。

​结语
DeepSeek-R1的出名,不仅是技术突破的胜利,更是开源精神与工程化创新的胜利。正如“它重新定义了强推理模型的边界,让AGI触手可及。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

表格标题竖直

使用文本方式使表格怎么竖列 思路&#xff1a;表格竖直书写&#xff0c;里面的内容水平书写 使用到的是css中的文本效果&#xff1a; writing-mode&#xff1a;书写方式horizontal-tb&#xff1a;水平vertical-rl&#xff1a;竖直<style>table {writing-mode: vertical…

AI+视频赋能智慧农业:EasyCVR打造全域可视化农场监管平台

随着科技的飞速发展&#xff0c;传统农业正加速向智慧农业转型&#xff0c;农场管理也迎来了前所未有的变革机遇。在这一进程中&#xff0c;如何有效整合先进的信息技术&#xff0c;实现农场的精准化、智能化管理&#xff0c;成为了摆在农场主和农业管理者面前的关键课题。 基于…

简化神经元模型6 -- Hindmarsh-Rose Model

Hindmarsh-Rose 模型 目录 0. 写在前面 1. Hindmarsh-Rose 模型的定义 2. Hindmarsh-Rose 模型簇发放的动力学机制 3. Hindmarsh-Rose 模型的其他发放模式 4. 分析过程所用到的一系列 BrainPy 代码 0. 写在前面 前面介绍了: Hodgkin-Huxley Model 简化神经元模型1 – LIF M…

第六届电气、电子信息与通信工程国际学术会议 (EEICE 2025)

重要信息 官网&#xff1a;www.eeice.net&#xff08;点击了解参会投稿等&#xff09; 时间&#xff1a;2025年4月18-20日 地点&#xff1a;中国-深圳技术大学 简介 第六届电气、电子信息与通信工程 (EEICE 2025&#xff09;将于2025年4月18-20日在中国深圳召开。 EEICE 20…

计算机操作系统(三) 操作系统的特性、运行环境与核心功能(附带图谱更好对比理解))

计算机操作系统&#xff08;三&#xff09; 操作系统的特性、运行环境与核心功能 前言一、操作系统的基本特性1.1 并发1.2 共享1.3 虚拟1.4 异步 二、操作系统的运行环境2.1 硬件支持2.2 操作系统内核2.3 处理机的双重工作模式2.4 中断与异常 三、操作系统的主要功能3.1 处理机…

批量将 PPT 转换为PDF/XPS/JPG图片等其它格式

PPT 文档经常有转换为其它格式的需求&#xff0c;比如将 PPT 转换为 PDF、将 PPT 转换为图片、生成 PPT 预览图等&#xff0c;这在某些场景下非常的有用&#xff0c;今天给大家介绍的就是如何批量将 PDF 转换为 PDF、JPG、Tiff 等多种格式的操作。 在工作中我们经常需要接触 PP…

【css酷炫效果】纯CSS实现3D翻转卡片动画

【css酷炫效果】纯CSS实现3D翻转卡片动画 缘创作背景html结构css样式完整代码效果图 想直接拿走的老板&#xff0c;链接放在这里&#xff1a;https://download.csdn.net/download/u011561335/90490472 缘 创作随缘&#xff0c;不定时更新。 创作背景 刚看到csdn出活动了&am…

Flask多参数模版使用

需要建立目录templates&#xff1b; 把建好的html文件放到templates目录里面&#xff1b; 约定好参数名字&#xff0c;单个名字可以直接使用&#xff1b;多参数使用字典传递&#xff1b; 样例&#xff1a; from flask import render_template # 模板 (Templates) #Flask 使用…

SVN简明教程——下载安装使用

SVN教程目录 一、开发中的实际问题二、简介2.1 版本控制2.2 Subversion2.3 Subversion的优良特性2.4 工作原理2.5 SVN基本操作 三、Subversion的安装与配置1. 服务器端程序版本2. 下载源码包3. 下载二进制安装包4. 安装5. 配置版本库① 为什么要配置版本库&#xff1f;② 创建目…

OpenCV图像拼接(1)概述

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 此图说明了在Stitcher类中实现的拼接模块流程。使用该类&#xff0c;可以配置/移除某些步骤&#xff0c;即根据特定需求调整拼接流程。流程中的所…

Linux 音频驱动 WM8960 音频 DAC IC 音乐播放与录音

这些先引出一个内容&#xff0c;是 Linux 内核的音频系统&#xff0c;ALSA&#xff0c;提供了对声卡的低级访问&#xff0c;支持 PCM&#xff0c;播放/录音、混音、MIDI 处理等功能。它取代了旧的 OSS&#xff0c;并提供更强大的功能和更好的硬件支持。 ALSA 主要特点&#xf…

OpenHarmony 开源鸿蒙北向开发——3.配置SDK

安装、配置完成之后我们就要配置SDK。 我们创建工程后&#xff0c;点击右上角设置 进入设置 进入OpenHarmony SDK&#xff0c;选择编辑 这里配置一下SDK安装位置 点击完成 这里我们API版本勾选第一个即可 确认安装 勾选接受 这里要等一会 安装完成后&#xff0c;点击完成

C#通过API接口返回流式响应内容---SignalR方式

1、背景 在上两篇《C#通过API接口返回流式响应内容—分块编码方式》和《C#通过API接口返回流式响应内容—SSE方式》实现了流式响应的内容。 上面的这两个主要是通过HTTP的一些功能&#xff0c;除了这些之外&#xff0c;还有WebSocket的方式。C#中的WebSocket的有比较多的方案&…

识别并脱敏上传到deepseek/chatgpt的文本文件中的身份证/手机号

本文将介绍一种简单高效的方法解决用户在上传文件到DeepSeek、ChatGPT,文心一言,AI等大语言模型平台过程中的身份证号以及手机号等敏感数据识别和脱敏问题。 DeepSeek、ChatGPT,Qwen,Claude等AI平台工具快速的被接受和使用,用户每天上传的文本数据中潜藏着大量敏感信息,…

第六:go 操作 redis-go

Redis 在项目开发中redis的使用也比较频繁&#xff0c;本文介绍了Go语言中go-redis库的基本使用。 Redis介绍 Redis是一个开源的内存数据库&#xff0c;Redis提供了多种不同类型的数据结构&#xff0c;很多业务场景下的问题都可以很自然地映射到这些数据结构上。除此之外&am…

fastapi+angular外卖系统

说明&#xff1a; fastapiangular外卖系统 1.美食分类&#xff08;粥&#xff0c;粉&#xff0c;面&#xff0c;炸鸡&#xff0c;炒菜&#xff0c;西餐&#xff0c;奶茶等等&#xff09; 2.商家列表 &#xff08;kfc&#xff0c;兰州拉面&#xff0c;湘菜馆&#xff0c;早餐店…

NFS共享搭建

准备工作 首先确保已经建了两台虚拟机&#xff0c;都是桥接模式&#xff0c;一台是windows server 2019 一台是centos7 用户配额教程,是在windows server 2019中&#xff0c;先新建虚拟池&#xff0c;然后创建虚拟磁盘&#xff0c;记得添加磁盘类型要选择第三个&#xff0c;要不…

DFT mode下hard phy STA Nopath

hard Phy boundary No Path 1. shift mode; shift cornor出现No Path的; PHY SI SO在shift mode必须有timing的path; 展示为No constrained path; check step: report_timing -though NO constrained path set timing_report_unconstrained true report again you will…

【工作记录】F12查看接口信息及postman中使用

可参考 详细教程&#xff1a;如何从前端查看调用接口、传参及返回结果&#xff08;附带图片案例&#xff09;_f12查看接口及参数-CSDN博客 1、接口信息 接口基础知识2&#xff1a;http通信的组成_接口请求信息包括-CSDN博客 HTTP类型接口之请求&响应详解 - 三叔测试笔记…

《自然》:陆地蒸散量研究的统计失误被撤回-空间加权平均的计算方法

文章目录 前言一、空间加权平均的计算方法二、代码1.Python 实现2.MATLAB代码 前言 In this article, we calculated global land evapotranspiration for 2003 to 2019 using a mass-balance approach. To do this, we calculated evapotranspiration as the residual of the…