网站还需要公安备案吗/公司网络营销策略

网站还需要公安备案吗,公司网络营销策略,网络推广好做吗多少钱,云南省建设工程档案馆网站刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力&#…

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。
先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?

结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。如下图D和E所示:

方法:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖励为 1,否则为 0。训练目标是激励模型生成多模态 CoT,解决数学推理任务。

系统提示与奖励格式和Deepseek相似:

  • 系统提示:

    A conversation between User and
    Assistant. ... first thinks about
    the reasoning process ... provides
    the user with the answer. The
    reasoning process and answer are
    enclosed within <think> </think> and
    <answer> </answer> tags ...
    
  • 奖励格式:

    <think> </think><answer></answer>
    

方法架构

仅靠强化学习(RL)无法有效激励多模态大型语言模型(MLLM)的推理能力,主要原因是缺乏高质量初始数据和优化策略

因此,可以知道Vision-R1 的目标是:

  • 生成高质量的多模态推理链(CoT)数据集,无需人工标注。

  • 通过 RL 优化模型,使其生成逻辑清晰、长度适中的 CoT,避免过度思考(Overthinking)。

基于此,Vision-R1 提出了一种两阶段方法,通过冷启动初始化和渐进式 RL 训练。

Vision-R1流程

1. 冷启动初始化

冷启动初始化是通过构建一个高质量的多模态链式推理(CoT)数据集来实现的。目的是为模型提供一个初始的、高质量的推理示例,以便在后续的强化学习过程中更好地学习和改进推理能力。

冷启动初始化的核心在于如何从多模态数据中提取出高质量的推理过程。由于多模态大型语言模型(MLLMs)通常难以直接处理多模态输入,提出了一种称为“模态桥接”(Modality Bridging)的方法来实现这一目标。

整体数据生成流程

实现细节
步骤作用方法
1. 伪 CoT 生成MLLM 处理图像-文本对,生成初步推理步骤使用 Qwen-2.5VL-72B
2. 详细描述获取通过提示获取支持回答问题的详细图像描述提示模板见论文
3. CoT 提取与优化DeepSeek-R1 提取并优化 CoTDeepSeek-R1 见
4. 数据过滤规则过滤确保数据质量200K Vision-R1-cold 数据集
  1. 伪CoT生成:首先,使用现有的多模态大型语言模型(MLLM)来生成“伪CoT”(Pseudo-CoT)。具体的,输入一个图像-问题-答案对和一个提示到一个MLLM中,模型会生成一个包含图像描述和推理过程的文本。这个“伪CoT”不仅包含了图像的描述,还尝试进行初步的推理,但可能缺乏深度和复杂性。

    通过带有和不带“伪CoT”的描述生成的CoT过程比较。

  2. 文本描述生成:将生成的“伪CoT”与原始的图像-问题对以及一个新的提示一起输入到同一个MLLM中,以获取更详细的图像描述。这一步骤的目的是通过MLLM的文本生成能力,将图像中的视觉信息转化为更详细的文本描述,从而为后续的推理提供更多的上下文信息。

  3. 推理生成:将经过文本化的图像-问题对输入到一个专门的推理大型语言模型(如DeepSeek-R1)中,以生成高质量的CoT推理过程。DeepSeek-R1能够生成包含自然认知过程的推理过程,如质疑、反思和检查等。

  4. 数据过滤:从生成的CoT数据中保留那些最终答案与真实值一致的样本。使用规则进行数据过滤,去除逻辑不一致的样本,并替换一些词汇以提高语义连贯性。

冷启动数据源:

小结:冷启动初始化的主要目的是为模型提供一个高质量的起点,使得模型在后续的强化学习过程中能够更快地学习和改进其推理能力

2 渐进式思维抑制训练(PTST)

为了解决冷启动后的过度思考问题,Vision-R1 采用渐进式思维抑制训练(PTST),通过 RL 进一步优化模型的推理能力。

  • 分组相对策略优化(GRPO): GRPO 是一种 RL 算法,通过分组类似状态或动作来优化策略,提高学习效率。 详细的可参考往期《DeepSeek采用的GRPO算法数学原理及算法过程浅析》

  • 硬格式结果奖励函数(HFRRF): 奖励函数简单:如果输出格式正确且答案正确,则奖励为 1,否则为 0。

  • 分阶段训练: 训练分为多个阶段,逐步增加序列长度(如 4K、8K、16K 标记)和调整组大小(如 16、8、4)。

    • 每个阶段训练 100 步,使用 64 个 NVIDIA H800 80G GPU,约 2 天,使用 Verl 框架。

    • 与固定长度 16K、300 步训练的 Vision-R1-Long 相比,PTST 表现更好,平均长度 2057,平均准确率 55.4%。

效果与实验

出现“顿悟时刻”:

数学评测:

参考文献:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models, https://arxiv.org/abs/2503.06749)
code:https://github.com/Osilly/Vision-R1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/73852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙NEXT项目实战-百得知识库04

代码仓地址&#xff0c;大家记得点个star IbestKnowTeach: 百得知识库基于鸿蒙NEXT稳定版实现的一款企业级开发项目案例。 本案例涉及到多个鸿蒙相关技术知识点&#xff1a; 1、布局 2、配置文件 3、组件的封装和使用 4、路由的使用 5、请求响应拦截器的封装 6、位置服务 7、三…

免密登录远程服务器shell脚本

一、脚本代码 #!/bin/bash #提示用户输入用户i名和ip地址 read -p "请输入远程服务器的用户名: " hname read -p "请输入远程服务器的IP地址: " fip read -p "请输入远程服务器的远程端口:" sdk #检查是否配置了免密登录 function sfmm(){ …

《C#上位机开发从门外到门内》3-2::Modbus数据采集系统

文章目录 **1. 项目概述****1.1 项目背景****1.2 项目目标****1.3 技术栈** **2. 系统架构设计****2.1 系统架构图****2.2 模块功能** **3. 数据采集模块实现****3.1 Modbus协议简介****3.2 数据采集流程****3.3 代码实现** **4. 数据存储模块实现****4.1 数据库设计****4.2 数…

Carto 无尽旅图 for Mac v1.0.7.6 (51528)冒险解谜游戏 支持M、Intel芯片

游戏介绍 《Carto》源于英文"Cartographer"&#xff08;制图师&#xff09;&#xff0c;卡朵不慎坠入未知世界。这里蜿蜒曲折&#xff0c;地形丰富。作为制图师卡朵&#xff0c;你将用你自己的神秘力量&#xff0c;操纵地图颠覆世界&#xff0c;将其翻转、拼合。当世…

【Linux】:自定义协议(应用层)

朋友们、伙计们&#xff0c;我们又见面了&#xff0c;本期来给大家带来应用层自定义协议相关的知识点&#xff0c;如果看完之后对你有一定的启发&#xff0c;那么请留下你的三连&#xff0c;祝大家心想事成&#xff01; C 语 言 专 栏&#xff1a;C语言&#xff1a;从入门到精通…

【C++】二叉树和堆的链式结构

本篇博客给大家带来的是用C语言来实现堆链式结构和二叉树的实现&#xff01; &#x1f41f;&#x1f41f;文章专栏&#xff1a;数据结构 &#x1f680;&#x1f680;若有问题评论区下讨论&#xff0c;我会及时回答 ❤❤欢迎大家点赞、收藏、分享&#xff01; 今日思想&#xff…

八股学习-JUC java并发编程

本文仅供个人学习使用&#xff0c;参考资料&#xff1a;JMM&#xff08;Java 内存模型&#xff09;详解 | JavaGuide 线程基础概念 用户线程&#xff1a;由用户空间程序管理和调度的线程&#xff0c;运行在用户空间。 内核线程&#xff1a;由操作系统内核管理和调度的线程&…

遗传算法+四模型+双向网络!GA-CNN-BiLSTM-Attention系列四模型多变量时序预测

遗传算法四模型双向网络&#xff01;GA-CNN-BiLSTM-Attention系列四模型多变量时序预测 目录 遗传算法四模型双向网络&#xff01;GA-CNN-BiLSTM-Attention系列四模型多变量时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 基于GA-CNN-BiLSTM-Attention、CNN-BiL…

【新能源汽车“心脏”赋能:三电系统研发、测试与应用匹配的恒压恒流源技术秘籍】

新能源汽车“心脏”赋能&#xff1a;三电系统研发、测试与应用匹配的恒压恒流源技术秘籍 在新能源汽车蓬勃发展的浪潮中&#xff0c;三电系统&#xff08;电池、电机、电控&#xff09;无疑是其核心驱动力。而恒压源与恒流源&#xff0c;作为电源管理的关键要素&#xff0c;在…

在线JSON格式校验工具站

在线JSON校验格式化工具&#xff08;Be JSON&#xff09;在线,JSON,JSON 校验,格式化,xml转json 工具,在线工具,json视图,可视化,程序,服务器,域名注册,正则表达式,测试,在线json格式化工具,json 格式化,json格式化工具,json字符串格式化,json 在线查看器,json在线,json 在线验…

图片黑白处理软件推荐

图片黑白二值化是一款小巧实用的图片处理软件&#xff0c;软件大小仅268K。 它的操作极其简单&#xff0c;用户只需将需要处理的图片直接拖入软件&#xff0c;就能实现图片漂白效果。 从原图和处理后的图片对比来看&#xff0c;效果显著。这种图片漂白处理在打印时能节省墨水&a…

【AI知识】常见的优化器及其原理:梯度下降、动量梯度下降、AdaGrad、RMSProp、Adam、AdamW

常见的优化器 梯度下降&#xff08;Gradient Descent, GD&#xff09;局部最小值、全局最小值和鞍点凸函数和非凸函数动量梯度下降&#xff08;Momentum&#xff09;自适应学习率优化器AdaGrad&#xff08;Adaptive Gradient Algorithm&#xff09;​RMSProp&#xff08;Root M…

1.5.5 掌握Scala内建控制结构 - 异常处理

本次实战聚焦于Scala内建控制结构中的异常处理机制。通过具体案例演示了如何使用try-catch-finally结构来处理程序运行中可能出现的异常情况。在try块中调用可能抛出异常的方法&#xff0c;catch块则根据不同异常类型进行捕获并处理&#xff0c;finally块则无论是否发生异常都会…

齿轮热处理学习笔记分享

对于一个做冷加工的人来说&#xff0c;热处理是一个神秘的话题&#xff0c;但是一点都不去了解的话&#xff0c;工作也无法进行。所以抽点时间来学习一下齿轮热处理相关的内容&#xff0c;做成笔记分享给爱学习的小伙伴们&#xff0c;文章较长&#xff0c;需要一些耐心去阅读&a…

Linux中vscode编程,小白入门喂饭级教程

确保Ubuntu联网 因为后面安装VScode需要从互联网下载。 安装GCC 在桌面空白处右键->打开终端 执行命令&#xff1a;gcc -v 在最后一行可以看到gcc version 7.5.0 如果提示Command ‘gcc’ not found&#xff0c;就查一下如何安装gcc&#xff0c;先把gcc安装好。 安装VS…

蓝桥杯真题——洛谷Day13 找规律(修建灌木)、字符串(乘法表)、队列(球票)

目录 找规律 P8781 [蓝桥杯 2022 省 B] 修剪灌木 字符串 P8723 [蓝桥杯 2020 省 AB3] 乘法表 队列 P8641 [蓝桥杯 2016 国 C] 赢球票 找规律 P8781 [蓝桥杯 2022 省 B] 修剪灌木 思路&#xff1a;对某个特定的点来说有向前和向后的情况&#xff0c;即有向前再返回到该位置…

matrix-breakout-2-morpheus 靶机----练习攻略 【仅获取shell】

【此练习仅做到反弹shell】 1.靶机下载地址 https://download.vulnhub.com/matrix-breakout/matrix-breakout-2-morpheus.ova 2. 打开靶机&#xff0c;kali使用nmap扫描同C段的主机 找到靶机ip 确保靶机和kali网卡均为NAT模式 先查看kali的ip nmap 192.168.182.1/24 …

Flutter中Align的使用说明

又失业了&#xff0c;作为一个高龄Android程序员今年找工作真难呀。现在Flutter是必需技能了&#xff0c;所以最近在自学。所用书籍叫《Flutter实战》&#xff0c;如下 如今已看了100多页&#xff0c;发现这本书写得……有点赶吧&#xff0c;好几处讲得不清不楚&#xff0c;而关…

用ASCII字符转化图片

代码 from PIL import Image# 定义 ASCII 字符集&#xff0c;从最暗到最亮 ASCII_CHARS "%#*-:. "def resize_image(image, new_width100):width, height image.sizeratio height / widthnew_height int(new_width * ratio)resized_image image.resize((new_wi…

详解Sympy:符号计算利器

Sympy是一个专注于符号数学计算的数学工具&#xff0c;使得用户可以轻松地进行复杂的符号运算&#xff0c;如求解方程、求导数、积分、级数展开、矩阵运算等。其中比较流行的深度学习框架pytorch的用到了Sympy,主要用于将模型的计算图转换为符号化表达式&#xff0c;以便进行分…