湖北网站建设公司/chrome手机版

湖北网站建设公司,chrome手机版,武汉建设银行客服电话,重庆营销型网站开发公司论文题目:START: Self-taught Reasoner with Tools 论文链接:https://arxiv.org/pdf/2503.04625 论文简介 Reasoning模型也进化到2.0了,这次居然学会用工具了!✨ 最近有个叫START的方法,让大模型也能学着用工具&#…

论文题目:START: Self-taught Reasoner with Tools

论文链接:https://arxiv.org/pdf/2503.04625

论文简介

Reasoning模型也进化到2.0了,这次居然学会用工具了!✨ 最近有个叫START的方法,让大模型也能学着用工具,比如自己调用代码解释器,来提升推理和解决问题的能力。

具体怎么实现的呢?它会把「思考链」和「工具调用」结合起来,给模型配上了自查、自我探索和自己修bug的能力。简单说,就是教模型边想边动手,用工具解决推理过程中的难题。

具体的训练步骤大概是:

1️⃣ 收集数学和编程题目,比如数学的AIME、MATH,编程的Codeforces、LiveCodeBench这些比赛题目。
2️⃣ 设计一些「友情提示」,比如“这里不如用Python试一下?”
3️⃣ 让模型自己带着工具解题,然后把刚才的提示巧妙地插到推理过程中(通常是在模型犹豫的时候,比如出现「等等…」的地方)。
4️⃣ 对解题过程打分,去掉重复或者没用的步骤,形成高质量的种子数据集。
5️⃣ 用这些种子数据微调模型,让它学到正确的使用工具的思路,并不断“自我精炼”,创造更多解题方案。
6️⃣ 再通过“拒绝采样”技术在更大的数据集上做二次微调,让模型越来越聪明。

研究还发现了几个有趣的现象:

💡 加入工具后,数学题的准确率直接提升了15%,像AMC23考试的正确率达到了95%!编程题的中等难度问题准确率提升更厉害,达到了38.6%!

📈 考试的时候加上一些小提示,也能再提升12%的准确率。
🐞 调整代码模板,训练过程中的debug错误直接少了41%。
💡 给模型加工具(比如Python解释器)带来的提升,比单纯增加训练数据还有效!
🧠 大模型本身其实就已经有使用工具的潜力了,只是需要点拨一下就能激活。
🛠️ 训练的时候用“两阶段”方法(先提示微调再拒绝采样微调),能让模型更好地掌握工具的使用方法。
📍 对了,插入提示的位置也很重要,最好放在连词后(比如“但是”、“等等”之后),停顿之前。

一句话总结:模型加了工具,就像你考试允许开卷一样,效果简直好到飞起!


如上图所示START模型的训练框架,它的训练分为两个阶段:Hint-RFT 和 RFT。

论文效果

1️⃣ Hint-infer(提示推理)

  • 先拿代码和数学数据喂给 QwQ-32B-Preview(一个大模型),它会在特定的地方停下来。
  • 这些停顿点会插入一些智能提示(来自一个提示库),比如“这里是不是可以试试Python?”
  • 之后,模型会继续推理,并且用代码解释器(Python)来执行代码、检查反馈,确保思路正确。

2️⃣ Hint-RFT(基于提示的拒绝采样微调)

  • 在上一步的基础上,模型生成的推理过程会经过一轮筛选,去掉低质量、重复的内容,并进行一些修改,形成一个高质量的种子数据集 D_seed
  • 然后,QwQ-32B-Preview 会用这些数据进行微调,生成一个初版的 START-0,让它能自己感知并使用工具。

3️⃣ RFT(拒绝采样微调)

  • START-0 开始自我蒸馏,自己生成更多解题思路,构建一个更丰富的训练数据集 D_START(这个数据集不仅更有多样性,还强化了工具使用模式)。
  • 最后,用这个扩展版数据集再微调一次,最终得到完整的 START 模型

简单来说,这个流程的关键就是:

  • 先让模型学会用提示来调用工具
  • 再筛选高质量的解题过程进行微调
  • 让模型自己生成更多推理过程,最后再训练一遍

这张图对比了 QwQ-32B-PreviewSTART 在处理 LiveCodeBench(难度:hard)编程题时的表现。

📌 QwQ-32B-Preview

  • 采用 长链推理(CoT),自己反思、尝试不同的方法,逻辑看起来很严谨。
  • 但在分析复杂测试用例时容易“幻觉”,也就是推理时编出一些错误的假设,导致最终解法是错的。

📌 START

  • 继承了 QwQ-32B-Preview 的推理框架,但 加入了代码执行能力,让模型可以真正跑代码来验证自己的推理。
  • 具体做了什么?
    1️⃣ 执行代码:用解释器跑代码,看看结果对不对。
    2️⃣ 检测错误:如果输出和预期不匹配,说明哪里有问题。
    3️⃣ 迭代分析 & 调试:自动找 bug、分析错误,修正代码。
    4️⃣ 输出最终答案:确保解法正确再交卷!

总体来看,QwQ-32B-Preview 虽然思考方式不错,但容易犯错。START 靠工具(代码执行)补上漏洞,推理更严谨,答案更靠谱!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72587.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于llama.cpp的QwQ32B模型推理

基于llama.cpp的QwQ32B模型推理 llama.cpp项目主页: https://github.com/ggml-org/llama.cpp# llama.cpp源码下载 cd /root/lanyun-tmpgit clone https://github.com/ggml-org/llama.cpp#llama.cpp编译 llama.cpp是个C语言项目,实际调用过程需要先构建项…

如何使用Spring AI提示词模板PromptTemplate?

如何使用Spring AI提示词模板PromptTemplate 目录 如何使用Spring AI提示词模板PromptTemplate 1、提示词Prompt介绍 2、Spring Boot集成Spring AI框架 3、提示词模板PromptTemplate用法 4、开发代码使用PromptTemplate 5、启动Springboot工程并验证 本文章节介绍Prompt…

Windows Server中的NTP服务器部署(NTP Srver Deployment in Windows Server)

构建稳定内网时间同步:Windows Server中的NTP服务器部署指南 服务简介 NTP(Network Time Protocol)服务器是用于同步计算机网络中各设备时间的服务器。它通过网络协议与标准时间源(如原子钟、GPS系统等)进行时间同步&…

【 <二> 丹方改良:Spring 时代的 JavaWeb】之 Spring Boot 的自动配置:约定优于配置的设计美学

<前文回顾> 点击此处查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&sharefromfrom_link <今日更新> 一、Spring…

SourceTree的安装与使用

SourceTree的安装与使用 一、前言 作为可视化Git管理工具&#xff0c;SourceTree可以避免我们使用命令进行常规的代码拉取&#xff0c;更新&#xff0c;合并等操作。 鼠标点点就可以完成代码管理的工作。所以强烈推荐可视化的工具。不过SourceTree还是有点bug&#xff0c;比…

JMeter 性能测试

Jmeter 用户手册 名词解释&#xff1a; RPS&#xff1a;每秒请求数-每秒向服务器发送多少请求数&#xff08;一个场景&#xff0c;系统面临多大的压力&#xff09; TPS&#xff1a;每秒事务数-每秒能够处理多少请求/事务数性能评价标准&#xff08;其中的一个核心指标&#x…

【Mac 从 0 到 1 保姆级配置教程 09】09. 快速配置终端复用工具 tmux 和 oh-my-tmux

文章目录 1. 前言2. 安装 tmux3. 配置 tmux4. 安装 oh-my-tmux5. 最后6. 参考资料7. 系列教程 Mac 从 0 到 1 保姆级配置教程目录&#xff0c;点击即可跳转对应文章&#xff1a; 【Mac 从 0 到 1 保姆级配置教程 00】 - 教程说明 【Mac 从 0 到 1 保姆级配置教程 01】 - 安装无…

Java 大视界 -- 基于 Java 的大数据机器学习模型的迁移学习应用与实践(129)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

通义万相 2.1 与蓝耘智算平台的深度协同,挖掘 AIGC 无限潜力并释放巨大未来价值

我的个人主页 我的专栏&#xff1a; 人工智能领域、java-数据结构、Javase、C语言&#xff0c;希望能帮助到大家&#xff01;&#xff01;&#xff01; 点赞&#x1f44d;收藏❤ 引言&#xff1a;AIGC 浪潮下的新机遇 在当今数字化飞速发展的时代&#xff0c;人工智能生成内容&…

C语言高级学习之变量和内存分布

一.变量和内存分布 1.课程要求 2.技术层次 3.C语言标准 1.3.1 K&R C 起初&#xff0c;C语言没有官方标准。1978年由美国电话电报公司(AT&T&#xff09;贝尔实验室正式发表了C语言。布莱恩柯林汉&#xff08;Brian Kernighan&#xff09; 和 丹尼斯里奇&#xff08;D…

蓝桥杯学习-12递归

12递归 1.概述 2.几个递归模板 (1)求阶乘 int f(int n){ if(n 1) return 1; return f(n-1) * n; }(2)斐波拉契序列 int f(int n){ if(n 1 || n 2) return n; return f(n - 1) f(n - 2); }例题一-蓝桥5194 int f(int n){if(n 0) return 1;if(n % 2 0) return f(n / 2)…

Python----数据可视化(Pyecharts三:绘图二:涟漪散点图,K线图,漏斗图,雷达图,词云图,地图,柱状图折线图组合,时间线轮廓图)

1、涟漪特效散点图 from pyecharts.globals import SymbolType from pyecharts.charts import EffectScatter from pyecharts.faker import Faker from pyecharts import options as opts from pyecharts.globals import ThemeType # 绘制图表 es (EffectScatter(init_optsop…

自然语言处理预训练模型的研究综述

&#x1f4d5;参考&#xff1a;&#xff1a;2020-11-02,https://kns.cnki.net/kcms/detail/11.2127.tp.20201030.1952.017.html 主要是这篇文章的自己摘了点笔记。 预训练模型的深度学目标是如何使预训练好的模型处于良好的初始状态&#xff0c;在下游任务中达到更好的性能表现…

一次Linux下 .net 调试经历

背景&#xff1a; Xt160Api, 之前在windows下用.net调用&#xff0c;没有任何问题。 但是移植到Linux去后&#xff0c;.net程序 调用 init(config_path) 总是报错 /root/test 找不到 traderApi.ini (/root/test 是程序目录) 然后退出程序 解决过程: 于是考虑是不是参数传错了&…

iOS底层原理系列01-iOS系统架构概览-从硬件到应用层

1. 系统层级结构 iOS系统架构采用分层设计模式&#xff0c;自底向上可分为五个主要层级&#xff0c;每层都有其特定的功能职责和技术组件。这种层级化结构不仅使系统更加模块化&#xff0c;同时也提供了清晰的技术抽象和隔离机制。 1.1 Darwin层&#xff1a;XNU内核、BSD、驱动…

日志存储与分析

日志是系统运行的详细记录&#xff0c;包含各种事件发生的主体、时间、位置、内容等关键信息。出于运维可观测、网络安全监控及业务分析等多重需求&#xff0c;企业通常需要将分散的日志采集起来&#xff0c;进行集中存储、查询和分析&#xff0c;以进一步从日志数据里挖掘出有…

Flutter 边框按钮:OutlinedButton 完全手册与设计最佳实践

目录 1. 引言 2. OutlinedButton 的基本用法 3. 主要属性 3.1 核心属性详解 3.2 ButtonStyle 子属性详解 (styleFrom/copyWith) 状态响应优先级说明 4. 自定义按钮样式 4.1 修改边框颜色和文本颜色 4.2 修改按钮形状 4.3 修改按钮大小 4.4 集中演示 5. 结论 相关推…

【Node.js入门笔记4---fs 目录操作】

Node.js入门笔记4 Node.js---fs 目录操作一、目录操作1.fs.mkdir()&#xff1a;创建目录。异步&#xff0c;非阻塞。创建单个目录创建多个目录创建目前之前需要确认是否存在&#xff1a; 2. fs.mkdirSync()&#xff1a;用于创建一个新的目录。异步&#xff0c;非阻塞。3.fs.rmd…

IP风险度自检,互联网的安全“指南针”

IP地址就像我们的网络“身份证”&#xff0c;而IP风险度则是衡量这个“身份证”安全性的重要指标。它关乎着我们的隐私保护、账号安全以及网络体验&#xff0c;今天就让我们一起深入了解一下IP风险度。 什么是IP风险度 IP风险度是指一个IP地址可能暴露用户真实身份或被网络平台…

【软考-架构】5.3、IPv6-网络规划-网络存储-补充考点

✨资料&文章更新✨ GitHub地址&#xff1a;https://github.com/tyronczt/system_architect 文章目录 IPv6网络规划与设计建筑物综合布线系统PDS&#x1f4af;考试真题第一题第二题 磁盘冗余阵列网络存储技术其他考点&#x1f4af;考试真题第一题第二题 IPv6 网络规划与设计…