探秘LLM推理模型:hidden states中藏着的self verification的“钥匙”

推理模型在数学和逻辑推理等任务中表现出色,但常出现过度推理的情况。本文研究发现,推理模型的隐藏状态编码了答案正确性信息,利用这一信息可提升推理效率。想知道具体如何实现吗?快来一起来了解吧!

论文标题
Reasoning Models Know When They’re Right: Probing Hidden States for Self-Verification
来源
arXiv:2504.05419v1 [cs.AI] 7 Apr 2025
https://arxiv.org/abs/2504.05419

文章核心

研究背景

近年来,推理模型在复杂推理能力上取得显著进展,如OpenAI的o1和DeepSeekR1等在数学和逻辑推理任务中表现出色,其基于搜索的推理方式是重要优势。

研究问题

  1. 推理模型存在过度思考的问题,在得到正确答案后仍会进行不必要的推理步骤。
  2. 不清楚模型在推理过程中对中间答案正确性的评估能力如何。
  3. 模型虽能编码答案正确性信息,但在推理时未能有效利用该信息。

主要贡献

  1. 验证信息编码:证实推理模型的隐藏状态编码了答案正确性信息,通过简单的探测就能可靠地提取,且探测结果校准度高,在分布内和分布外示例上都有良好表现。
  2. 提前预测正确性:发现模型隐藏状态包含“前瞻性”信息,能在中间答案完全生成前预测其正确性。
  3. 提升推理效率:将训练好的探测模型用作验证器,实施基于置信度的提前退出策略,在不降低性能的情况下,可减少24%的推理令牌数量,揭示了模型在利用内部正确性信息方面的潜力。

方法论精要

  1. 核心算法/框架:使用两层多层感知器(MLP)作为探测模型,在推理模型生成的长思维链(Chain-of-Thought,CoT)基础上,将其分割为包含中间答案的多个块,利用该探测模型从这些块对应的隐藏状态中提取信息,进而预测中间答案的正确性。
  2. 关键参数设计原理:由于数据集存在类别不平衡问题,多数中间答案正确,因此使用加权二元交叉熵损失函数。其中, w w w是训练数据中负样本与正样本的比例, α \alpha α是缩放不平衡权重的超参数,通过调整这些参数来优化探测模型的训练。
  3. 创新性技术组合
  • 数据处理创新:设计了一套独特的数据处理流程。首先,收集推理模型针对任务数据集中每个问题的响应,将推理过程中封装在标记内的推理痕迹提取出来,并以 “\n\n” 为分隔符拆分成段落。通过检测段落中的 “wait”“double-check”“alternatively” 等关键词来识别新推理路径的起始点,然后将同一推理路径的段落合并成一个块。接着,借助 Gemini 2.0 Flash 工具,从每个块中提取中间答案(若存在),并与真实答案对比判断其正确性。对于相邻且不包含中间答案的块,将其与最近的含答案块合并。最终,每个合并后的块都包含一个中间答案以及由 Gemini 生成的表示答案正确性的二进制标签,形成 ( c 1 , y 1 ) , ( c 2 , y 2 ) , . . . ( c k , y k ) {(c_{1}, y_{1}),(c_{2}, y_{2}), ...(c_{k}, y_{k})} (c1,y1),(c2,y2),...(ck,yk) 这样的数据结构,为后续探测模型的训练提供了丰富且准确的数据。
  • 模型训练创新:在训练探测模型时,采用将长 CoT 分段处理后得到的块数据进行训练。对于每个块 c i c_{i} ci ,选取其最后一个令牌位置的最后一层隐藏状态作为该块的表示 e i e_{i} ei,以此构建探测数据集 D = ( e i , y i ) i = 1 N D={(e_{i}, y_{i})}_{i=1}^{N} D=(ei,yi)i=1N,这种基于块的隐藏状态表示方式能够有效捕捉推理过程中每个中间步骤的特征信息,为准确训练探测模型奠定了基础。同时,结合加权二元交叉熵损失函数进行训练,进一步提升了模型在不平衡数据上的训练效果。
  1. 实验验证方式:选择数学推理(GSM8K、MATH、AIME)和逻辑推理(KnowLogic)任务的数据集,使用开源的DeepSeek - R1 - Distill系列模型以及QwQ - 32B模型。通过在不同数据集上训练和测试探测模型,对比不同模型的性能,并将训练好的探测模型作为验证器,与静态提前退出策略对比,评估推理效率和准确性。

实验洞察

  1. 性能优势:在分布内实验中,所有探测模型的ROC - AUC得分均高于0.7,预期校准误差(ECE)低于0.1。例如,R1 - Distill - Qwen - 32B在AIME数据集上的ROC - AUC得分超过0.9。在跨数学推理数据集的实验中,部分探测模型具有良好的泛化性,如在MATH和GSM8K数据集上训练的探测模型在两个数据集之间转移时,ROC - AUC和ECE表现良好。
  2. 效率突破:使用基于探测模型置信度的提前退出策略,在MATH数据集上,当置信度阈值设为0.85时,推理准确率与不提前退出时大致相同(88.2%),但生成的令牌数量减少了约24%;当阈值设为0.9时,推理准确率为88.6%,令牌数量减少19%。且在节省相同数量令牌的情况下,该策略比静态提前退出策略的准确率高5%。
  3. 消融研究:训练非推理模型(Llama - 3.1 - 8B - Instruct)的探测模型并与推理模型对比,发现非推理模型探测模型的性能更差,分类得分更低,校准误差更高,表明答案正确性的编码信息在推理模型中更显著,与长CoT推理能力相关。同时,研究发现推理模型在中间答案生成前,隐藏状态就编码了正确性信息,且靠近答案生成位置的段落,探测模型性能更好。

本文由AI辅助完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/902972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

流量抓取工具(wireshark)

协议 TCP/IP协议簇 网络接口层(没有特定的协议)PPPOE 物理层数据链路层 网络层: IP(v4/v6) ARP(地址解析协议) RARP ICMP(Internet控制报文协议) IGMP传输层:TCP(传输控制协议)UDP(用户数据报协议)应用层…

.NET仓储层在 using 块中创建 SqlSugarClient 的风险

如题&#xff0c;先看代码示例 using 块的使用 public ISugarQueryable<T> GetSet(Expression<Func<T, bool>> whereExpression null) {using (SqlSugarClient dbClient SqlSugarInstance.GetInstance()){var query dbClient.Queryable<T>();if (w…

C语言----函数栈帧讲解

目录 1.函数栈帧是什么? 2. 理解函数栈帧能解决什么问题 3、函数栈帧的创建和销毁具体过程 3.1 什么是栈 3.2 认识相关寄存器和汇编指令 3.3函数栈帧的创建和销毁 3.3.1 预备知识 3.3.2 函数的调用堆栈 3.3.3 准备环境 3.3.4 转到反汇编 3.3.5 函数栈帧的创建 3.3…

代码随想录学习笔记---二叉树

学习目标&#xff1a; 学习代码随想录–二叉树 每天学习1道,复习两道 学习内容&#xff1a; 2025.4.7 复习内容: 24. 两两交换链表中的节点 25. 最大二叉树 学习内容 26. 合并二叉树 2025.4.8 复习内容: 27. 二分查找 28. 合并二叉树 29. 27. 移除元素 学习内容: 30. 二叉…

Git ——提交至github,Vercel拉取,更新不了项目的问题解决

首先因为github上有个错误 1 failing check Vercel - No GitHub account was found matching the commit author email address 发现好像是vercel拉取不了项目&#xff0c;vercel登录的邮箱与我此次提交更改的邮箱不匹配&#xff0c;查看Git的user确实如此&#xff08;之前的…

Vue3项目中 npm 依赖安装 --save 与 --save-dev 的区别解析

这两个命令的区别如下&#xff1a; bash npm install --save types/crypto-js # 安装到 dependencies&#xff08;生产依赖&#xff09; npm install --save-dev types/crypto-js # 安装到 devDependencies&#xff08;开发依赖&#xff09; 核心区别 依赖分类不同…

品牌如何通过朝日新闻出海日本?——某企业日本媒体发稿实战

文 | 言同数字亚太传播实验室 一、日本市场的隐形门槛&#xff1a;中国品牌的三大痛点 案例背景&#xff1a; 某中国灵芝保健品企业&#xff08;代号"ForestLife"&#xff09;&#xff0c;产品虽获中国/欧盟有机认证&#xff0c;但在日本市场面临&#xff1a; 认知…

鸿蒙-试一下属性字符串:除了Span之外,如何在同一个Text组件中展示不同样式的文字

文章目录 前言简介有哪些类型拉出来溜溜Text SpanStyledString其他CustomSpan先看一下构造函数onMeasure(measureInfo: CustomSpanMeasureInfo): CustomSpanMetricsonDraw(context: DrawContext, drawInfo: CustomSpanDrawInfo) 遗留问题 前言 在开发中&#xff0c;经常会遇到…

Nginx 安装与配置全流程指南(2025 最新版)

一、环境准备与依赖安装 1.1 系统要求 操作系统&#xff1a;支持主流 Linux 发行版&#xff08;Ubuntu 20.04/CentOS 7/Debian 10&#xff09;硬件配置&#xff1a;内存 ≥512MB&#xff0c;磁盘 ≥10GB 可用空间&#xff08;建议使用 SSD&#xff09;网络要求&#xff1a;开…

【LeetCode 热题 100】滑动窗口最大值 / 最小覆盖子串 / 轮转数组 / 缺失的第一个正数

⭐️个人主页&#xff1a;小羊 ⭐️所属专栏&#xff1a;LeetCode 热题 100 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 子串和为 K 的子数组滑动窗口最大值最小覆盖子串 普通数组最大子数组和合并区间轮转数组除自身以外数组的乘积缺失的…

golang的cgo的一点小心得

最后有个项目需要涉及到cgo&#xff0c;在这块以前用的不多&#xff0c; 这次略微用得深入了一点&#xff0c;记下来几点以备以后使用 本质上cgo去用的时候就是遵守一些ABI而已&#xff0c;总体而言&#xff0c;尽量避免复杂结构的来回传递。1 对于变长参数&#xff0c;只有…

异构网络环境下的切换策略研究

移动互联网应用快速崛起,现有的无线接入技术有,无线局域网(Wireless Local Area NetWork,WLAN),移动蜂窝网络(4G,5G),无线广域网(Wireless Wide Area Network,WWAL)以及卫星通信网络等。多接入技术方便用户通信,还符合多业务场景。这种多无线接入技术共存的网络环…

人工智能赋能美妆零售数字化转型:基于开源AI大模型的S2B2C商城系统构建

摘要 在消费升级背景下&#xff0c;美妆行业正经历从传统卖场向智能体验空间的转型。本文以"未来商店"为研究对象&#xff0c;探讨开源AI大模型与S2B2C商城系统的协同效应&#xff0c;揭示人工智能技术如何重构"人-货-场"关系。通过实证研究发现&#xff…

计算机视觉中的正则化:从理论到实践的全面解析

&#x1f31f; 计算机视觉中的正则化&#xff1a;从理论到实践的全面解析&#x1f31f; 大家好&#xff01;今天要和大家分享的是在计算机视觉&#xff08;CV&#xff09;领域中非常重要的一个概念——正则化&#xff08;Regularization&#xff09;。无论你是刚开始接触深度学…

Linux字符设备驱动开发的详细步骤

1. 确定主设备号​​ ​​手动指定​​&#xff1a;明确设备号时&#xff0c;使用register_chrdev_region()静态申请&#xff08;需确保未被占用&#xff09;。​​动态分配​​&#xff1a;通过alloc_chrdev_region()由内核自动分配主设备号&#xff08;更灵活&#xff0c;推…

软件工程效率优化:一个分层解耦与熵减驱动的系统框架

软件工程效率优化&#xff1a;一个分层解耦与熵减驱动的系统框架** 摘要 (Abstract) 本报告构建了一个全面、深入、分层的软件工程效率优化框架&#xff0c;旨在超越简单的技术罗列&#xff0c;从根本的价值驱动和熵减原理出发&#xff0c;系统性地探讨提升效率的策略与实践。…

【Docker游戏】使用Docker部署vue-XiuXianGame文字修仙小游戏

【Docker游戏】使用Docker部署vue-XiuXianGame文字修仙小游戏 一、vue-XiuXianGame介绍1.1 vue-XiuXianGame简介1.2 主要特点 二、本次实践规划2.1 本地环境规划2.2 本次实践介绍 三、本地环境检查3.1 检查Docker服务状态3.2 检查Docker版本3.3 检查docker compose 版本 四、拉…

用 LangChain 手搓 RAG 系统:从原理到实战

一、RAG 系统简介 在当今信息爆炸的时代&#xff0c;如何高效地从海量数据中获取有价值的信息并生成准确、自然的回答&#xff0c;成为了人工智能领域的重要课题。检索增强生成&#xff08;Retrieval-Augmented Generation&#xff0c;RAG&#xff09;系统应运而生&#xff0c;…

SpringBoot集成LiteFlow实现轻量级工作流引擎

LiteFlow 是一款专注于逻辑驱动流程编排的轻量级框架&#xff0c;它以组件化方式快速构建和执行业务流程&#xff0c;有效解耦复杂业务逻辑。通过支持热加载规则配置&#xff0c;开发者能够即时调整流程步骤&#xff0c;将复杂的业务如价格计算、下单流程等拆分为独立且可复用的…

38 python random

在实际中,我们常常会用到随机的概念,比如 模拟抽奖活动(如:月度优秀员工抽奖)生成测试数据(如:随机考勤时间、随机销售额)打乱数据顺序(如:随机分配任务到人)Python 的random模块就像你的 "随机事件生成器",帮你轻松创建各种随机数据 一、基础操作:从随…