Quiet-STaR:让语言模型在“说话”前思考

大型语言模型(llm)已经变得越来越复杂,能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题,与人类不同LLM经常在推理中涉及的隐含步骤中挣扎,这回导致输出可能在事实上不正确或缺乏逻辑。

考虑以下场景:正在阅读一个复杂的数学证明。虽然最终的答案可能很清楚,但关键在于理解初始条件和结论之间未说明的步骤。在交谈中也一样,我们依靠中间的假设和背景知识来理解所说的话。这种内隐的推理的能力是Quiet-STaR为LLM提供的能力。

自学推理器(STaR)

先前的研究已经发明了STaR:一种LLM通过从问答示例中推断基本原理来学习推理的技术。但是STaR仅限于特定的任务,并且需要访问预先存在的答案-基本原理对。而Quiet-STaR建立在STaR的基础上,使LLM能够为他们生成的任何文本生成基本原理,使推理过程更加通用和适用。

挑战与解决方案

实现Quiet-STaR有几个挑战。为每个单词生成基本原理在计算上是非常昂贵的。并且LLM本身就缺乏产生或利用这些内在思想的能力。最后Quiet-STaR不仅需要预测下一个单词,还需要考虑文本中更长期的依赖关系。

Quiet-STaR背后的研究人员通过一系列创新技术来解决这些挑战:

令牌并行抽样:采用了一种独特的抽样算法,其中LLM在文本旁边生成基本原理,一次一个令牌(单词)。

可学习的思想令牌:在生成的文本中引入了特殊的符号令牌来表示基本原理的开始和结束。随着时间的推移,LLM学会有效地使用这些令牌。

加强教师指导:使用了一种改进的教师指导技术来指导LLM确保正确的输出文本和相应的基本原理。

Quiet-STaR的流程如下:

Quiet-STaR的好处

1、Quiet-STaR有助于LLM在句子中预测具有挑战性的单词。这些理由提供了额外的上下文,使LLM能够做出更加明智的预测。

2、使用Quiet-STaR训练的LLM在直接回答困难问题方面表现出显著改进。理由引发的推理过程使LLM更有效地处理复杂问题。

3、Quiet-STaR导致推理基准(GSM8K和CommonsenseQA)上的性能提升,而无需在这些特定任务上进行任何微调。这表明LLM将其推理能力推广到未见问题,提升了零样本性能

4、Quiet-STaR明显降低了困惑度,这是一个指示预测序列中下一个单词难度的度量。这表明理由使得LLM的整体文本生成过程更加顺畅和高效。

总结

Quiet-STaR代表了LLM发展的重大进步。通过使它们能够生成理由并经过与文本生成相关的步骤进行推理,Quiet-STaR为更可靠、准确并且能够处理复杂任务的LLM铺平了道路。

目前的研究侧重于文本理由。未来的工作可以探索将其他形式的理由纳入其中,例如视觉或符号表示。将理由生成与可解释AI技术结合可以使LLM不仅能够生成理由,还能够向用户解释其推理过程,增进信任和透明度。Quiet-STaR可以通过将领域特定的知识源纳入到理由生成过程中来进一步针对特定任务进行定制。

论文地址:Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

https://avoid.overfit.cn/post/1ea458c86cf14b45ac219e7d7e82cdc4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/781494.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CTF题型 php://filter特殊编码绕过小汇总

CTF题型 php://filter特殊编码绕过小汇总 文章目录 CTF题型 php://filter特殊编码绕过小汇总特殊编码base64编码string过滤器iconv字符集 例题1.[Newstarctf 2023 week2 include]2.[Ctfshow web 117] php://filter 是一个伪协议,它允许你读取经过过滤器处理的数据流…

YOLO图像前处理及格式转换

import cv2 import numpy as np import os import glob# 数据增强函数 def augment_data(img):rows,cols,_ img.shape# 水平翻转图像if np.random.random() > 0.5:img cv2.flip(img, 1)img_name os.path.splitext(save_path)[0] "_flip.png"cv2.imwrite(img_n…

【C++】string类(常用接口)

🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:http://t.csdnimg.cn/eCa5z 目录 修改操作 push_back append operator assign insert erase replace c_str find string类非成…

AI学习-Pandas数据处理分析

文章目录 1. Pandas概述2. Series用法2.1 Series的创建2.2 Series的取值2.3 Series的相关方法 3. DataFrame用法3.1 DataFrame创建3.2 DataFrame取值3.3 DataFrame相关方法 1. Pandas概述 ​ Pandas 是一个开源的数据分析处理库,它应用在数据科学、统计分析、机器学…

9.0-源码分析:Dubbo Remoting 层核心接口分析

dubbo-remoting 模块,该模块提供了多种客户端和服务端通信的功能。在 Dubbo 的整体架构设计图中,我们可以看到最底层红色框选中的部分即为 Remoting 层,其中包括了 Exchange、Transport和Serialize 三个子层次。这里我们要介绍的 dubbo-remot…

C++类继承继承5——构造函数与拷贝控制

构造函数与拷贝控制 和其他类一样,位于继承体系中的类也需要控制当其对象执行一系列操作时发生什么样的行为,这些操作包括创建、拷贝、移动、赋值和销毁。 如果一个类(基类或派生类)没有定义拷贝控制操作,则编译器将为它合成一个版本。当然…

手写简易操作系统(十七)--编写键盘驱动

前情提要 上一节我们实现了锁与信号量,这一节我们就可以实现键盘驱动了,访问键盘输入的数据也属于临界区资源,所以需要锁的存在。 一、键盘简介 之前的 ps/2 键盘使用的是中断驱动的,在当时,按下键盘就会触发中断&a…

乐理通识

2023 年搞了台雅马哈 61 键的电子琴,顺手看了下啊 B 的上的课程 《零基础自学音乐学乐理合集-第一季》,这里是部分笔记(给博客加点不一样的东西👀)。 简谱各部分一览 C 表示音名竖线为小节线 音名 完整钢琴键盘 88 键…

什么是ORM

什么是ORM 通过 对象 操作数据库 的方法 被称之为 ORM 数据库的表的格式定义 和 表里面一条条数据 之间的关系,很像python的 类定义 和 类的实例 之间的关系 既然 数据库 表定义和表记录之间的关系 就像 类和实例 之间的关系,Django 就让开发者 通过 …

数据结构

一、栈 先进后出 二、队列 先进先出 三、数组 查询快,增加修改慢 四、链表 查询慢,增加修改慢 五、二叉树 节点: 查找二叉树 二叉查找树的特点 二叉查找树,又称二叉排序树或者二叉搜索树 每一个节点上最多有两个子节点 左子树上所…

Linux shell编程学习笔记43:cut命令

0 前言 在 Linux shell编程学习笔记42:md5sum 中,md5sum命令计算md5校验值后返回信息的格式是: md5校验值 文件名 包括两项内容,前一项是md5校验值 ,后一项是文件名。 如果我们只想要前面的md5 校验值&#xff0c…

视频监控联网平台的评价指标体系

目录 一、视频应用系统评价指标体系的设计思路 (一)、明确评价目标和原则 (二)、确定评价指标 (三)、收集和处理数据 (四)、建立评价模型 (五)、进行综…

CT图像空气矫正

CT(Computed Tomography)扫描是一种常用的医学成像技术,用于获取人体内部的高分辨率图像。在CT图像中,由于X射线在穿过人体组织时会受到衰减,因此图像中不同区域的密度会表现出不同的灰度值。而空气与其他组织相比&…

[LeetCode][233]数字 1 的个数

题目 233. 数字 1 的个数 给定一个整数 n&#xff0c;计算所有小于等于 n 的非负整数中数字 1 出现的个数。 示例 1&#xff1a; 输入&#xff1a;n 13 输出&#xff1a;6 示例 2&#xff1a; 输入&#xff1a;n 0 输出&#xff1a;0 提示&#xff1a; 0 < n < 10^9 解…

头歌java实训作业

由于“头歌java实训作业”这个表述不是非常明确&#xff0c;我将假设你是指一套Java编程的实训作业&#xff0c;这些作业旨在帮助学习者通过实践来巩固Java编程的基础知识和技能。以下是一些可能包含在Java实训作业中的题目和案例&#xff0c;以及相应的指导说明。 ### Java实…

哔哩哔哩直播姬有线投屏教程

1 打开哔哩哔哩直播姬客户端并登录(按下图进行操作) 2 手机用usb数据线连接电脑(若跳出安装驱动的弹窗点击确定或允许),usb的连接方式为仅充电(手机差异要求为仅充电),不同品牌手机要求可能不一样,根据实际的来 3 在投屏过程中不要更改usb的连接方式(不然电脑会死机需要重启) …

vue 传递 props

如果我们正在构建一个博客&#xff0c;我们可能需要一个表示博客文章的组件。我们希望所有的博客文章分享相同的视觉布局&#xff0c;但有不同的内容。要实现这样的效果自然必须向组件中传递数据&#xff0c;例如每篇文章标题和内容&#xff0c;这就会使用到 props。 Props 是…

MySQL Explain 优化参数详细介绍

Explain 是什么? Explain命令用于分析SQL查询的执行计划&#xff0c;帮助优化查询语句和索引选择。 Explain是MySQL提供的一个非常有用的工具&#xff0c;它能够帮助数据库管理员和开发者理解SQL查询是如何被数据库执行的。通过在SELECT语句前加上EXPLAIN关键字&#xff0c;…

IDEA的Scala环境搭建

目录 前言 Scala的概述 Scala环境的搭建 一、配置Windows的JAVA环境 二、配置Windows的Scala环境 编写一个Scala程序 前言 学习Scala最好先掌握Java基础及高级部分知识&#xff0c;文章正文中会提到Scala与Java的联系&#xff0c;简单来讲Scala好比是Java的加强版&#x…

面试题:JVM的垃圾回收

一、GC概念 为了让程序员更专注于代码的实现&#xff0c;而不用过多的考虑内存释放的问题&#xff0c;所以&#xff0c;在Java语言中&#xff0c;有了自动的垃圾回收机制&#xff0c;也就是我们熟悉的GC(Garbage Collection)。 有了垃圾回收机制后&#xff0c;程序员只需要关…