如何写网站代码是什么原因/个人接app推广单去哪里接

如何写网站代码是什么原因,个人接app推广单去哪里接,网站的建设教程,地税局内网网站建设一、TL;DR 探索了COT(chain-of-thought prompting)通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力在三个大型语言模型上的实验表明,思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现解释了一下为什么…

一、TL;DR

  1. 探索了COT(chain-of-thought prompting)通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力
  2. 在三个大型语言模型上的实验表明,思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现
  3. 解释了一下为什么COT有效,见3.3节:老实说我觉得全是猜测
  4. 给出了一些局限性:比如模型参数超过1000亿才work,cot并不是真正的模仿人类在推理等等;

二、方法介绍

本研究探讨了一种简单方法,基于两个想法,如何解锁大型语言模型的推理能力

  1. 算术推理技术可以从生成自然语言推理依据中受益,这些依据最终导向答案
  2. 大型语言模型通过提示实现上下文中的少样本学习

但上述两种方法都存在局限性

  1. 对于推理依据增强的训练和微调方法来说,创建大量高质量的推理依据成本高昂
  2. 传统few-shot提示方法,它在需要推理能力的任务上表现不佳

本文如何做?

  1. 探索了语言模型在推理任务中进行few-shot提示的能力,提示内容由三元组组成:[输入,思维链,输出]。思维链是一系列导向最终输出的中间自然语言推理步骤,我们称这种方法为chain-of-thought prompting

示例如下:

图1展示了一个模型生成思维链来解决一个它原本会答错的数学文字题的例子。在这种情况下,思维链类似于一个解决方案,以更好地捕捉它模仿逐步思考过程以得出答案的想法

本文做到的benchmark(COT效果最佳,比finetune后的模型还要好):

三、COT

3.1 具体怎么做举例

在解决复杂的推理任务时,例如多步骤的数学文字题时的思考过程,通常会将问题分解为中间步骤,并在给出最终答案之前先解决每个步骤,并在给出最终答案之前先解决每个步骤:

  1. 简在送给妈妈2朵花之后还剩下10朵……
  2. 然后在送给爸爸3朵之后,她将剩下7朵……
  3. 所以答案是7

3.2 COT的目标

  1. 赋予语言模型生成类似思维链的能力——一系列连贯的中间推理步骤,最终导向问题的答案
  2. 如果在少样本提示的示例中提供思维链推理的演示,足够大的语言模型可以生成思维链。

3.3 COT的优越性

  1. 首先,COT允许模型将多步骤问题分解为中间步骤,这意味着可以为需要更多推理步骤的问题分配额外的计算资源

  2. 其次,思维链为模型的行为提供了一个可解释的窗口,暗示了它可能是如何得出特定答案的,并为调试推理路径出错的地方提供了机会(尽管完全描述支持答案的模型计算仍然是一个开放性问题)。

  3. 第三,思维链推理可以用于解决数学文字题、常识推理和符号操作等任务,并且原则上可以应用于任何人类可以通过语言解决的任务

  4. 最后,通过在少样本提示的示例中加入思维链序列的示例,足够大的现成语言模型可以轻松地引发思维链推理

在实证实验中,我们将观察到思维链提示在算术推理、常识推理和符号推理中的涨点作用(本文的核心消融实验)。

四、 算术推理

我们首先考虑图1中形式的数学文字题,这些题目衡量了语言模型的算术推理能力。当使用5400亿参数的语言模型时,思维链提示在多个任务上的表现与针对特定任务进行微调的模型相当,甚至在具有挑战性的GSM8K基准测试上达到了新的最佳水平。

4.1 实验设置

基准测试:五个数学文字题基准测试:

  1. 数学文字题的GSM8K基准测试。

  2. 具有不同的结构的数学文字题的SVAMP数据集。

  3. 多样化的数学文字题的ASDiv数据集。

  4. 代数文字题的AQuA数据集。

  5. MAWPS基准测试(Koncel-Kedziorski等人,2016年)。 

标准的prompt:作为基线,我们考虑了由Brown等人提出的few-shot prompt。在这种方法中,语言模型在输出测试样本的预测之前,会先给出上下文中的输入 - 输出对示例。示例以问题和答案的形式呈现。模型直接给出答案,如图1(左侧)所示。

COT prrompt:我们提出的方法是在few-shot prompt的每个示例中加入与答案相关的思维链,如图1(右侧)所示。由于大多数数据集只有评估部分,我们手动编写了一组包含八个少样本示例的思维链用于提示——图1(右侧)展示了一个思维链示例,完整的示例集在附录表20中给出。

语言模型:评估了五种大型语言模型。

  1. GPT-3,使用了text-ada-001-3.5亿、text-babbage-001-13亿、text-curie-001-67亿和text-davinci-002-1750亿

  2. LaMDA,参数分别为4.22亿、20亿、80亿、680亿和1370亿参数。

  3. PaLM,参数分别为80亿、620亿和5400亿参数。

  4. UL2 200亿参数。

  5. Codex。

通过贪婪解码从模型中采样。对于LaMDA,我们在五个随机种子上报告平均结果,每个种子的示例顺序都不同。由于LaMDA实验在不同种子之间没有显示出很大的差异,为了节省计算资源,我们对所有其他模型报告了一个示例顺序的结果。

4.2 实验结果

思维链提示的最强结果总结在图4中,每种模型集合、模型大小和基准测试的所有实验输出都显示在附录的表2中。

有三个关键要点:

  1. 模型规模的新兴能力图4显示,思维链提示是模型规模的一种新兴能力。对于小模型,思维链提示并没有积极影响性能,只有在与约1000亿参数的模型一起使用时才带来性能提升。我们定性地发现,较小规模的模型生成的思维链虽然流畅,但缺乏逻辑性,导致其性能低于标准提示

  2. 复杂问题的性能提升更大:例如,在GSM8K(基线性能最低的数据集)上,对于最大的GPT和PaLM模型,性能提升了一倍以上。另一方面,对于SingleOp(MAWPS中最简单的子集,只需要一个步骤来解决),性能提升要么是负的,要么非常小(见附录表3)。

  3. 与先前最佳水平的比较:通过GPT-3(1750亿参数)和PaLM 5400亿参数的思维链提示,与通常在标记训练数据集上对特定任务进行微调的先前最佳水平相比,表现良好

4.3 消融实验

思维链提示带来的性能提升引发了这样一个自然的问题:是否可以通过其他类型的提示获得相同的性能提升。图5展示了一个消融研究,其中包含以下三种思维链的变体。

仅方程:思维链提示可能有帮助的一个原因是它生成了需要求解的数学方程,因此我们测试了一个变体,即模型在给出答案之前仅被提示输出一个数学方程。图5显示,对于GSM8K,仅方程提示并没有太大帮助,这意味着GSM8K中的问题语义过于复杂,无法直接翻译成方程,而无需思维链中的自然语言推理步骤。然而,对于只需要一步或两步解决的问题的数据集,我们发现仅方程提示确实提高了性能,因为方程可以从问题中轻松推导出来(见附录表6)。

仅变量计算:思维链允许模型在更复杂的问题上花费更多的计算。为了将变量计算的效果与思维链推理分开,我们测试了一个配置,即模型被提示输出一个点序列(...),其字符数等于解决该问题所需的方程的字符数。这种变体的表现与基线大致相同,这表明仅变量计算本身并不是思维链提示成功的原因,而且通过自然语言表达中间步骤似乎确实有其价值。

答案后的思维链:思维链提示的另一个潜在好处可能仅仅是这种提示使模型能够更好地调用预训练期间获得的相关知识。因此,我们测试了一种替代配置,即思维链提示仅在答案之后给出,以确定模型是否实际上依赖生成的思维链来给出最终答案。这种变体的表现与基线大致相同,这表明思维链中体现的顺序推理之所以有用,不仅仅是因为它激活了知识

第二,对于更复杂的问题,思维链提示的性能提升更大。例如,在GSM8K(基线性能最低的数据集)上,对于最大的GPT和PaLM模型,性能提升了一倍以上。另一方面,对于SingleOp(MAWPS中最简单的子集,只需要一个步骤来解决),性能提升要么是负的,要么非常小(见附录表3)。

第三,通过GPT-3(1750亿参数)和PaLM 5400亿参数的思维链提示,与通常在标记训练数据集上对特定任务进行微调的先前最佳水平相比,表现良好。图4展示了PaLM 5400亿参数如何通过思维链提示在GSM8K、SVAMP和MAWPS上达到新的最佳水平(尽管需要注意的是,标准提示已经超过了SVAMP的先前最佳水平)。在其他两个数据集AQuA和ASDiv上,带有思维链提示的PaLM达到了与最佳水平相差2%以内的水平(附录表2)。

五、常识推理

在一些乱七八糟的各个领域数据集上COT也是work的

流行的CSQA关于世界的常识性问题。StrategyQA要求模型推断出一个多跳策略来回答问题。BIG-bench项目(BIG-bench合作,2021年)中选择了两个专门的评估集:日期理解(从给定上下文中推断日期)和体育理解(判断与体育相关的句子是否合理或不合理)。最后,SayCan数据集自然语言指令映射到离散集合中的机器人动作序列

五、符号推理

符号推理,这种任务对人类来说很简单,但对语言模型来说可能具有挑战性。COT不仅使语言模型能够在标准提示设置中执行具有挑战性的符号推理任务,还促进了对推理时输入长度的泛化能力,使其能够处理比少样本示例中更长的输入。

五、讨论

探索了COT prompt作为一种简单机制,用于激发大型语言模型中的多步骤推理行为。

  1. 首先发现,思维链提示在算术推理方面大幅提升了性能,其改进幅度远强于消融研究,
  2. 常识推理的实验强调了思维链推理的语言特性使其具有广泛的适用性。
  3. 最后,我们展示了对于符号推理,思维链提示能够促进对领域外(OOD)更长序列长度的泛化能力

局限性:

  1. 尽管思维链模仿了人类推理者的思维过程,但这并不回答神经网络是否真正“在推理”
  2. 尽管在少样本设置中,手动为示例添加思维链的成本极小,但这种标注成本在微调中可能会变得难以承受
  3. 无法保证推理路径的正确性,这可能导致正确和错误的答案
  4. 思维链推理仅在大型模型中出现,这使得其在现实世界应用中的部署成本较高;进一步的研究可以探索如何在较小的模型中诱导推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/73384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

决策树算法详解:从西瓜分类到实战应用

目录 0. 引言 1. 决策树是什么? 1.1 生活中的决策树 1.2 专业版决策树 2. 如何构建决策树? 2.1 关键问题:选哪个特征先判断? 2.1.1 信息熵(数据混乱度) 2.1.2 信息增益(划分后的整洁度提…

超融合服务器是什么

超融合服务器的定义与背景 超融合服务器(Hyperconverged Infrastructure, HCI)是一种通过软件定义技术,将计算、存储、网络和虚拟化功能整合到单一硬件平台中的IT基础设施解决方案。其核心目标是通过资源的高度集成和统一管理,简…

【网络层协议】NAT技术内网穿透

IP地址数量限制 我们知道,IP地址(IPv4)是一个4字节32位的整数,那么一共只有2^32也就是接近43亿个IP地址,而TCP/IP协议栈规定,每台主机只能有一个IP地址,这就意味着,一共只有不到43亿…

时隔多年,终于给它换了皮肤,并正式起了名字

时隔多年,终于更新了直播推流软件UI,并正式命名为FlashEncoder。软件仍使用MFC框架,重绘了所有用到的控件,可以有效保证软件性能,也便于后续进一步优化。 下载地址:https://download.csdn.net/download/Xi…

如何避免测试环境不稳定导致的误报

避免测试环境不稳定导致误报的核心方法包括搭建独立稳定的测试环境、使用环境监控工具、建立环境变更管理机制、定期维护更新测试环境以及提升团队的环境管理意识。 其中,搭建独立稳定的测试环境尤为关键。独立的测试环境能有效隔离其他环境的干扰,保证测…

Axure RP9教程 :轮播图(动态面板) | 头部锁定

文章目录 引言I 轮播图操作步骤在画布中添加一个动态面板设置面板状态II 头部锁定将头部区域选中,右键组合或用Ctrl+G快捷键;将组合的头部区域,右键创建动态面板;引言 动态面板的功能十分强大,比如:拥有独立的内部坐标系,有多个状态; Banner的案例中会用到动态面板多个…

Docker入门篇4:查看容器资源、查看容器详细信息、查看容器日志、查看容器内运行的进程

大家好我是木木,在当今快速发展的云计算与云原生时代,容器化技术蓬勃兴起,Docker 作为实现容器化的主流工具之一,为开发者和运维人员带来了极大的便捷 。下面我们一起开始入门第四篇:查看容器资源、查看容器详细信息、…

中学数学几百年重大错误:将无穷多各异假R误为R——两数集相等的必要条件

中学数学几百年重大错误:将无穷多各异假R误为R——两数集相等的必要条件 黄小宁 设集A{x}表A各元均由x代表,相应变量x的变域是A。其余类推。本人多年前公开发表的论文中有定理: h定理(两数集相等的必要条…

STM32使用红外避障传感器

1.1 介绍: 该传感器模块对环境光适应能力强,其具有一对红外线发射与接收管,发射管发射出一定频率的红外线,当检测方向遇到障碍物(反射面)时,红外线反射回来被接收管接收,经过比较器…

python tkinter 开发蓍草占卜系统

1. 项目概述 1.1 简介 蓍草占卜是中国传统的占卜方法,用于演算六十四卦。本系统通过现代编程技术,将传统的蓍草占卜方法数字化,提供一个准确、便捷的占卜工具。 蓍草占卜,作为中国古代的一种传统占卜方法,承载着深厚…

2025-3-25算法打卡

一,走迷宫 1.题目描述: 给定一个 NMNM 的网格迷宫 GG。GG 的每个格子要么是道路,要么是障碍物(道路用 11 表示,障碍物用 00 表示)。 已知迷宫的入口位置为 (x1,y1)(x1​,y1​),出口位置为 (x…

ISIS-3 LSDB链路状态数据库同步

上一章我们介绍了ISIS的邻居建立关系以及ISIS的路由器角色有哪些,在不同的网络类型当中建立邻居关系有什么不同,并且以实验案例抓包的形式给大家进一步介绍了建立的过程。 这一章我们来介绍ISIS中是如何实现链路状态数据库同步的,与OSPF的链路状态同步有什么不同,在不同网络类…

Opencv计算机视觉编程攻略-第三节 图像颜色处理

第三节 图像颜色处理 1.颜色比较2.GrabCut分割图像3.色调、饱和度以及亮度 1.颜色比较 主要实现逐像素的颜色比较,其中注意BGR颜色空间不连续,不利于颜色提取和区分,转换到Lab空间: int getColorDistance(const cv::Vec3b& c…

BoomCut AI 技术创建本地化的营销视频

目录 视频翻译实验 交换实验 数字人实验 核心功能与技术亮点 适用场景 BoomCut 提供用于视频翻译、数字人等的 AI 技术,以快速创建本地化的营销视频 视频翻译实验 电影电影哪吒之魔童降世换成西班牙语

论华为 Pura X 折叠屏性能检测

在科技浪潮中,折叠屏手机以其创新形态掀起市场热潮。华为 Pura X 作为华为最新折叠手机,承载前沿科技与精湛工艺,成为行业焦点。它融合先进折叠屏技术与优质材质,致力于打破传统手机使用边界,为用户开启全新体验。但产…

【蓝桥杯每日一题】3.25

🏝️专栏: 【蓝桥杯备篇】 🌅主页: f狐o狸x “OJ超时不是终点,是算法在提醒你该优化时间复杂度了!” 目录 3.25 差分数组 一、一维差分 题目链接: 题目描述: 解题思路:…

3.25学习总结 抽象类和抽象方法+接口+内部类+API

抽象类和抽象方法: 有抽象方法,那么类肯定是抽象类。父类不一定是抽象的,但如果父类中有抽象方法那一定是抽象类。 如果子类中都存在吃这个行为,但吃的具体东西不同,那么吃这个行为定义在父类里面就是抽象方法&#x…

全面系统梳理多模态LLM对齐算法

1.alignment算法发展时间轴 2.MLMM alignment结构图 3.目前alignment策略常见的损失函数形式 4.MLLM对齐数据构造与现有数据总结

广告推荐算法 - 学习笔记

文章目录 1、前言2、学习笔记2.1、什么是计算广告系统? 1、前言 本篇博客,是我用来记录学习广告推荐算法的一些笔记和总结。 参考内容: 1、王喆:"深度"学习计算广告 2、deepseek 2、学习笔记 2.1、什么是计算广告系统…

ENSP学习day10

NAT地址转换技术(一) NAT(Network Address Translation)地址转换技术是一种在计算机网络中常用的技术,在数据包从一个网络传输到另一个网络时,会对数据包中的源IP地址和目的IP地址进行修改的过程。这种技术…