Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

相关链接:arxiv
关键字:Questioning LLaMAGPT-3.5/4guiding principlespromptinglarge language models

摘要

本文介绍了26个旨在简化查询和提示大型语言模型(Large Language Models, LLMs)过程的指导原则。我们的目标是简化为各种规模的大型语言模型制定问题、检验它们的能力并增强用户对于输入不同提示时不同规模的大型语言模型行为的理解的概念。我们在LLaMA-1/2(7B、13B和70B)、GPT-3.5/4上进行了广泛的实验,以验证所提出原则在指令和提示设计上的有效性。我们希望这项工作能为从事大型语言模型提示的研究人员提供更好的指导。项目页面位于GitHub。

核心方法

在这里插入图片描述

  • 简洁性和清晰性:避免过度冗长或含糊不清的提示,以免让模型混淆或导致不相关的回应。
  • 语境相关性:提示必须提供有助于模型理解任务背景和领域的相关语境。
  • 任务对齐:提示应与手头任务紧密对齐,使用清晰指示任务性质的语言和结构。
  • 示例演示:对于更复杂的任务,在提示中包含示例,展示期望的回应格式或类型。
  • 避免偏见:设计提示以减少激活模型由于其训练数据而固有的偏见。
  • 渐进式提示:对于需要一系列步骤的任务,提示可以逐步引导模型。

实验说明

  • 实验设置:评估是在ATLAS基准上进行的,这是一个手工制作的实验,用于评估原则提示。
  • 模型和指标:我们使用训练有素的LLaMA-1-{7,13},LLaMA-2-{7,13},LLaMA-2-70B-chat,GPT-3.5 (ChatGPT) 和 GPT-4 作为基础模型。我们将这些模型分为不同规模:小规模(7B模型),中等规模(13B)和大规模(70B,GPT-3.5/4)。
提升
  • 提升结果显示,纳入所引入的原则后所有原则都能显著改善三个规模LLMs的表现力。特别是对于原则14,在所有它适用的问题上表现出改进。
正确性
  • 绝对准确率:检验各种规模模型在应用原则后的绝对性能。普遍来说,这些模型在平均性能上达到了20%-40%的准确性。特别是对于小规模和中等规模模型来说,准确性通常可以达到10%-40%,对于大型模型,准确性可以超过40%。

结论

我们通过详尽的分析展示了26个原则,这些原则提高了LLM关注输入上下文的关键要素的能力,从而生成高质量的回应。通过在处理输入之前用精心制作的原则引导LLM,可以鼓励模型产生更优质的回应。我们的经验结果证明,这一策略可以有效地重塑可能损害输出质量的上下文,从而增加回应的相关性、简洁性和客观性。

未来的研究方向众多。在我们的实验中,我们使用了限制性提示方法来应用这些原则。有潜力进一步校准我们的基础模型,以与我们的原则说明更加吻合,例如通过微调、强化学习、直接偏好优化或使用我们生成的数据集进行不同的提示方法。此外,证明成功的策略可以被集成到标准的LLM操作中,例如通过微调具有原始/原则提示为输入和擦亮、原则回应为训练目标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/745470.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自然语言处理NLP:tf-idf原理、参数及实战

大家好,tf-idf作为文体特征提取的常用统计方法之一,适合用于文本分类任务,本文将从原理、参数详解和实际处理方面介绍tf-idf,助力tf-idf用于文本数据分类。 1.tf-idf原理 tf 表示词频,即某单词在某文本中的出现次数与…

力扣 322 零钱兑换

题目描述 给定不同面额的硬币 coins 和一个总金额 amount。编写一个函数来计算可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额,返回 -1。 你可以认为每种硬币的数量是无限的。 示例 1: 输入:coins [1, 2, 5…

x6.js 从流程图组件库中拖拽组件到画布dnd使用

上一篇已经了解到了x6.js常用功能以及使用方法。但我们使用流程图的时候还少不了一个非常重要的功能那就是拖拽组件库里的组件进来。如下图: 首先是布局这块,拖拽组件库的视图中布局无需我们去写,我们只需把界面搭建好。 添加组件库 1.搭建布…

Python 基于 OpenCV 视觉图像处理实战 之 图像相关的基本概念,以及图像的基础操作 二

Python 基于 OpenCV 视觉图像处理实战 之 图像相关的基本概念,以及图像的基础操作 二 目录 Python 基于 OpenCV 视觉图像处理实战 之 图像相关的基本概念,以及图像的基础操作 二 一、简单介绍 二、图像的几何变换 三、插值算法 1、最近邻插值算法 …

java kafka客户端何时设置的kafka消费者默认值

kafka为什么有些属性没有配置却能正常工作,那是因为kafka-clients对有些消费者设置了默认值,具体看下ConsumerConfig类的静态模块,具体如下所示: kafka为什么有些属性没有配置却能正常工作,那是因为kafka-clients对有…

AJAX 02 案例、Bootstrap框架

AJAX 学习 AJAX 2 综合案例黑马 API01 图书管理Bootstrap 官网Bootstrap 弹框图书管理-渲染列表图书管理-添加图书图书管理-删除图书图书管理 - 编辑图书 02 图片上传03 更换图片04 个人信息设置信息渲染头像修改补充知识点:label扩大表单的范围 AJAX 2 综合案例 黑…

【FPGA】DDR3学习笔记(二)丨从SDRAM到DDR3的IP核设计

本篇文章包含的内容 一、DDR SDRAM1.1 基本概述1.2 工作时序(以读取为例) 二、DDR2 SDRAM2.1 基本概述2.2 工作时序 三、DDR3 SDRAM3.1 基本概述3.2 硬件设计3.3 读写时序3.4 MIG IP核设计3.5 读写代码设计 开发板:正点原子的达芬奇开发板&am…

【Leetcode每日一题】 递归 - 合并两个有序链表(难度⭐)(35)

1. 题目解析 题目链接:21. 合并两个有序链表 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了。 2.算法原理 1. 递归函数定义与功能 递归函数的主要任务是将两个有序链表合并成一个新的有序链表,并返回合并后…

Git 学习笔记 三个区域、文件状态、分支、常用命令

Git 学习 GitGit概念VS Code中使用仓库(repository)示例 Git 使用时的三个区域示例 Git 文件状态示例 Git 暂存区示例 Git 回退版本删除文件忽略文件示例 分支分支的使用分支的合并与删除分支的合并冲突 Git常用命令Git远程仓库 (HTTP)步骤远程仓库 克隆…

【Linux】Linux命令速查表

Linux 命令列表 – 目录 文件和目录操作命令 文件权限命令文件压缩和归档命令进程管理命令系统信息命令 联网命令 IO重定向命令环境变量命令 用户管理命令 快捷键命令列表 Bash 快捷键命令 Nano 快捷键命令 VI 快捷键命令 Vim 快捷键命令Linux 命令备忘单常见问题解答 1. 文件和…

[linux]信号处理:信号编码、基本API、自定义函数和集合操作的详解

一、信号的概述 1、定义 信号是 Linux 进程间通信的最古老的方式。信号是软件中断,它是在软件层次 上对中断机制的一种模拟,是一种异步(不等待)通信的方式 。信号可以导致一个正在运行的进程被 另一个正在运行的异步进程中断&a…

PyCharm创建一个简单的Django项目

1.Django简介 Django 是一个开放源代码的 Web 应用程序框架,由 Python 编写而成。它遵循 MVC(模型-视图-控制器)的软件设计模式,采用了 MTV(模型-模板-视图)的架构。Django 的设计目标是使开发复杂的、数据…

【MATLAB源码-第162期】基于matlab的MIMO系统的MMSE检测,软判决和硬判决误码率曲线对比。

操作环境: MATLAB 2022a 1、算法描述 MIMO系统(Multiple-Input Multiple-Output,多输入多输出系统)是现代无线通信技术中的关键技术之一,它能够显著增加通信系统的容量和频谱效率,而不需要增加额外的带宽或发射功率。在MIMO系统…

边缘计算全面概述

什么是边缘计算? 边缘计算是一种分布式计算概念,将智能集成到边缘设备(边缘节点)中,使数据能够在数据采集源附近实时处理和分析。由于边缘计算在网络边缘本地处理数据,而不是在云端或集中式数据中心&#…

云端巨擘:大数据与云计算的时代航向

文章目录 大数据时代大数据特点(4v1C大数据与云计算的关系 云计算云计算定义云计算特点云计算分类(服务类型)云计算实现机制云计算体系结构云计算的管理中间件层 大数据时代 大数据定义:海量数据或巨量数据,其规模巨大到无法通过…

学生时期学习资源同步-1 第一学期结业考试题9

原创作者:田超凡(程序员田宝宝) 版权所有,引用请注明原作者,严禁复制转载

ArrayList 是如何进行扩容的?

典型回答 ArrayList 在添加元素时,会自动进行扩容操作,它的执行步骤如下: 当 ArrayList 的内部数组空间不足以容纳新增的元素时,会触发扩容机制。ArrayList 会创建一个新的更大的数组,通常是当前数组长度的 1.5倍 (可…

LAMP网站部署(Discuz论坛网站部署)

目录 mysql命令 语法 选项 参数 实例 安装php 安装Mariadb 关掉防火墙和selinux 启动HTTP服务 初始化数据库 查看数据库是否创建成功 修改HTTP的配置文件 浏览器打开 将以下所有目录都加上权限 最后首页效果 mysql命令 是MySQL数据库服务器的客户端工具,它工作在命…

从根到叶:深度理解哈希表

​​​​​​​ 一.哈希表的概念 关于查找元素时: 在顺序结构以及平衡树 中,元素关键码与其存储位置之间没有对应的关系,因此在 查找一个元素时,必须要经过关键 码的多次比较 。 顺序查找时间复杂度为 O(N) ,平衡树中…

Acwing-基础算法课笔记之动态规划(背包问题)

Acwing-基础算法课笔记之动态规划(背包问题) 一、01背包问题1、概述2、过程模拟 二、完全背包问题1、概述2、闫氏dp分析完全背包问题3、过程模拟代码模板 三、多重背包问题1、概述2、过程模拟3、多重背包问题的优化版本 分组背包问题1、概述2、过程模拟3…