提示词工程入门-使用文心一言4.0-通义千问-GPT4-Claude3通用提示技巧测试

提示词工程基础🚀

       在了解完了大语模型的基本知识,例如API的使用多轮对话,流式输出,微调,知识向量库等知识之后,接下来需要进一步补足的一个大块就是提示词工程,学习和了解提示词工程除了基本的提示词类型之外,不同的大模型对于提示词工程润色之后的提示词的反应如何,也是比较值得关注的一点,因此本文使用文心一言4.0,通义千问,ChatGPT4, Claude3,四种模型来实验一下各类的提示词


文章目录

  • 提示词工程基础🚀
  • 1.什么是提示词工程
  • 2.提示词要素
  • 3.提示词的通用技巧
    • 3.1 在提示词中明确指令
      • 3.1.1 输入基础和改进之后的提示词模型的输出
      • 3.1.2 结果对比分析
    • 3.2 具体描述输出所要的格式
      • 3.2.1 输入基础和改进之后的提示词模型的输出
      • 3.2.2 结果对比分析
    • 3.3精确描述想要的内容不要概括
      • 3.3.1 输入基础和改进之后的提示词模型的输出
      • 3.3.2 结果对比分析
    • 3.4 以鼓励的方式向大模型提问
      • 3.4.1 输入基础和改进之后的提示词模型的输出
      • 3.4.2 结果对比分析
  • 4.整体结果分析
  • 结束


https://www.promptingguide.ai/zh
在这里插入图片描述
       首先分享一个网站这是我在谷歌上搜索到的,一个非常好的提示词学习网站,不但由简单到难的总结了提示词工程中的各种概念要素和提示词的各类技术,后面还包括了一些工具,笔记,还有一些提示词领域的优秀的论文,并不断的对论文进行更新,根据这个网站的逻辑,这篇文章首先测试一下其中的通用提示词技巧,最如果有什么错误或者不完善的非常欢迎沟通交流。

1.什么是提示词工程


这里先引用上面的提示词指南中对提示词工程的介绍:

提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。

我个人的感觉的话就是针对不同类型的问题然后找出一些通用的提示结构从而让回答的正确率和质量更高。

2.提示词要素


这里我认为提示词指南网站里的解释非常好,我就直接给粘过来,然后补充点自己的理解。
在这里插入图片描述
提示词的四要素:

指令:想要模型执行的特定任务或指令。

上下文:包含外部信息或额外的上下文信息,引导语言模型更好地响应。

输入数据:用户输入的内容或问题。

输出指示:指定输出的类型或格式。

一般来说我们在使用大模型的时候,都是直接输入指令和数据,但是如果能有效的提供上下文和输出格式,则一般而言回答的质量会更高。

3.提示词的通用技巧


3.1 在提示词中明确指令

在这里插入图片描述
明确指令的过程中的要点如下:

  • 使用例如“写入”、“分类”、“总结”、“翻译”、“排序”等明确的提示词
  • 将“###指令###”放在开头

接下来我们分别测试三种

将“hello!”翻译成西班牙语
将以下文本翻译成西班牙语:
文本:“hello!”
### 指令 ###
将以下文本翻译成西班牙语:
文本:“hello!”

为了避免多轮对话的记忆,因此每次实验都新开一个会话


3.1.1 输入基础和改进之后的提示词模型的输出

文心一言

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


ChatGPT4

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.1.2 结果对比分析


       下面是我自我感受的一个测试结果,纯个人感受,文心一言的基础效果给差是因为,只有文心一言的基础结果输出时候,翻译出的西班牙语少了开头的一个符号(但我不知道重要不重要不太懂西班牙语),剩下的情况翻译的情况都基本是正确的,虽然额外的表示方式或是信息不同。

模型名称基础效果使用提示技巧效果特点相关任务推荐建议
文心一言4.0良好不是很推荐
通义千问良好良好只输出结果需要精简回答时推荐
GPT4良好良好结果前会铺垫一句描述对话场景推荐
Claude3良好良好会自动切换回答语言需自动切换语言时推荐

3.2 具体描述输出所要的格式

在这里插入图片描述
接下来测试两种文本:

提取以下文本中的地名。
输入:“虽然这些发展对研究人员来说是令人鼓舞的,但仍有许多谜团。里斯本未知的香帕利莫德中心的神经免疫学家 Henrique Veiga-Fernandes 说:“我们经常在大脑和我们在周围看到的效果之间有一个黑匣子。”“如果我们想在治疗背景下使用它,我们实际上需要了解机制。”
提取以下文本中的地名。
所需格式:
地点:<逗号分隔的公司名称列表>
输入:“虽然这些发展对研究人员来说是令人鼓舞的,但仍有许多谜团。里斯本未知的香帕利莫德中心的神经免疫学家 Henrique Veiga-Fernandes 说:“我们经常在大脑和我们在周围看到的效果之间有一个黑匣子。”“如果我们想在治疗背景下使用它,我们实际上需要了解机制。”

3.2.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述


GPT4

在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述

3.2.2 结果对比分析

       在通用提示词中明确指令前文测试结果,这里两个地名都识别出来了我认为是正确,然后识别出来一个的我就给了差。然后较好是有时候正确有时候错误我就给了较好。

模型名称基础效果使用提示技巧效果特点相关任务推荐建议
文心一言4.0不是很推荐
通义千问良好较好不改进提示词前正确,改进有时正确有时错误推荐不改进提示词使用
GPT4不是很推荐
Claude3良好不改进之前错误,改进之后正确推荐改进提示词之后使用

3.3精确描述想要的内容不要概括

在这里插入图片描述

向高中学生解释提示工程的概念。
使用 2-3 句话向高中学生解释提示工程的概念。

3.3.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述

在这里插入图片描述


通义千问

在这里插入图片描述

在这里插入图片描述


ChatGPT4

在这里插入图片描述

在这里插入图片描述


Claude3

在这里插入图片描述

在这里插入图片描述

3.3.2 结果对比分析

然后由于这是一个开放性问题没有正确答案,大家总结的也都不错但是有个明显的区别。

  • 国内的两个模型文心一言和通义千文把提示工程认为是一种提示作用的行为然后讲述出来
  • 国外的两个模型把提示工程认为提示工程是大模型中的提示词工程而进行输出描述。

我个人认为在这方面国外的两个模型的表现要更好或者更符合当前科技背景一些。


3.4 以鼓励的方式向大模型提问

在这里插入图片描述
测试的两个文本如下

以下是向客户推荐电影的代理程序。不要询问兴趣。不要询问个人信息。客户:请根据我的兴趣推荐电影。
代理:
以下是向客户推荐电影的代理程序。代理负责从全球热门电影中推荐电影。它应该避免询问用户的偏好并避免询问个人信息。如果代理没有电影推荐,它应该回答“抱歉,今天找不到电影推荐。”
顾客:请根据我的兴趣推荐一部电影。
客服:

3.4.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述
在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述


ChatGPT4-以鼓励的方式向大模型提问

在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述

3.4.2 结果对比分析

这里除了GPT4,其他模型都没有完成拒绝推荐的指令,因此GPT在理解复杂指令方面还是表现出了领先的优势。

4.整体结果分析


  • 随着大模型的发展,提示词工程的通用技巧之后的模型绝大多数情况下都好于改善了之前,但也有更差的情况,个人认为随着大模型的发展,提示词工程的作用在不断的降低。如果把上述四种提示词基础功能分别对应四种任务的话我粗略的给每个模型排个名仅供参考
模型名称明确指令任务中实体识别任务精确内容任务附加条件任务综合排名(求和)
文心一言4.043324
通义千问11323
GPT413111
Claude312121
  • GPT在中文实体识别任务中不如通义千问和Claude3其他任务中全处在最优水平,而且在理解复杂逻辑方面遥遥领先
  • Claude各方面能力相当均衡没有明显的短板
  • 国产模型在整体能力上距离世界领先水平还有一段空间,加油我们自己大模型一定会越来越好。

结束


这个对比就到这,毕竟花了好多钱开了这这些大模型,争取把能测试都测试一遍,后面从零样本提示开始做实验,进一步看一下各个模型在面对复杂情况下表现和提示词能起到的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/4836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用GaussDB的可观测性能力构建故障模型

D-SMART高斯专版已经开发了几个月了&#xff0c;目前主要技术问题都已经解决&#xff0c;也能够初步看到大概的面貌了。有朋友问我&#xff0c;GaussDB不已经有了TPOPS了&#xff0c;为什么你们还要开发D-SMART高斯专版呢&#xff1f; 实际上TPOPS和D-SMART虽然都可以用于Gaus…

实验案例二:配置Trunk,实现相同VLAN的跨交换机通信

1.实验环境 公司的员工人数已达到100人&#xff0c;其网络设备如图12.13所示。现在的网络环境导致广播较多 网速慢&#xff0c;并且也不安全。公司希望按照部门划分网络&#xff0c;并且能够保证一定的网络安全性 其网络规划如下: PC1和 PC3为财务部&#xff0c;属于 VLAN 2&…

MySQL库表占用空间排序

在进行数据库备份恢复时&#xff0c;经常会碰到耗时很长的问题。大概率是因为某些库表的占用空间太大。 以下语句按照库表占用空间大小&#xff0c;进行降序排序&#xff1a; SELECT table_schema AS Database,table_name AS Table,ROUND((data_length index_length) / 1024…

Json数据概念及C# 环境下的序列化、反序列化操作

什么是Json&#xff1f; JSON的全称是JavaScript Object Notation&#xff0c;是一种轻量级的数据交换格式&#xff0c;主要用于数据的序列化和交互。常用于Web中&#xff0c;其他领域也经常出现JSON的身影。 与xml相比&#xff0c;更快&#xff0c;更小&#xff0c;更容易解析…

Linux搭建局域网私有yum仓库/配置本地光盘镜像仓库/搭建公有yum仓库--7700字详谈

帮助与补全功能 1.补全 yum &#xff08;options&#xff09;COMMAND check check-update clean deplist downgrade erase fs fssnapshot groups help history info install list makecache provides reinstall repo-pkgs repolist search shell swap update update-minimal …

【数学建模】DVD在线租赁

2005高教社杯全国大学生数学建模竞赛题目B 随着信息时代的到来&#xff0c;网络成为人们生活中越来越不可或缺的元素之一。许多网站利用其强大的资源和知名度&#xff0c;面向其会员群提供日益专业化和便捷化的服务。例如&#xff0c;音像制品的在线租赁就是一种可行的服务。这…

如何有效的将丢失的mfc140u.dll修复,几种mfc140u.dll丢失的解决方法

当你在运行某个程序或应用程序时&#xff0c;突然遭遇到mfc140u.dll丢失的错误提示&#xff0c;这可能会对你的电脑运行产生一些不利影响。但是&#xff0c;不要担心&#xff0c;以下是一套详细的mfc140u.dll丢失的解决方法。 mfc140u.dll缺失问题的详细解决步骤 步骤1&#x…

【TDengine】mac m1解决no taos in java.library.path

前言 使用macos搭建springbootmybatisplus&#xff0c;通过mqtt将数据更新到tdenigne 3.2.3&#xff0c;数据源使用远程服务器的tdengine。 问题 启动时报错&#xff1a; Caused by: java.lang.UnsatisfiedLinkError: no taos in java.library.path 以下是官方文档 打开本…

华为校招机试 - 满二叉搜索树查找(20240424)

在线OJ测试 题目详情 - 满二叉搜索树查找 - HydroOJ 题目描述 给定 (2^n) - 1 个不同的整数(1 ≤ n ≤ 10,n 为整数),构建一棵平衡满二叉搜索树。 二叉搜索树定义如下: 节点的左子树只包含小于当前节点的数节点的右子树只包含大于当前节点的数所有左子树和右子树自身必…

RCE复习(ctfhub下)

先了解一下命令注入的知识点&#xff1a; 知识点 1、常见的拼接符 A ; B 先执行A&#xff0c;再执行BA & B 简单的拼接A | B 显示B的执行结果A&&B A执行成功之后才会执行BA || B A执行失败之后才会执行B , 在特殊情况下可代替空格…

算法学习002-填数游戏 中小学算法思维学习 信奥算法解析 c++实现

目录 C填数游戏 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 七、推荐资料 C填数游戏 一、题目要求 1、编程实现 在小学奥数中经常会看到一些填数字的游戏&#xff0c;如下图所示&#xff0c;其中每个…

【PostgreSQL】pg触发器介绍

注: 本文为云贝教育 刘峰 原创&#xff0c;请尊重知识产权&#xff0c;转发请注明出处&#xff0c;不接受任何抄袭、演绎和未经注明出处的转载。 触发器是在对指定表执行指定更改操作&#xff08;SQL INSERT、UPDATE、DELETE 或 TRUNCATE 语句&#xff09;时自动运行的一组操作…

3个IE还不够?誉天大牛学员:我要学5个!

乔同学 誉天4HCIERHCA学员 2018年盛夏&#xff0c;在那个充满了炙热与躁动的青春里&#xff0c;因为考HCIA-R&S&#xff0c;我和誉天相遇了。我想&#xff0c;大概是从那个时候开始&#xff0c;命运的齿轮便发生了转动&#xff0c;为我打开了通往ICT的大门。 时至今日&…

vue2左侧菜单栏收缩展开功能

目录 1. Main.vue页面代码 a. 修改侧边栏属性 b. 修改头部导航栏 c. 定义我们的变量 d. collapse函数 2. Header.vue页面代码 3. Aside.vue页面代码 vue2左侧菜单栏收缩展开目前是非常常见的&#xff0c;我们在日常开发过程中经常会碰到。这一小节我们就详细了解一下这个…

如何使用PHPMyAdmin进行数据库备份

本周有一个客户&#xff0c;购买Hostease的虚拟主机&#xff0c;询问我们的在线客服&#xff0c;如何使用PHPMyAdmin进行数据库备份。我们为用户提供教程&#xff0c;用户很快完成了设置。在此&#xff0c;我们分享这个操作教程&#xff0c;希望可以对您有帮助。 它适用于安装P…

笔试刷题-Day10

牛客 一、DP30买卖股票的最好时机&#xff08;一&#xff09; 算法&#xff1a;虽然题目标了DP但是用贪心更快页更容易理解 import java.util.Scanner;// 注意类名必须为 Main, 不要有任何 package xxx 信息 public class Main {public static void main(String[] args) {Sca…

动态规划-子序列问题1

文章目录 1. 最长递增子序列&#xff08;300&#xff09;2. 摆动序列&#xff08;376&#xff09;3. 最长递增子序列的个数&#xff08;673&#xff09;4. 最长数对链&#xff08;646&#xff09; 1. 最长递增子序列&#xff08;300&#xff09; 题目描述&#xff1a; 状态表…

气血足不足主要看看两个部位这些补气血的调理方法帮到您

气血足不足&#xff0c;关键看这两处&#xff1a;1、观耳识气血&#xff1a;红润饱满&#xff0c;弹性十足&#xff0c;这便是气血旺盛的直观表现。然而&#xff0c;随着年龄的增长&#xff0c;许多人会发现耳朵逐渐松弛、出现皱纹&#xff0c;这往往暗示着气血的流失。这里有个…

电路邱关源学习笔记——3.5回路电流法

1.回路电流法 以基本回路中沿回路连续流动的假想电流为未知量列写电路方程分析电路的方法。它适用于平面和非平面电路。 列写的方程 回路电流法是对独立回路列写KVL方程&#xff0c;方程数为&#xff1a;b-n1 注意&#xff1a;与支路电流法相比&#xff0c;方程数减少了n-1个…

机器人操作系统ROS2学习—编译工作空间colcon build报错问题

在ROS2中&#xff0c;工作空间创建完成后&#xff0c;会经常需要编译工作空间。在工作空间dev_ws 下打开一个终端&#xff0c;通过指令Colcon build来编译工作空间。 1、这个过程有可能会出现如下错误: "colconbuild:Duplicate package names not supported" 根据…