仅仅通过提示词,GPT-4可以被引导成为多个领域的特定专家


The Power of Prompting:提示的力量,仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

微软研究院发布了一项研究,展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。

研究显示,GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2,并且优势显著。

研究表明,仅通过提示策略就可以有效地从通用基础模型中引发特定领域的专业知识。

以前,要想激发这些能力,需要使用特别策划的数据对语言模型进行微调,以在特定领域中达到最佳性能。

现在仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

Medprompt不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。45a4b74d392f0624cd1ce1c6e59e2395.jpeg研究的方法:Medprompt策略:研究中提出了一种名为“Medpromcpt”的方法,它结合了几种不同的提示策略来引导GPT-4。

Medprompt使用了三种主要技术:动态少量样本选择、自动生成的思维链(Chain of Thought,CoT)和选择重排集成(Choice Shuffle Ensembling)。

Medprompt 方法包括以下几个关键方面:

1、多样化提示:Medprompt 使用了多种不同类型的提示,以提高模型在医学领域问题上的表现。这些提示可能包括问题的不同表述、相关的背景信息、专业术语的解释等。

2、上下文学习:为了让模型更好地理解医学领域的特定上下文,Medprompt 使用了上下文学习技术。这意味着在给定的问题前后添加相关的信息,以帮助模型建立起更加全面的理解。

3、思维链条方法:这种方法鼓励模型在做出回答之前模拟一系列的思考步骤,类似于专业医生在诊断问题时的思维过程。这可以帮助模型更准确地识别关键信息并提出更合理的答案。

4、选择洗牌集成:这是一种提高模型表现的技术,它通过结合多个不同提示生成的回答来提高整体的准确性。通过这种方式,即使某些提示没有产生最佳答案,其他提示可能仍然能够提供有价值的信息。

5、跨数据集应用:Medprompt 被设计为可在多个不同的医学数据集上有效运作,从而增加了其适用性和灵活性。

这一方法的成功展示了利用创新的提示技术可以显著提升基础模型在专业领域的能力,从而为解决复杂问题提供了新的途径。基准测试这些技术被组合应用于不同的数据集,包括MedQA、MedMCQA、PubMedQA和MMLU的多个子集。在一项名为MedQA的研究中,使用Medprompt的GPT-4在没有集成的情况下,仅通过自动生成的CoT提示就比专家制作的CoT提示提高了3.1个百分点。

研究使用了MedQA数据集和MultiMedQA套件中的九个基准数据集来测试GPT-4在医学领域的表现。
通过这些测试,研究人员评估了GPT-4在医学知识方面的表现,并与专门为医学应用微调的模型进行了比较。

23e78bdbe699e98f17d5a7f1ce8fffdc.jpeg


性能评估研究结果显示,使用 Medprompt 的GPT-4

- 在MedQA数据集上的表现首次超过90%
- 在MultiMedQA套件的所有九个基准数据集上取得了最佳报告结果。
- 在MedQA上,与MedPaLM 2相比,GPT-4的错误率降低了27%。

dc7d42561ba94a037d93d3dbeba115d1.jpeg

Medprompt在多项基准测试中表现卓越,不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

此外,研究也进行了消融研究(Ablation Study),以评估Medprompt各组成部分的贡献度,并发现GPT-4自动生成的CoT、动态少量样本提示和选择重排集成分别对性能的提升有显著贡献。研究的意义
1、展示通用模型的领域专业性:这项研究证明了通用模型如GPT-4能够在没有特定领域微调的情况下,通过提示策略在特定领域(如医学)展现出专家级的能力。
这对于自然语言处理(NLP)领域是一个重要的进步,因为它表明通用模型可以通过适当的提示策略而不是通过昂贵的专门训练来适应特定的应用场景。

2、减少资源和成本:传统上,要使模型在特定领域表现出色,需要对其进行专门的微调,这通常涉及到使用专家标注的数据集和大量的计算资源。通过有效的提示策略,可以减少这种需求,从而为中小型组织提供了使用高级AI技术的可能性。

3、跨领域的应用潜力:研究还表明,这种提示方法在多个领域的专业能力考试中都显示出价值,这意味着其应用潜力不限于单一领域。

官方介绍:https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/论文:https://arxiv.org/abs/2311.16452

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/187163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

查看代码运行时间

#include<bits/stdc.h> signed main() {clock_t start_time clock();std::cout<<"hello\n";double tot_time double(clock() - start_time) / 1000; std::cout << "\n代码跑了" << tot_time << "秒";return 0; …

上海毅速丨新材料将推动3D打印在压铸行业的应用

压铸是一种应用广泛的制造工艺&#xff0c;它的制造原理是将液态或半液态金属&#xff0c;在高压作用下&#xff0c;以高速度填充压铸模具型腔&#xff0c;并在压力下快速凝固而获得铸件的一种方法。压铸模的设计和制造需要考虑到多方面的因素&#xff0c;如模具材料、结构、冷…

Java部署服务 Java -jar命令讲解

1. 当前ssh窗口被锁定&#xff0c;可按CTRL C打断程序运行&#xff0c;或直接关闭窗口&#xff0c;程序退出 #正常启动jar包 java -jar XXX.jar#当前ssh窗口被锁定&#xff0c;可按CTRL C打断程序运行&#xff0c;或直接关闭窗口&#xff0c;程序退出。 2. 当前ssh窗口不被锁…

探讨几种在CentOS 7上实现文件上传的方法

最近服务器过期了&#xff0c;把之前服务器的数据库都备份了下来&#xff0c;现在准备迁移各种服务&#xff0c;这就涉及到文件传输。之前用得多的都是xshell里的xtp来传&#xff0c;校园网禁用了ssh协议&#xff0c;还有一大堆乱七八糟的协议&#xff0c;我一般用的代理方法或…

redis sentinel 错误处理

环境 redis-ha主从部署到了k8s上 主从报错日志 主库日志 1:M 29 Nov 2023 07:00:19.277 # Diskless rdb transfer, done reading from pipe, 1 replicas still up. 1:M 29 Nov 2023 07:00:20.058 * Background RDB transfer terminated with success 1:M 29 Nov 2023 07:00…

利用python编写后端程序 通用代码详解 项目实现

前言 最近自己正好有时间&#xff0c;想要自己搭建微信小程序&#xff0c;也正好记录一下自己的搭建过程和内容。 搭建准备工作 这里我使用的时pycharm编辑器。在后端开发中&#xff0c;我们需要三个库&#xff1a; import pymysql from flask import request, Fl…

设计模式详解(二):抽象工厂——Abstract Factory

目录导航 抽象工厂及其作用工厂方法的好处工厂方法的实现关系图实现步骤 工厂方法的适用场景工厂方法举例 抽象工厂及其作用 工厂方法是一种创建型设计模式。所谓创建型设计模式是说针对创建对象方面的设计模式。在面向对象的编程语言里&#xff0c;我们通过对象间的相互协作&…

SAP SD 创建交货单 报错 VL461 VL248

因为生产环境已经被改好了&#xff0c;无法跟踪 所以换到测试环境重现一把&#xff0c;如何追根究底 对比正常订单发现 计划行 VBEP-LMENG,VBEP-BMENG这两个字段上的值跟 订单数量不一致。 尝试修改2者的数据跟订单数据一致&#xff0c;则可以正常创建交货单 实际原因是&a…

【每日一坑】KiCAD导Gerber 文件

第一&#xff0c;软件版本 第二、操作选择注意点 第三&#xff0c;那个坑。。。 不知道什么原因&#xff0c;这第二个框里会选其他不必要得一些东西&#xff0c;导致最终光绘是废的&#xff1b; 一定切记只选edge.cut就好了。 最后&#xff0c;上Gerber图&#xff0c;还有一点…

机器学习入门(第六天)——支持向量机(升维打击)

Support vector machines 知识树 Knowledge tree 苹果表示重点 间隔&#xff1a;使用了几何间隔&#xff0c;保证w b的度量&#xff0c;感知机则是函数间隔 间隔最大化思想&#xff1a;则是支持向量机的独有&#xff0c;这使得它找到最优超平面 核函数&#xff1a;面试当中可…

防火墙补充NAT

目录 1.iptables保存规则 2.自定义链 3.NAT NAT的实现分为下面类型&#xff1a; SNAT实验操作 DNAT实验操作 1.iptables保存规则 永久保存方法一&#xff1a; iptables -save > /data/iptables_rule //输出重定向备份 iptables -restore < /data/iptables_r…

EsayExcel的使用

EsayExcel的使用 引入依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>easyexcel</artifactId> <version>3.1.1</version> </dependency>类属性中的注解 # 默认下标从0开始&#xff0c;index可以不…

Windows安装Kafka3.6,单机

Kafka版本&#xff1a;kafka_2.13-3.6.0 Windows10系统 安装与配置 下载 kafka_2.13-3.6.0.tgz 下载并解压Kafka 3.6.0的压缩包到你选择的目录。 Kafka3.6.0下载链接https://kafka.apache.org/downloads 说明&#xff1a;Kafka3.6内置了Zookeeper&#xff0c;使用内置的Zo…

Ps:用好钢笔工具

使用钢笔工具时&#xff0c;应随时注意鼠标指针的形状。 ◆ ◆ ◆ 基本操作方法 1、绘制闭合路径 路径绘制结束时回到起点即可创建闭合路径。 2、绘制开放路径 想结束绘制时&#xff0c;按住 Ctrl 键点击画布空白处&#xff0c;或者&#xff0c;直接按 Esc 键&#xff0c;即可…

传统算法: Pygame 实现快速排序

使用 Pygame 模块实现了快速排序的动画演示。首先,它生成一个包含随机整数的数组,并通过 Pygame 在屏幕上绘制这个数组的条形图。接着,通过快速排序算法对数组进行排序,动画效果可视化每一步的排序过程。在排序的过程中,程序选择一个基准元素(pivot),将数组分成两部分,…

IP地址更改的方法及注意事项,让你的网络更安全稳定

在互联网时代&#xff0c;IP地址是我们上网时的身份标识&#xff0c;它可以追踪我们的上网行为和地理位置。然而&#xff0c;有时我们可能需要更改IP地址&#xff0c;以保护个人隐私&#xff0c;解决网络问题或绕过某些限制。那么&#xff0c;IP地址更改在哪里呢&#xff1f;虎…

腾讯云手动下发指令到设备-用于设备调试

打开腾讯云API Explorer&#xff0c;Publish Msg https://console.cloud.tencent.com/api/explorer?Productiotcloud&Version2021-04-08&ActionPublishMessagehttps://console.cloud.tencent.com/api/explorer?Productiotcloud&Version2021-04-08&ActionPub…

C#图像处理OpenCV开发指南(CVStar,04)——图片像素访问与多种局部放大效果的实现代码

​​​​​​​ 使用本文代码需要预先设置一点开发环境&#xff0c;请阅读另外一篇博文&#xff1a; C#图像处理OpenCV开发指南&#xff08;CVStar&#xff0c;03&#xff09;——基于.NET 6的图像处理桌面程序开发实践第一步https://blog.csdn.net/beijinghorn/article/deta…

RocketMQ-RocketMQ快速实战及集群原理

一、MQ简介 ​ MQ&#xff1a;MessageQueue&#xff0c;消息队列。是在互联网中使用非常广泛的一系列服务中间件。 这个词可以分两个部分来看&#xff0c;一是Message&#xff1a;消息。消息是在不同进程之间传递的数据。这些进程可以部署在同一台机器上&#xff0c;也可以分布…

Nashorn 简介

1. 引言 本文重点介绍 Nashorn – 从 Java 8 开始&#xff0c;JVM 的新默认 JavaScript 引擎。 许多复杂的技术已被用于使 Nashorn 的性能比其前身 Rhino 高出几个数量级&#xff0c;因此这是一个值得的改变。让我们来看看它的一些使用方式。 本文大部分内容翻译自&#xff1…