Learn Prompt-GPT-4:能力

GPT-4能力大赏​

常识知识推理​

一个猎人向南走了一英里,向东走了一英里,向北走了一英里,最后回到了起点。他看到了一只熊,于是开枪打了它。这只熊是什么颜色的? 答案是白色,因为这种情况只可能发生在北极,那里生活着北极熊。在这种情况下, GPT-4 正确地识别了这些事实,并得出结论,熊是白色的,而它的前身 ChatGPT 放弃了并说“我不知道” 

table1

我驾驶一架飞机离开我的营地,直接向东飞行 24901 英里,然后回到营地。当我回到营地时,看到一个老虎在我的帐篷里吃我的食物!这只老虎是什么物种? 答案是任何生活在赤道上的老虎物种,例如孟加拉虎和苏门答腊虎。AI 系统需要知道地球赤道长 24901 英里,只有在赤道上才能向东或向西行驶并返回同一点,以及哪些老虎物种生活在赤道上。同样,GPT-4 成功地找到了关键信息并解决了谜题,而 ChatGPT 立即放弃了 

table1

编码能力​

让GPT-4生成数据可视化代码 

table1

让 GPT-4 使用模糊的规格要求,用 HTML 和 JavaScript 编写一个 2D 坦克战争游戏。游戏涉及复杂的逻辑和状态管理,包括敌人、玩家、炮弹和墙壁对象的逻辑,以及碰撞的逻辑。再次,GPT-4 生成了一个完全功能的游戏,甚至添加了“常识”未指定的细节,如“炮弹应在撞击墙壁后消失”。它还能够根据用户的请求编辑游戏。相比之下,ChatGPT 不仅拒绝创建游戏,而且生成了一个不会根据 WASD 键移动的正方形和三角形的代码。它根本不动,只有在按下“d”键时向下指,并在按下“a”键时向上指(即使这也是错误的,因为“w”应该向上指,“s”向下指)。

table1

我们要求 GPT-4 和 ChatGPT 预测和解释一个 C 程序的输出,该程序需要打印两个结构的大小。GPT-4 正确地解释了输出可能因编译器使用的对齐规则而异,并给出了一个可能具有 4 字节对齐的输出示例。ChatGPT 忽略了对齐问题,给出了错误的输出,并且还做出了一个关于顺序不影响结构大小的错误陈述。 

table1

数学能力​

两个模型都意识到拉格朗日乘数法在这个问题中很有用(这种策略适用于在约束条件下最小化某个表达式的问题)。虽然 ChatGPT 以错误的方式应用了这种方法(如果是人类,可能会被视为缺乏理解力),但 GPT-4 提出了一个合理的论证。 

table1

对隐函数的求导,GPT-4 正确应用隐函数求导法,考虑到 y 和 x 的导数之间的依赖关系。ChatGPT 的答案以“我们可以使用链式法则”开始,这与此问题无关,并特征是继续附以大多不连贯的论证。 

table1

视觉能力​

使用 Javascript 生成一个 3D 模型。我们用提示语「一个由浮岛、瀑布和桥梁组成的幻想景观,天空中有一只飞龙和一个位于最大岛上的城堡」来对 GPT-4 发出指令。与 2D 实验类似,我们要求 GPT-4 以各种方式修改 3D 模型,如添加、重新定位、重新着色对象和改变飞龙的轨迹等。 

table1

音乐​

当被指示生成一个简短的曲调(下图)时,模型能够生成有效的 ABC 符号。这个曲调有一个清晰的结构,小节之间的拍子一致,音符遵循逐渐上升和下降的模式。曲调还使用了一组一致的音符,节奏有重复的模式。然而,模型似乎没有获得理解和声的技能。事实上,在生成的曲调中,连续的音符几乎总是相邻的(即,跟在 C 后面的音符通常是 B 或 D),在测试了 10 个生成的曲调后,我们无法提取任何清晰的和弦或琶音。

table1

做题能力​

在日常普通的对话任务中,GPT-4和GPT-3.5的差距是非常小的,而随着任务复杂性的增加,GPT-4的优势就会显现出来,它会更可靠更有创造力,并且能处理更细微的指令。OpenAI官方为了验证GPT-4和GPT-3.5的区别, 专门收集了一些考试的问题,比如奥赛的题目,美国AP课程、SAT考试等题目来让模型来做。由于模型预训练的数据集太大了,OpenAI的研究员还专门分开了两个测试版本,一个是直接让模型做题出分数,另一个是把在预训练集中可能出现过的题目去除,让模型去做它没见过的题目,两者取较低分的那个作为模型的考试分数来增加说服力。

下图中展示的是GPT模型的考试结果,横坐标为考试科目,纵坐标为在这些考试中排名的百分比。GPT-4 在大多数考试中都超过了GPT3.5。

table1

table1

然而很有意思的是, 在AP English Writing的这项考试中,模型的分数并不高。根据我们平时使用GPT最常用最强大的功能是用来生成各种文案和语言润色,然而在英语写作考试中,GPT的表现并没有表现的很好,我们猜测GPT没有诞生真正的智能,它还没有真的思考能力,在文本生成的时候很多时候说的话都是很空洞的,这样的文章如果在写作考试中很难拿到足够的高分。

除此之外,GPT在数学方面的能力较差。

当然,在传统的自然语言处理的一些任务的benchmark上,GPT-4还是把榜单都刷新了一遍。 

table1

多语言能力​

除了英文之外,GPT-4在其他语言方面也有优秀的表现,包括了繁体和简体中文,根据下图可以看到在26种语言中,有24种语言GPT-4的表现超越了GPT-3.5和其他的一些语言模型,其中还包括了一些没有什么训练数据的语种(Latvian,Welah, Swahili)。虽然不知道GPT-4的训练预料中有多少语种,但有一些开源的只使用英文预训练的语言模型也具有多语言的能力,这点非常的有意思。 

table1

视觉能力​

GPT-4拥有可以接受图片输入作为Prompt,然后生成文本,CoT(思维链), in-context learning 在图像方面也适用,不过可惜的是图像输入的功能目前GPT-4还在内测,没有公开给大家测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/85410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gin学习记录4——Controller和中间件

一. Controller 用不同的Controller可以实现业务的分类,不同类型的请求可以共用同一套中间件 1.1 单文件Controller 几乎等同于函数封装,直接将ctrl的代码写入到一个文件里然后调用: package adminimport ("net/http""git…

数据结构与算法(六)--链表的遍历,查询和修改,删除操作

一、前言 上篇文章我们了解了链表的概念以及链表底层的搭建以及向链表中添加元素的操作。本次我们继续学习链表剩余的操作:遍历,查询和修改、删除操作。 二、链表查询以及遍历 ①获得链表的第index(0-based)个位置的元素(不常用&#xff0…

MySQL详细案例 1:MySQL主从复制与读写分离

文章目录 1. MySQL主从复制1.1 使用场景1.2 MySQL的复制类型1.3 主从复制的作用1.4 主从复制的工作过程1.5 实现MySQL主从复制1.5.1 前置准备1.5.2 主服务器mysql配置1.5.3 从服务器1 mysql配置1.5.4 从服务器2 mysql配置1.5.5 测试 1.6 主从复制的3种同步模式1.6.1 异步复制&a…

微信小程序底部安全区域高度获取

CSS 属性 safe-area-inset-bottom safe-area-inset-bottom 就是安全区的高度 padding-bottom:env(safe-area-inset-bottom); wx.getSystemInfoSync() wx.getSystemInfoSync()可以获取系统信息 let system wx.getSystemInfoSync() let bottomSafe system.screenHeight -…

一招解除csdn复制限制

先看这个代码 python读取英文pdf翻译成中文pdf文件导出代码 想要复制代码,csdn有限制怎么办(csdn流氓,无耻) 解除方法 ctrlu 看效果

Linux启动过程详解 Xmind导图笔记

参考大佬博客: 简要描述linux系统从开机到登陆界面的启动过程 Linux启动过程详解 Bootloader详解 来源:从BIOS开始画图了解Linux启动过程——老杨Linux

TSINGSEE视频AI智能分析技术:水泥厂安全生产智能监管解决方案

一、方案背景 随着人工智能技术的快速发展以及视频监控系统在全国范围内的迅速推进,基于AI视频智能分析技术的智能视频监控与智慧监管系统,也已经成为当前行业的发展趋势。在工业制造与工业生产领域,工厂对设备的巡检管理、维护维修、资产管…

【全志V3s】SPI NAND Flash 驱动开发

文章目录 一、硬件介绍V3s的启动顺序 二、驱动支持U-Boot驱动主线 Linux 驱动已经支持 三、烧录工具 xfel四、构建U-Boot(官方的Uboot)先编译一下开始spi nand flash 代码层面的适配修改menuconfig配置ARM architecture配置Support for SPI Nand Flash o…

rabbitMQ (1)

文章目录 1. RabbitMQ 介绍1.1 几个重要概念1.2 RabbitMq 的工作原理 2 RabbitMQ 安装3. RabbitMQ 入门操作3.1 添加依赖3.2 生产者代码3.3 消费者代码 4. Work Queues5. 管理端页面创建队列 1. RabbitMQ 介绍 引用 : RabbitMQ 是一个消息中间件:它接受…

Xilinx FPGA 程序固化重新上电程序不运行的问题

问题描述 FPGA直接下载bit文件,功能正常。 FPGA擦除FLASH,烧写FLASH,正常。 电源断电,重新上电,FALSH里面的程序没有启动,FPGA程序没有跑起来。–FLASH启动不正常。 解决办法 在XDC约束文件里边增加约束: ## Configuration options, can be used for all designs se…

[Linux入门]---Linux项目自动化构建工具-make/Makefile

目录 1.背景2.make指令输入make默认为Makefile文件第一条指令执行Makefile文件对gcc指令特殊处理及原理特殊符号 3.总结 1.背景 会不会写makefile,从一个侧面说明了一个人是否具备完成大型工程的能力一个工程中的源文件不计数,其按类型、功能、模块分别放…

CNN(九):Inception v3算法实战

🍨 本文为🔗365天深度学习训练营 中的学习记录博客 🍖 原作者:K同学啊|接辅导、项目定制 1 理论基础 Inception v3论文 Inception v3由谷歌研究员Christian Szegedy等人在2015年的论文《Rethinking the Inception Architecture f…

Jmeter集成到jenkins

Jmeter集成到Jenkins Jmeter集成到Jenkins. 1 软件下载... 4 一:环境配置... 4 1.JDK安装:... 4 配置JDK环境变量... 5 2.Jmeter安装:... 5 配置jmeter环境变量... 6 3.安装Ant 7 配置Ant环境变量... 7 4.Git安装:... 8 配置git环境…

Untiy UDP局域网 异步发送图片

同步画面有问题,传图片吧 using System.Text; using System.Net.Sockets; using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.Events; using System.Net; using System; using System.Threading.Tasks; using Sy…

java内嵌浏览器CEF-JAVA、jcef、java chrome

java内嵌浏览器CEF-JAVA、jcef、java chrome jcef是老牌cef的chrome内嵌方案,可以进行java-chrome-h5-桌面开发,下面为最新版本(2023年9月22日10:33:07) JCEF(Java Chromium Embedded Framework)是一个基于…

Cesium 空间量算——生成点位坐标

文章目录 需求分析1. 点击坐标点实现2. 输入坐标实现 需求 用 Cesium 生成点位坐标,并明显标识 分析 以下是我的两种实现方式 第一种是坐标点击实现 第二种是输入坐标实现 1. 点击坐标点实现 //点位坐标getLocation() {this.hoverIndex 0;let that this;this.view…

板子接线图

1.ST-LINK V2接线 2.对抗板子刷蓝牙固件 接USB转TTL,用镊子短接两个孔 2.对抗板子用串口测试蓝牙AT命令 短接白色箭头,接TX,RX,电源

MongoDB【部署 04】Windows系统实现MongoDB多磁盘存储

Windows系统实现多磁盘存储 1.为什么2.多磁盘存储2.1 数据库配置2.2 文件夹磁盘映射2.3 创建新的数据集 3.总结 1.为什么 这里仅针对只有一台Windows系统服务器的情景: 当服务器存储不足时,或者要接入更多的数据,就会挂载新磁盘&#xff0c…

边缘计算AI智能安防监控视频平台车辆违停算法详解与应用

随着城市车辆保有量呈现高速增长趋势,交通拥堵、违章行为也日益泛滥。因为车辆未停放在指定区域导致的车位浪费、占用/堵塞交通要道、车辆剐蹭等问题层出不穷。通过人工进行违法停车的监控,不仅让监控人员工作负荷越来越大,而且存在发现不及时…

Lua学习笔记:词法分析

前言 本篇在讲什么 Lua的词法分析 本篇需要什么 对Lua语法有简单认知 对C语法有简单认知 依赖Visual Studio工具 本篇的特色 具有全流程的图文教学 重实践,轻理论,快速上手 提供全流程的源码内容 ★提高阅读体验★ 👉 ♠ 一级标题…