An Early Evaluation of GPT-4V(ision)

本文是LLM系列文章,针对《An Early Evaluation of GPT-4V(ision)》的翻译。

GPT-4V的早期评估

  • 摘要
  • 1 引言
  • 2 视觉理解
  • 3 语言理解
  • 4 视觉谜题解决
  • 5 对其他模态的理解
  • 6 结论

摘要

在本文中,我们评估了GPT-4V的不同能力,包括视觉理解、语言理解、视觉解谜以及对深度、热、视频和音频等其他模式的理解。为了评估GPT-4V的性能,我们手动构建656个测试实例,并仔细评估GPT-4V的结果。研究结果的亮点如下:(1)GPT-4V在以英语视觉为中心的基准测试中表现出令人印象深刻的性能,但无法识别图像中的简单中文文本;(2) GPT-4V在回答与性别、种族和年龄等敏感特征相关的问题时表现出不一致的拒绝行为;(3) GPT-4V在包括一般语言理解基准和视觉常识知识评估基准在内的语言理解任务上获得比GPT-4(API)更差的结果;(4) 小样本提示可以提高GPT-4V在视觉理解和语言理解方面的表现;(5) GPT-4V努力寻找两张相似图像之间的细微差别,并解决简单的数学图片难题;(6)GPT-4V在与图像类似的模式(如视频和热)的任务上表现出了非凡的性能。我们的实验结果揭示了GPT-4V的能力和局限性,我们希望我们的论文能为GPT-4V的应用和研究提供一些见解。

1 引言

2 视觉理解

3 语言理解

4 视觉谜题解决

5 对其他模态的理解

6 结论

在本文中,我们定量研究了GPT-4V在各种任务中的性能。根据研究结果,我们发现GPT-4V虽然在标准的以英语为中心的视觉基准上取得了很高的性能,但仍然不能进行中文文本识别。这一观察结果表明,有必要对中国基准进行进一步深入评估,以衡量GPT-4V的能力。我们还观察到,GPT-4V即使具有很强的视觉理解能力和数学问题解决能力,也无法解决简单的数学图片谜题。原因可能是GPT-4V没有很好地推广到这个领域。另一个问题是,GPT-4V在回答与身份和性别、种族和年龄等敏感特征有关的问题时表现出不一致的拒绝行为。这个问题可能会导致GPT-4V的性能明显下降,在未来的研究中应该小心处理。
至于局限性,我们承认GPT4V的性能可能会因采用不同的提示方法而有所不同。例如,更具体的指令和更好的示例将提高其性能。我们希望在未来的工作中探索利用其他高级提示,如思维链提示。我们也承认,每个任务的更多测试实例可以使估计结果更准确,但由于劳动力成本高,我们只对部分实例进行了采样。
尽管如此,这还是首次尝试定量研究GPT-4V在各种任务中的性能。在我们的研究中,我们揭示了GPT-4V的优势和局限性。我们希望我们的研究能够为未来的研究和应用提供见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/119905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哪一个更好?Spring boot还是Node.js

前言 本篇文章有些与众不同,由于我自己手头有些关于这个主题的个人经验,受其启发写出此文。虽然SpringBoot和Node.js服务于很不一样的场景,但是这两个框架共性惊人。其实每种语言都有不计其数的框架,但仅仅一部分是真正卓越的。如…

第六节——Vue中的事件

一、定义事件 Vue 元素的事件处理和 DOM 元素的很相似,但是有一点语法上的不同 使用修饰符(v-on:的缩写)事件名的方式 给dom添加事件后面跟方法名,方法名可以直接加括号如click"add()"里面进行传参。对应的事件处理函…

计算机网络相关硬件介绍

计算机相关硬件 计算机由运算器、控制器、存储器、输入设备和输出设备等五个逻辑计算机硬件部件组成。 一、中央处理器(CPU)(运算器、控制器) (1)运算器 运算器是对数据进行加工处理的部件&#xff…

react151618刷新几次的问题

结论: 16 hooks版本 默认render1次 同步中,无论多少种类还是次数,都render 1次。 异步中,无论多少种类还是次数,1个种类执行1次,多次的话,用n*2。 18 hooks版本 默认render2次, 同步…

Ubuntu 内核降级到指定版本

reference https://www.cnblogs.com/leebri/p/16786685.html 前往此网站,找到所需的内核 https://kernel.ubuntu.com/~kernel-ppa/mainline/ 查看系统架构 dpkg --print-architecture 二、下载安装包 注意:下载除lowlatency以外的deb包 三、安装内核 3…

JAVA基础(JAVA SE)学习笔记(八)面向对象编程(高级)

前言 1. 学习视频: 尚硅谷Java零基础全套视频教程(宋红康2023版,java入门自学必备)_哔哩哔哩_bilibili 2023最新Java学习路线 - 哔哩哔哩 第二阶段:Java面向对象编程 6.面向对象编程(基础) 7.面向对象编程&…

题目 1056: 二级C语言-温度转换(python详解)——练气四层初期

✨博主:命运之光 🦄专栏:算法修炼之练气篇(C\C版) 🍓专栏:算法修炼之筑基篇(C\C版) 🍒专栏:算法修炼之练气篇(Python版) ✨…

ubuntu18.04设置开机自动启动脚本(以自动启动odoo命令行为例讲解)

简介 ubuntu作为服务器使用时,常常需要在机器重启时能自动启动我们开发的服务。 Ubuntu 16.10开始不再使用initd管理系统,改用systemd,包括用systemctl命令来替换了service和chkconfig的功能。 systemd 默认读取 /etc/systemd/system 下的配…

单目3D目标检测 方法综述——直接回归方法、基于深度信息方法、基于点云信息方法

本文综合整理单目3D目标检测的方法模型,包括:基于几何约束的直接回归方法,基于深度信息的方法,基于点云信息的方法。万字长文,慢慢阅读~ 直接回归方法 涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet…

buuctf_练[MRCTF2020]Ezaudit

[MRCTF2020]Ezaudit 掌握知识 ​ 网站源码泄露,代码审计,SQL注入的万能密码使用,mt_rand函数的伪随机数漏洞搭配php_mt_seed工具使用,随机数特征序列的生成 解题思路 打开题目链接,又发现是一个不错的网站界面&…

给你一个整数 num ,返回 num 中能整除 num 的数位的数目

给你一个整数 num ,返回 num 中能整除 num 的数位的数目。 如果满足 nums % val 0 ,则认为整数 val 可以整除 nums 。 示例 1: 输入:num 7 输出:1 解释:7 被自己整除,因此答案是 1 。 示例 2&…

Linux shell编程学习笔记16:bash中的关联数组

上一节我们探讨了普通的数组,即使用数字下标来索引数组中不同的元素的数组,也可以称之为索引数组。 相比纯粹的数字,字符串不仅能表明含义,也更便于记忆使用,于是就有了关联数组。 一、关联数组概述 bash 从4.0开始支…

竞赛 深度学习图像修复算法 - opencv python 机器视觉

文章目录 0 前言2 什么是图像内容填充修复3 原理分析3.1 第一步:将图像理解为一个概率分布的样本3.2 补全图像 3.3 快速生成假图像3.4 生成对抗网络(Generative Adversarial Net, GAN) 的架构3.5 使用G(z)生成伪图像 4 在Tensorflow上构建DCGANs最后 0 前言 &#…

基于 nodejs+vue旅游推荐系统 mysql

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

vscode markdown 使用技巧 -- 如何快速打出一个Tab 或多个空格

背景描述: 我在使用VSCode,这玩意很好用,但是,有一个缺点是,我想使用Tab来做一些对齐,但是我发现在VSCode中,无论是Tab还是多个空格,最终显示出来的都是一个空格 使用代码可以实现打…

【VUE】ElementPlus之动态主题色调切换(Vue3 + Element Plus+Scss + Pinia)

前言 关于ElementPlus的基础主题色自定义可以参阅《【VUE】ElementPlus之自定义主题样式和命名空间》 有了上面基础的了解,我们知道ElementPlus的主题色调是基于CSS3变量特性进行全局控制的, 那么接下来我们也基于CSS3变量来实现主题色调的动态切换效果&…

第一单元——概述

Blazor 的由来 Blazor 这个名字是两个单词改进而来的,即 Browser + Razor。从名字不难看出,它是基于 Razor 语法的浏览器框架。 Razor 语法的对于一直从事 ASP.NET 开发的小伙伴来说并不陌生,它从 .NET Framework 的 MVC 时代就开始伴随着我们一直前行,并且一直沿用到至今…

【原创】修复vCenter的Web界面无法启动的问题

零 出现的问题 在使用过程中,发现vCenter无法登录,报错。 因此重新启动vCenter,打开Web,先是报“no healthy upstream”,等了二十分钟后错误依旧。 再次重启vCenter,打开Web,还是报同样的错误。…

Linux - firewall-cmd 命令添加端口规则不生效排查

文章目录 linux 防火墙 firewall-cmd 命令详解问题排查 linux 防火墙 firewall-cmd 命令详解 基本语法 firewall-cmd --zonezone-name --add-serviceservice-name --permanent命令参数 --zone:指定要添加服务的区域名称。 --add-service:指定要添加的…

Apache ActiveMQ RCE漏洞复现(CNVD-2023-69477)

0x01 产品简介 ActiveMQ是一个开源的消息代理和集成模式服务器,它支持Java消息服务(JMS) API。它是Apache Software Foundation下的一个项目,用于实现消息中间件,帮助不同的应用程序或系统之间进行通信。 0x02 漏洞概述 Apache ActiveMQ 中存…