ChatGPT Vision初体验

本周,OpenAI为其广受欢迎的 ChatGPT 平台发布了一项突破性的补充。除了处理文本之外,ChatGPT 现在还可以处理图像并聊天。

很难夸大这件事的重要性。目前多达70% 的内容是视觉内容而不是书面内容。人们每年会生成数千张照片,而当今许多最大的平台(YouTube、TikTok、Instagram)很大程度上都是视觉化的。

人们越来越多地选择以视觉方式与机器交互。通过最新升级,ChatGPT 现在可以参与该过程。

Visual ChatGPT 将在接下来的几周内向部分 ChatGPT Plus 用户推出。我是第一批获得访问权限的用户之一。以下是这个非凡的新型生成人工智能功能的初步介绍,以及它可以做的一些事情。

与 ChatGPT 进行视觉交互

与 ChatGPT 的视觉交互非常简单。获得访问权限的用户现在可以在 ChatGPT 界面中的“发送消息”字段旁边看到一个小图像图标。

除了输入文本提示之外,您现在还可以随文本一起上传图像。这允许您提出有关图像的问题,或者让 ChatGPT 分析图像的视觉内容并与您讨论它。

编写替代文本

我使用 ChatGPT Vision 测试的第一个任务(新功能没有正式名称,所以我这么称呼它)是为图像编写替代文本。

对于使用屏幕阅读器浏览互联网的视障人士来说,替代文本至关重要。替代文本附加到博客或网站上的图像。文字描述了图像的视觉内容,以便看不到图像的人仍然可以理解其含义。

编写好的替代文本既困难又昂贵。很多网站站长懒得去做,或者做得不好。这使得视障用户更难访问互联网。它还会对网站的搜索引擎优化产生负面影响。

我决定看看 ChatGPT Vision 如何为图像编写替代文本。我上传了这张图片并要求它“为此图片编写高质量的替代文本”

这就是它给我的:

标有“SIGNET”的壁挂式分配系统具有三个装有清洁溶液的半透明容器。从左到右,容器上贴有红色标签:“硬表面消毒剂”,蓝色“玻璃和多表面清洁剂”,以及绿色“重型无氯洗手间消毒剂”。分配器上方有说明贴纸,上面有指示正确使用方法的图表。每个容器的侧面都有一个测量刻度,并连接到用于分配的管道系统。

这太妙了!替代文本不仅仅描述了图像的基本信息(“墙上的管道和清洁溶液”)。

相反,它提供了足够详细的图像视觉细节(每种清洁溶液的颜色、它们从左到右的相对位置以及每个图像上的文本),以便视障人士可以轻松理解图像显示的内容。

ChatGPT Vision 在大约 10 秒内生成了替代文本,速度也非常快。我可以看到新系统对于网络可访问性来说是一个巨大的福音。出版商可以使用 ChatGPT 视觉为自己的图像编写更好的替代文本,视障用户可以使用它为缺乏实时替代文本的图像编写替代文本。

分析我的香料架

对于我的下一个实验,我上传了一张香料架的照片。我要求 ChatGPT Vision 列出我拥有的香料。我还问它哪些香料快用完了。

令人惊讶的是,ChatGPT Vision 不仅列出了香料,还认可了它们的品牌名称:

芝麻(数量看起来不错)

莫顿海盐(无法从图像中确定数量)

365 姜末(数量看起来不错)

365 肉桂 (数量看起来不错)

味好美辣椒粉(数量看起来不错)

麦考密克粗黑胡椒粉(无法从图像中确定数量)

365 辣椒粉(数量看起来不错)

味考密克完美捏意大利(无法从图像中确定数量)

姜黄粉(无法从图像中确定数量)

365 白胡椒粉(数量看起来不错)

孜然粉(无法从图像中确定数量)

它无法确定我拥有的数量。但作为后续,它能够推荐一些我可以用这些烹饪的食谱!

这是 ChatGPT 视觉能力强大功能的一个很好的例子。因为它仍然是一个聊天机器人,所以它不仅仅是查看图像、提供输出并继续前进。您可以就图像进行对话,提出具体的后续问题以进行更深入的挖掘并超越系统的初始响应。

分析图表

ChatGPT Vision 不仅限于处理照片。它还可以处理图表、信息图表等。

例如,我向它提供了我的一个网站的流量 Google Seach 控制台图表。

从图像中,它正确地提取了我的关键统计数据,并分析了我网站的流量趋势。

它甚至根据所看到的内容提供了如何改进 SEO 的建议。

分析图形和其他视觉效果的能力对于想要更好地理解数据、验证科学研究结果、甚至只是更好地理解图形或聊天内容的用户非常有帮助。

确定拍摄照片所用的胶片

我是一名摄影师,在工作中经常使用模拟胶片。我也经常处理历史照片,但照片所用的胶片是未知的。

我上传了一张我自己的照片,并询问 ChatGPT Vision 这是用什么类型的电影拍摄的。

这是结果。

我喜欢其分析的深度。也是对的!这是在 Kodak Tri-X 上以 400 速度拍摄的,这是它在列表中提到的第一部影片。

确定狗的品种

我有一只比熊犬,名叫兰斯,但我打断了他。大多数人误认为他是一个不同的品种。

我上传了兰斯的照片,并询问 ChatGPT Vision 他是什么品种。

它的回应是:

“根据提供的图像,你的狗似乎具有卷毛品种的身体特征,可能是比雄犬、贵宾犬或这些品种的混合体。”

系统仍然模棱两可地使用“P”这个词(这是比熊人的一大禁忌),但它的第一个猜测确实是比熊犬。

这凸显了 ChatGPT Vision 超越了单纯的物体识别。该系统在详细说明其反应时表示,“卷曲的白色皮毛和面部特征让人想起这类狗。”

令人印象深刻的是,ChatGPT Vision 正在观察诸如面部特征之类的东西,而不仅仅是看到一只白色、毛茸茸的狗并自动说“贵宾犬”。

ChatGPT Vision 的局限性

ChatGPT 愿景是一个强大的平台。我刚刚开始测试它,我已经可以看到其工具的大量实际用例。

也就是说,系统设计时没有做一些事情。其一,它不会处理或讨论人物图像。这很聪明。视觉人工智能系统存在偏见。最好完全避免分析以人为中心的图像,而不是冒着对人的视觉分析产生偏见的风险。

该系统也不会提供医疗建议。我试图向它询问与图像相关的医学话题,它断然拒绝回答。再说一遍,目前来说这是一件好事。该系统是新的,其输出可能不准确。

不过,我可以看到 ChatGPT Vision 的专业版本被训练来执行诸如解释 X 射线结果或分析其他医学测试之类的事情。但就目前而言,我们需要围绕这种应对措施采取防护措施。

多模态人工智能就在这里

ChatGPT 标志着生成人工智能领域迈出了一大步。这是第一次将真正的多模式人工智能交到日常用户手中。

Google Bard 确实有一些视觉功能。但这些似乎更严重地依赖谷歌现有的谷歌镜头系统。另一方面,ChatGPT Vision 似乎真正理解图像的视觉内容和意义。

这使得它能够深入研究图像视觉内容的更深层意义,而不仅仅是执行一些很酷但有限的技巧,例如翻译图像中的文本或识别产品或地点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/97604.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VR模拟鸡胚培养接种实验,打造沉浸式的学习环境

在医学教育领域,传统的鸡胚接种实验一直是教学的重要组成部分。然而,这种实验方法存在一定的局限性,如操作难度大、成本高、安全隐患等。为了解决这些问题,越来越多的教育机构开始尝试引入虚拟现实(VR)技术,以模拟鸡胚…

研发质量管理体系

研发质量管理体系的脉络是怎样的?如何建立适合组织发展的研发质量管理体系?质量管理的核心是什么?一些思考,一些线索,欢迎朋友们一起探讨、碰撞。

vscode 乱码解决

windows 10 系统 vs code 编译运行和调试 C/C_vscode windows编译_雪的期许的博客-CSDN博客 VS Code默认文件编码时UTF-8,这对大多数情况是没有问题的,却偏偏对C/C有问题。如果以UTF-8编码保存C/C代码,那么只能输出英文,另外使用…

我在 NPM 发布了新包: con-colors

链接地址:npmjs.com con-colors 安装依赖 yarn add con-colors使用 导入: import { print } from "con-colors";使用: print.succ("成功的消息"); print.err("失败的消息")例子: import { p…

红包雨高并发压测记录(200台机器压测实录)

压测5000线程10秒内循环5次,5台2核心4线程的机器,QPS2500 压测10000线程10秒内循环5次,10台2核心4线程的机器,QPS5000 压测200000线程10秒内循环5次,200台2核心4线程的机器,QPS100000 虽然接口异常率都为零…

【云计算网络安全】DDoS 缓解解析:DDoS 攻击缓解策略、选择最佳提供商和关键考虑因素

文章目录 一、前言二、什么是 DDoS 缓解三、DDoS 缓解阶段四、如何选择 DDoS 缓解提供商4.1 网络容量4.2 处理能力4.3 可扩展性4.4 灵活性4.5 可靠性4.6 其他考虑因素4.6.1 定价4.6.2 所专注的方向 文末送书《数据要素安全流通》本书编撰背景本书亮点本书主要内容 一、前言 云…

AI工程化—— 如何让AI在企业多快好省的落地?

作为计算机科学的一个重要领域,机器学习也是目前人工智能领域非常活跃的分支之一。机器学习通过分析海量数据、总结规律,帮助人们解决众多实际问题。随着机器学习技术的发展,越来越多的企业将机器学习技术作为核心竞争力,并运用在…

如何用万界星空科技低代码平台快速开发一个MES系统?

一、制造业工厂生产现状: 1、生产计划复杂 生产效率低,工作量大,周期长;生产计划执行准确性不高, 生产工单准时完工率过低;计划人员很难得到实际生产进度的准确信息;人员沟通成本高&#xff1…

端口没有占用,Springboot却提示端口占用了

1.问题描述 *************************** APPLICATION FAILED TO START ***************************Description:Web server failed to start. Port 19004 was already in use.Action:Identify and stop the process thats listening on port 19004 or configure this applica…

Python 无废话-办公自动化Excel修改数据

如何修改Excel 符合条件的数据?用Python 几行代码搞定。 需求:将销售明细表的产品名称为PG手机、HW手机、HW电脑的零售价格分别修改为4500、5500、7500,并保存Excel文件。如下图 Python 修改Excel 数据,常见步骤: 1&…

机器学习必修课 - 编码分类变量 encoding categorical variables

1. 数据预处理和数据集分割 import pandas as pd from sklearn.model_selection import train_test_split导入所需的Python库 !git clone https://github.com/JeffereyWu/Housing-prices-data.git下载数据集 # Read the data X pd.read_csv(/content/Housing-prices-data/t…

【SQL】MySQL中的约束

1. 主键约束(primary key): 相当于唯一约束非空约束分为单列主键,多列联合主键,一个表只有一个主键多列联合主键的每列都不能为空 2. 自增长约束(auto_increment): 用在单列主键后…

Vim教程

目录 vim 介绍 常用的四种模式 首先先学会如何正确进入和退出vim: normal模式 insert模式: command模式: v-block模式: vim异常退出 vim配置 vim 介绍 Vim是一款高度可定制的文本编辑器,它的前身是Vi&#xf…

vue-devtools插件安装

拓展程序连接 链接:https://pan.baidu.com/s/1tEyZJUCEK_PHPGhU_cu_MQ?pwdr2cj 提取码:r2cj 一、打开谷歌浏览器,点击扩展程序-管理扩展程序 二、打开开发者模式,将vue-devtools.crx 拖入页面,点击添加扩展程序 成…

Kafka是什么,以及如何使用SpringBoot对接Kafka

系列文章目录 上手第一关,手把手教你安装kafka与可视化工具kafka-eagle Kafka是什么,以及如何使用SpringBoot对接Kafka 系列文章目录一、Kafka与流处理二、Spring Boot与Kafka的整合Demo1. 新建springboot工程2. 添加Kafka依赖3. 配置Kafka4. 创建Kafka…

JS进阶-原型

原型 原型就是一个对象,也称为原型对象 构造函数通过原型分配的函数是所有对象所共享的 JavaScript规定,每一个构造函数都有一个prototype属性,指向另一个对象,所以我们也称为原型对象 这个对象可以挂载函数,对象实…

不标准的 json 格式的字符串如何转为标准的(json字符串属性名不带双引号如何转

背景 不规范的 json 字符串例如 属性名不带双引号 {name:"abc"}属性名带单引号而不是双引号 {name:"abc"}属性值该用双引号的时候用了单引号 {"name":abc}还有一种情况就是以上情况的混合 所谓规范的json字串就是属性名要用双引号&#xf…

【Linux】信号屏蔽与信号捕捉的原理与实现(附图解与代码)

这一篇的篇幅可能有点长,如果已经了解了以下两个知识点的同学可以自行跳到第三部分——信号屏蔽的实现。 不太了解的同学希望你们能够静下心来看完,相信一定会有不小的收获。那么话不多说,我们这就开始啦!!&#xff0…

代码随想录算法训练营第四十六天 | 518. 零钱兑换 II、377. 组合总和 Ⅳ

518. 零钱兑换 II 视频讲解:动态规划之完全背包,装满背包有多少种方法?组合与排列有讲究!| LeetCode:518.零钱兑换II_哔哩哔哩_bilibili 代码随想录 (1)代码 377. 组合总和 Ⅳ 视频讲解&…

JOSEF约瑟 闭锁继电器 LB-7 YDB-100 100V 50HZ 控制断路器的合闸或跳闸

闭锁继电器LB-7导轨安装名称:闭锁继电器型号:LB-7闭锁继电器额定电压100V功率消耗≤10VA触点容量220V1.5A40W返回系数≥0.8 LB-1A、LB-1D、DB-1、HBYB-102/D YDB-100、HLO、DB-100、LB-7型闭锁继电器 一、用途 LB-7型闭锁继电器(以下简称继电器)用于发电厂及变电所内高压母线…