随着 ChatGPT 凭借 GPT-4V(ision) 获得关注,多模态 AI 不断发展

原创 | 文 BFT机器人

图片

在不断努力让人工智能更像人类的过程中,OpenAI的GPT模型不断突破界限GPT-4现在能够接受文本和图像的提示。

生成式人工智能中的多模态表示模型根据输入生成文本、图像或音频等各种输出的能力。这些模型经过特定数据的训练,学习底层模式以生成类似的新数据,丰富人工智能应用。

PART 01

多模式人工智能的最新进展

最近,该领域取得了显着的飞跃,将DALL-E 3集成到ChatGPT中,这是OpenAI文本到图像技术的重大升级。这种混合可以实现更流畅的交互,ChatGPT有助于为DALL-E3制作精确的提示,将用户的想法转化为生动的AI生成的艺术。因此,虽然用户可以直接与DALL-E3交互,但将ChatGPT加入其中使得创建AI艺术的过程更加用户友好。

在此处查看有关DALL-E3及其与ChatGPT集成的更多信息。此次合作不仅展示了多模态人工智能的进步,也让用户的人工智能艺术创作变得轻而易举。

图片

另一方面,谷歌健康于今年6月推出了Med-PaLMM。它是一种多模式生成模型,擅长编码和解释不同的生物医学数据。这是通过利用开源基准MultiMedBench微调语言模型PaLM-E来满足医学领域的需求而实现的。该基准包含7种生物医学数据类型的超过100万个样本以及医学问答和放射学报告生成等14项任务。

各行业正在采用创新的多模式人工智能工具来推动业务扩展、简化运营并提高客户参与度。语音、视频和文本人工智能功能的进步正在推动多模式人工智能的增长。

企业寻求能够彻底改变业务模型和流程的多模式人工智能应用程序,从数据工具到新兴人工智能应用程序,在生成式人工智能生态系统中开辟增长途径。

GPT-4 在3月份推出后,一些用户发现其响应质量随着时间的推移而下降,著名开发人员和OpenAI论坛也表达了这一担忧。最初被OpenAI驳回,后来的一项研究证实了这个问题。报告显示,3月至6月期间,GPT-4的准确率从97.6%下降至 2.4%,这表明随着后续模型更新,答案质量有所下降。

图片

ChatGPT(蓝色)和人工智能(红色)Google搜索趋势

围绕OpenAI的ChatGPT的炒作现在又回来了。它现在配备了视觉功能GPT-4V,允许用户让GPT-4分析他们给出的图像。这是向用户开放的最新功能。

一些人认为,将图像分析添加到GPT-4等大型语言模型 (LLM) 中是人工智能研究和开发的一大进步。这种多模式法学硕士开辟了新的可能性,将语言模型超越文本,提供新的界面并解决新类型的任务,为用户创造新鲜的体验。

GPT-4V的训练于2022年完成,抢先体验于2023年3月推出。GPT-4V的视觉功能由GPT-4技术提供支持。培训过程保持不变。最初,该模型被训练为使用来自包括互联网在内的各种来源的文本和图像的大量数据集来预测文本中的下一个单词。

后来,它使用更多数据进行了微调,采用了一种名为“人类反馈强化学习”(RLHF)的方法,以生成人类喜欢的输出。

PART 02

GPT-4 视觉力学

GPT-4卓越的视觉语言能力虽然令人印象深刻,但其底层方法仍然停留在表面。

为了探索这一假设,引入了一种新的视觉语言模型MiniGPT-4 ,利用名为Vicuna的高级法学硕士。该模型使用带有预先训练的视觉感知组件的视觉编码器,通过单个投影层将编码的视觉特征与Vicuna语言模型对齐。MiniGPT-4的架构简单而有效,重点是协调视觉和语言特征以提高视觉对话能力。

图片

MiniGPT-4的架构包括一个带有预训练ViT和Q-Former的视觉编码器、一个线性投影层和一个高级Vicuna大语言模型。

视觉语言任务中自回归语言模型的趋势也在增长,利用跨模态迁移在语言和多模态领域之间共享知识。

MiniGPT-4通过将预先训练的视觉编码器的视觉信息与高级LLM对齐,在视觉和语言领域之间架起桥梁。该模型利用Vicuna作为语言解码器,并遵循两阶段训练方法。最初,它在大型图像文本对数据集上进行训练,以掌握视觉语言知识,然后对较小的高质量数据集进行微调,以增强生成的可靠性和可用性。

为了提高MiniGPT-4中生成语言的自然性和可用性,研究人员开发了一个两阶段对齐过程,解决了缺乏足够的视觉语言对齐数据集的问题。他们为此目的策划了一个专门的数据集。

最初,该模型生成输入图像的详细描述,通过使用与 Vicuna 语言模型格式一致的对话提示来增强细节。此阶段旨在生成更全面的图像描述。

初始图像描述提示:

###Human: <Img><ImageFeature></Img>详细描述此图像。提供尽可能多的细节。说出你所看到的一切。###助手:

对于数据后处理,使用 ChatGPT 纠正生成的描述中的任何不一致或错误,然后进行手动验证以确保高质量。

第二阶段微调提示:

###人类:<Img><ImageFeature></Img><指令>###助理:

这一探索打开了一扇了解GPT-4等多模态生成人工智能机制的窗口,揭示了如何有效地整合视觉和语言模态以生成连贯且上下文丰富的输出。

PART 03

探索 GPT-4 愿景使用 ChatGPT 确定图像来源

GPT-4Vision增强了ChatGPT分析图像并查明其地理来源的能力。此功能将用户交互从单纯的文本转换为文本和视觉效果的混合,成为那些通过图像数据对不同地点感到好奇的人的便捷工具。

图片

复杂的数学概念

GPT-4Vision擅长通过分析图形或手写表达式来深入研究复杂的数学思想。对于寻求解决复杂数学问题的个人来说,此功能是一个有用的工具,使GPT-4Vision成为教育和学术领域的显着帮助。

图片

将手写输入转换为 LaTeX 代码

GPT-4V的卓越功能之一是能够将手写输入转换为LaTeX代码。对于经常需要将手写数学表达式或其他技术信息转换为数字格式的研究人员、学者和学生来说,此功能是一个福音。从手写到LaTeX的转变扩大了文档数字化的范围并简化了技术写作过程。

图片

GPT-4V能够将手写输入转换为LaTeX代码

提取表详细信息

GPT-4V展示了从表格中提取详细信息和解决相关查询的技能,这是数据分析中的重要资产。用户可以利用GPT-4V筛选表格、收集关键见解并解决数据驱动的问题,使其成为数据分析师和其他专业人士的强大工具。

图片

GPT-4V破译表详细信息并响应相关查询

理解视觉指向

GPT-4V理解视觉指向的独特能力为用户交互增添了新的维度。通过理解视觉线索,GPT-4V可以以更高的上下文理解来响应查询。

图片

GPT-4V展示了理解视觉指向的独特能力

使用绘图构建简单的模型网站

受此推文的启发,我尝试为unity.ai网站创建一个模型。

图片

基于ChatGPTVision的输出HTML前端

GPT-4V(ision) 的局限性和缺陷

为了分析GPT-4V,OpenAI团队进行了定性和定量评估。定性测试包括内部测试和外部专家评审,而定量测试则测量各种场景下的模型拒绝率和准确性,例如识别有害内容、人口统计识别、隐私问题、地理位置、网络安全和多模式越狱。

该模型仍然不完美。

该论文强调了GPT-4V的局限性,例如错误的推理以及图像中缺少文本或字符。它可能会产生幻觉或编造事实。特别是,它不适合识别图像中的危险物质,经常会错误识别它们。

在医学成像中,GPT-4V可能会提供不一致的响应,并且缺乏对标准实践的认识,从而导致潜在的误诊。

图片

用于医疗目的的不可靠性能(来源)

它还无法掌握某些仇恨符号的细微差别,并可能根据视觉输入生成不适当的内容。OpenAI建议不要使用GPT-4V进行批判性解释,尤其是在医疗或敏感环境中。

包起来

图片

使用FastStableDiffusionXL创

https://huggingface.co/spaces/google/sdxl

GPT-4Vision (GPT-4V) 的到来带来了一系列很酷的可能性和需要跨越的新障碍。在推出之前,我们已经付出了大量努力来确保风险得到充分研究并减少,尤其是涉及人物照片时。看到GPT-4V的进步令人印象深刻,在医学和科学等棘手领域展现出巨大的前景。

现在,有一些重大问题摆在桌面上。例如,这些模型是否应该能够从照片中识别出名人?他们应该从照片中猜测一个人的性别、种族或感受吗?而且,是否应该进行特殊调整来帮助视障人士?这些问题引发了一系列关于隐私、公平以及人工智能应该如何融入我们的生活的争论,这是每个人都应该有发言权的问题。

文章翻译 | 春花

排版 | 春花

审核 | 橙橙

若您对该文章内容有任何疑问,请与我们联系,将及时回应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/100789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【photoshop学习】用 Photoshop 做的 15 件创意事

用 Photoshop 做的 15 件创意事 每个人总是谈论 Photoshop 的无限可能。您可以使用该程序做很多事情&#xff0c;列表几乎是无穷无尽的。 嘿&#xff0c;我是卡拉&#xff01;如果您花过一些时间使用 在线ps&#xff0c;您可能见过我&#xff08;并且注意到我提到了这一点&am…

WPF向Avalonia迁移(四、其他事项)

开发必备 1. Avalonia项目源代码&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;没有源代码&#xff0c;你连控件的背景色怎么改都找不着&#xff01;&#xff01; 2.下载你所使用的版本&#x…

【AI视野·今日Robot 机器人论文速览 第五十一期】Tue, 10 Oct 2023

AI视野今日CS.Robotics 机器人学论文速览 Tue, 10 Oct 2023 Totally 54 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Robotics Papers On Multi-Fidelity Impedance Tuning for Human-Robot Cooperative Manipulation Authors Ethan Lau, Vaibhav Srivastava, Sh…

【Proteus仿真】【STM32单片机】汽车倒车报警系统设计

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真STM32单片机控制器&#xff0c;使用LCD1602液晶、按键、继电器电机模块、DS18B20温度传感器、蜂鸣器LED、HCSR04超声波等。 主要功能&#xff1a; 系统运行后&#xff0c;LCD1602显…

jmeter 请求发送加密参数

最近在做http加密接口&#xff0c;请求头的uid参数及body的请求json参数都经过加密再发送请求&#xff0c;加密方式为&#xff1a;ase256。所以&#xff0c;jmeter发送请求前也需要对uid及json参数进行加密。我这里是让开发写了个加密、解密的jar&#xff0c;jmeter直接调用这个…

Tomcat项目启动报错

java.io.IOException: java.lang.ClassCastException: Cannot cast org.springframework.web.SpringServletContainerInitializer to javax.servlet.ServletContainerInitializer解决办法&#xff1a;可能Tomcat版本不对&#xff0c;使用7.0.90版本启动报错&#xff0c;使用8.0…

【VTK】一文讲解vtkImageActor

很高兴在雪易的CSDN见到你,给你糖糖 系列文章目录 VTK付费专栏_雪易的博客-CSDN博客 感谢订阅的小哥哥小姐姐,小易会继续努力分享,一起进步! 若订阅后有其它需求,欢迎随时联系,CSDN一直在线(^U^)ノ~YO 前言 本文主要讲解vtk的

flutter 常用组件:文本、图片和按钮

文章目录 文本控件富文本控件图片本地图片网络图片按钮文本控件 ##一’码’当先 Text(这是一段文本这是一段文本这是一段文本这是一段文本这是一段文本这是一段文本这是一段文本这是一段文本,textAlign:TextAlign.center,style: TextStyle(fontWeight: FontWeight.bold, font…

【日常】一名开发人员总结的好习惯,欢迎补充

文章目录 前言首先需要考虑&#xff08;重要&#xff09;设计和架构代码质量测试和调试性能优化 编程的好习惯代码可读性模块化和重用性单一职责异常处理注释和文档常见的Java编码规范的例子下面是一个示例代码&#xff0c;展示了一些编码规范的应用还有一些其他的编码规范值得…

计算机竞赛YOLOv7 目标检测网络解读

文章目录 0 前言1 yolov7的整体结构2 关键点 - backbone关键点 - head3 训练4 使用效果5 最后 0 前言 世界变化太快&#xff0c;YOLOv6还没用熟YOLOv7就来了&#xff0c;如果有同学的毕设项目想用上最新的技术&#xff0c;不妨看看学长的这篇文章&#xff0c;学长带大家简单的…

2023年软考网工上半年下午真题

试题一&#xff1a; 阅读以下说明&#xff0c;回答问题1至问题4&#xff0c;将解答填入答题纸对应的解答栏内。 [说明] 某企业办公楼网络拓扑如图1-1所示。该网络中交换机Switch1-Switch 4均是二层设备&#xff0c;分布在办公楼的各层&#xff0c;上联采用干兆光纤。核心交换…

Jenkins对应java版本

官网地址&#xff1a;Java Support Policy 运行jenkins时,需要使用下列Java版本:

导致 JVM 内存泄露的 ThreadLocal 详解

为什么要有 ThreadLocal 当我们在学习JDBC时获取数据库连接时&#xff0c;每次CRUD的时候都需要再一次的获取连接对象&#xff0c;并把我们的sql交给连接对象实现操作。 在实际的工作中&#xff0c;我们不会每次执行 SQL 语句时临时去建立连接&#xff0c;而是会借助数据库连接…

学习css 伪类:has

学习抖音&#xff1a; 渡一前端提薪课 首先我们看下:has(selector)是什么 匹配包含&#xff08;相对于 selector 的 :scope&#xff09;指定选择器的元素。可以认为 selector 的前面有一个看不见的 :scope 伪类。它的强大之处是&#xff0c;可以实现父选择器和前面兄弟选择器…

TWDS车辆轮对故障、尺寸动态检测系统

随着我国铁路的建设发展&#xff0c;客运专线网络形成&#xff0c;既有铁路的货运能力得到释放&#xff0c;货物运输向重载方向发展&#xff0c;运输组织呈现长交路、运转周期短、编组固定的特点。 跟踪调查表明重载车辆车轮磨耗较普通车辆更为严重。大秦线c80型车辆在不到1个…

mac(M1)安装anaconda3

首先下载 然后正常安装即可&#xff0c;之所以我现在测试了anaconda,因为我发现miniconda后&#xff0c;jupyter notebook的安装就出现问题&#xff0c;所以就直接卸载miniconda&#xff0c;而直接安装anaconda了 (base) yxkbogon ~ % pip list Package …

汽车一键启动点火开关按键一键启动按钮型号规格

汽车点火开关/移动管家一键启动按键/汽车改装引擎启动按钮型号&#xff1a;YD828溥款开关 一键启动按钮&#xff08;适用于配套启动主机使用或原车一键启动开关更换&#xff09; 1.适合配套专用板板安装 2.开孔器开孔安装 3.原车钥匙位安装 外观&#xff1a;黑色 按钮上有3种不…

MVCC和BufferPool缓存机制

文章目录 1. MVCC多版本并发控制机制2. BufferPool缓存机制 1. MVCC多版本并发控制机制 Mysql可以在可重复读隔离级别下可以保证事务较高的隔离性&#xff0c;这个隔离性是由MVCC机制来保证的&#xff0c;对一行数据的读和写两个操作默认是不会通过加锁互斥来保证隔离性&#…

机器学习与模式识别作业----决策树属性划分计算

文章目录 1.决策树划分原理1.1.特征选择1--信息增益1.2.特征选择2--信息增益比1.3.特征选择3--基尼系数 2.决策树属性划分计算题2.1.信息增益计算2.2.1.属性1的信息增益计算2.2.2.属性2的信息增益计算2.2.3.属性信息增益比较 2.2.信息增益比计算2.3.基尼系数计算 1.决策树划分原…

设计模式 - 解释器模式

目录 一. 前言 二. 实现 三. 优缺点 一. 前言 解释器模式&#xff08;Interpreter Pattern&#xff09;指给定一门语言&#xff0c;定义它的文法的一种表示&#xff0c;并定义一个解释器&#xff0c;该解释器使用该表示来解释语言中的句子&#xff0c;属于行为型设计模式。是…