Visual ChatGPT:Microsoft ChatGPT 和 VFM 相结合

推荐:使用 NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景

什么是Visual ChatGPT?

Visual ChatGPT 是一个包含 Visual Foundation 模型 (VFM) 的系统,可帮助 ChatGPT 更好地理解、生成和编辑视觉信息。VFM 能够指定输入输出格式,将视觉信息转换为语言格式,并处理 VFM 历史记录、优先级和冲突。

因此,Visual ChatGPT 是一种 AI 模型,它充当了 ChatGPT 限制与允许用户通过聊天进行交流并生成视觉效果之间的桥梁。

ChatGPT 的局限性

在过去的几周和几个月里,ChatGPT 一直是大多数人的对话。但是,由于其语言训练功能,它不允许处理和生成图像。

而你有视觉基础模型,如视觉变压器和稳定扩散,它们具有惊人的视觉功能。这就是语言和图像模型的组合创造了Visual ChatGPT的地方。

什么是可视化基础模型?

视觉基础模型用于对计算机视觉中使用的基本算法进行分组。他们采用标准的计算机视觉技能并将其转移到AI应用程序上,以处理更复杂的任务。

Visual ChatGPT 中的提示管理器由 22 个 VFM 组成,其中包括文本到图像、控制网、边缘到图像等。这有助于 ChatGPT 将图像的所有视觉信号转换为语言,以便 ChatGPT 更好地理解。那么Visual ChatGPT是如何工作的呢?

Visual ChatGPT 如何工作?

Visual ChatGPT 由不同的组件组成,以帮助大型语言模型 ChatGPT 理解视觉对象。

Visual ChatGPT 的架构组件

  • 用户查询:这是用户提交查询的位置
  • 提示管理器:这会将用户的视觉查询转换为语言格式,以便 ChatGPT 模型可以理解。
  • Visual Foundation Models:它结合了各种VFM,例如BLIP(Bootstrapping Language-Image Pre-training),Stable Diffusion,ControlNet,Pix2Pix等。
  • 系统原理:这提供了可视化聊天GPT的基本规则和要求。
  • 对话历史:这是系统与用户进行交互和对话的第一个点。
  • 推理的历史:这使用不同VFM过去具有的先前推理来解决复杂的查询。
  • 中间答案:通过使用 VFM,模型将尝试输出几个逻辑上低估的中间答案

Microsoft GitHub

有关提示管理器的更多信息

你们中的一些人可能认为这是 ChatGPT 处理视觉效果的强制解决方法,因为它仍然将图像的所有视觉信号转换为语言。上传图像时,提示管理器会合成包含文件名等信息的内部聊天历史记录,以便 ChatGPT 可以更好地了解查询所指的内容。

例如,用户输入的图像的名称将充当操作历史记录,然后提示管理器将协助模型通过“推理格式”来确定需要对图像执行的操作。在 ChatGPT 选择正确的 VFM 操作之前,您可以将此视为模型的内部想法。

在下图中,您可以看到提示管理器如何启动可视 ChatGPT 的规则:

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

开始使用可视化聊天GPT

要开始您的 Visual ChatGPT 之旅,您需要先运行 Visual ChatGPT 演示:

# create a new environment
conda create -n visgpt python=3.8# activate the new environment
conda activate visgpt#  prepare the basic environments
pip install -r requirement.txt# download the visual foundation models
bash download.sh# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}# create a folder to save images
mkdir ./image# Start Visual ChatGPT !
python visual_chatgpt.py

您还可以在Microsoft的Visual ChatGPT GitHub上了解更多信息。确保查看每个视觉基础模型上的 GPU 内存使用情况。

可视化聊天GPT的用例

那么Visual ChatGPT能做什么呢?

图像生成

您可以要求Visual ChatGPT从头开始创建图像,并提供描述。您的图像将在几秒钟内生成,具体取决于可用的计算能力。其使用文本数据的合成图像生成基于稳定扩散。

更改图像背景

同样,使用稳定的扩散,Visual ChatGPT可以改变您输入的图像的背景。用户可以向助手提供他们希望将背景更改为什么的任何描述,稳定的扩散模型将绘制图像的背景。

更改彩色图像和其他效果

您还可以根据为应用程序提供描述来更改图像的颜色并应用效果。Visual ChatGPT将使用各种预训练模型和OpenCV来更改图像颜色,突出显示图像边缘等。

对图像进行更改

Visual ChatGPT 允许您通过编辑和修改图像中的对象来删除或替换图像的各个方面,并向应用程序提供定向文本描述。但是,需要注意的是,此功能需要更多的计算能力。

Visual ChatGPT 的局限性

众所周知,组织总需要努力解决某种形式的缺陷来改善其服务。

计算机视觉和大型语言模型的结合

Visual ChatGPT 严重依赖 ChatGPT 和 VFM,因此,这些各个方面的准确性和可靠性会影响 Visual ChatGPT 的性能。使用大型语言模型和计算机视觉的组合需要大量的提示工程,并且可能难以实现熟练的性能。

隐私和安全

Visual ChatGPT能够轻松插入和拔出VFM,这可能是一些用户对安全和隐私问题的担忧。Microsoft需要更多地研究敏感数据如何不被泄露。

自我校正模块

Visual ChatGPT的研究人员遇到的限制之一是由于VFM的失败和提示的多样性而导致的生成结果不一致。因此,他们得出结论,他们需要研究一个自我更正模块,以确保生成的输出符合用户的要求,并能够进行必要的更正。

需要大量 GPU

为了从Visual ChatGPT中受益并利用22个VFM,您将需要大量的GPU RAM,例如A100。根据手头的任务,确保您了解有效完成任务所需的 GPU 量。

总结

Visual ChatGPT仍有其局限性,但这是同时使用大语言模型和计算机视觉的重大突破。如果您想了解有关Visual ChatGPT的更多信息,请阅读本文:Visual ChatGPT:使用Visual Foundation Models进行对话,绘图和编辑

Visual ChatGPT 与 ChatGPT4 相似吗?如果你尝试过这两种方法,你有什么看法?在下面发表评论!

原文链接:Visual ChatGPT:Microsoft ChatGPT 和 VFM 相结合 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/25387.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ 派生类成员的标识与访问——作用域分辨符

在派生类中,成员可以按访问属性分为以下四种: (1)不可访问成员。这是从基类私有成员继承下来的,派生类或是建立派生类对象的模块都无法访问到它们,如果从派生类继续派生新类,也是无法访问的。 &…

Python魔法解析:探索变量类型的丰富多彩世界!

在Python这个魔法般的编程语言中,变量是连接你与计算机世界的神奇桥梁。然而,这些变量并不是单一的,它们有着丰富多彩的类型。无论你是刚刚踏入编程的大门,还是想要深入了解Python的高级特性,本篇博客将带你探索变量的…

pycharm打开terminal报错

Pycharm打开终端报错如何解决?估计是终端启动conda不顺利,需要重新设置路径。参考以下文章的做法即可。 Windows下Pycharm中Terminal无法进入conda环境和Python Console 不能使用 给pycharm中Terminal 添加新的shell,才可以使用conda环境 W…

黑马大数据学习笔记4-Hive部署和基本操作

目录 思考规划安装MySQL数据库修改root用户密码配置Hadoop下载解压Hive提供MySQL Driver包配置Hive初始化元数据库启动Hive(使用Hadoop用户)Hive体验HiveServer2HiveServer2服务启动 Beeline p48、51、52 https://www.bilibili.com/video/BV1WY4y197g7/?…

Uni-Dock:GPU 分子对接使用教程

github文件下载: git clone https://github.com/dptech-corp/Uni-Dock.git cd Uni-Dock/example/screening_test wget https://github.com/dptech-corp/Uni-Dock/releases/download/1.0.0/unidock 将此文件加入到全局变量中 chmod x unidock sudo mv unidock /…

物联网潜在的巨大价值在于大数据分析

物联网潜在的巨大价值在于大数据分析 从数据里去挖掘市场或者用户的精准需求。 往小的说,后台可以统计用户家里各各插座一年甚至更久的用电情况,这些数据也可以通过app或者小程序展现给用户。 用户可以很直观看到自己一年的用电情况,哪个家…

Blazor前后端框架Known-V1.2.10

V1.2.10 Known是基于C#和Blazor开发的前后端分离快速开发框架,开箱即用,跨平台,一处代码,多处运行。 Gitee: https://gitee.com/known/KnownGithub:https://github.com/known/Known 概述 基于C#和Blazo…

任务15、MidJourney视频(Video)参数动态上线,制作惊艳动画短片

15.1 任务概述 本次任务将帮助你掌握Midjourney中的Video参数,并利用这些参数创作出令人惊艳的绘画作品。通过学习Video参数的基本概念和功能,以及案例的实际应用,你将学会如何正确设置和调整这些参数,从而达到你所期望的绘画效果。最终,你将运用所学知识,生成香奈儿模特…

【C++】C++11 新特性总结 | C++ 常见设计模式总结(秋招篇)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言介绍几种C11新特性介绍一下自动类型推导auto和decltype关键字的用法举例讲一下范围基于的for循环介绍一下列表初始化讲一下右值引用,和左值引用的区…

ubuntu服务器配置ftp服务

需求:配置ftp服务用于在windows电脑上直接浏览、下载、上传ubuntu服务器上的文件,用于文件共享,方便实用 效果:用户打开windows资源管理器后输入ftp://xxx.xxx.xxx.xxx (公网IP地址)后,即可浏览…

map和set的使用总结

目录 一、关联式容器二、键值对三、树形结构的关联式容器3.1 set3.1.1 set介绍3.1.2 set的模板参数列表3.1.3 set的使用实例 3.2 map3.2.1 map的介绍3.2.2 map的参数列表说明3.2.3 map的operator[](very very very好用,map的精华)3.2.4 map的…

如何安全变更亚马逊收款账户?

有太多的卖家想知道如何安全变更亚马逊收款账户,因为更改了第三方收款账户可能会导致二次视频认证或者增强视频。真的是这样吗? 其实不推荐亚马逊店铺正常运营之后去变更信用卡,收款账户等重要资料的,因为玩黑科技的卖家也真的多…

深度学习——划分自定义数据集

深度学习——划分自定义数据集 以人脸表情数据集raf_db为例,初始目录如下: 需要经过处理后返回 train_images, train_label, val_images, val_label 定义 read_split_data(root: str, val_rate: float 0.2) 方法来解决,代码如下&#xff1a…

【Spring】(三)Spring 使用注解存储和读取 Bean对象

文章目录 前言一、使用注解储存 Bean 对象1.1 配置扫描路径1.2 类注解储存 Bean 对象1.2.1 Controller(控制器存储)1.2.2 Service(服务储存)1.2.3 Repository(仓库存储)1.2.4 Component(组件储存…

【MySQL】事务的多版本并发控制(MVCC)

目录 一、数据库并发的三种场景二、MVCC2.1 三个记录隐藏字段2.2 undo log(撤销日志)2.3 模拟MVCC2.3.1 模拟更新(update)2.3.1 模拟删除(delete)2.3.1 模拟插入(insert)2.3.1 模拟查…

Windows使用docker desktop 安装kafka、zookeeper集群

docker-compose安装zookeeper集群 参考文章:http://t.csdn.cn/TtTYI https://blog.csdn.net/u010416101/article/details/122803105?spm1001.2014.3001.5501 准备工作: ​ 在开始新建集群之前,新建好文件夹,用来挂载kafka、z…

MySQL索引1——索引基本概念与索引结构(B树、R树、Hash等)

目录 索引(INDEX)基本概念 索引结构分类 BTree树索引结构 Hash索引结构 Full-Text索引 R-Tree索引 索引(INDEX)基本概念 什么是索引 索引是帮助MySQL高效获取数据的有序数据结构 为数据库表中的某些列创建索引,就是对数据库表中某些列的值通过不同的数据结…

24届华东理工大学近5年自动化考研院校分析

今天给大家带来的是华东理工大学控制考研分析 满满干货~还不快快点赞收藏 一、华东理工大学 学校简介 华东理工大学原名华东化工学院,1956年被定为全国首批招收研究生的学校之一,1960年起被中共中央确定为教育部直属的全国重点大学&#…

Vue读取本地静态.md并侧边栏导航跳转、展示.md文件

vue markdown 侧边栏导航跳转 类似锚点跳转 - 灰信网(软件开发博客聚合) Vue使用mavon-editor插件解析markdown编辑预览_onpine的博客-CSDN博客 vue组件直接读取.md文档展示_vue项目中读取readme文件_小蒜瓣的博客-CSDN博客vue中使用mavonEditor(markd…

uni-app uView自定义底部导航栏

因项目需要自定义底部导航栏&#xff0c;我把它写在了组件里&#xff0c;基于uView2框架写的&#xff08;vue2&#xff09;&#xff1b; 一、代码 在components下创建tabbar.vue文件&#xff0c;代码如下&#xff1a; <template><view><u-tabbar :value"c…