在矩池云上使用CogVLM的具体方法(附与GPT4、Gemini测试效果对比)

CogVLM 是由智谱AI&清华KEG基于对视觉和语言信息之间融合的理解,所推出的多模态大模型。在本文中,我们将展示在矩池云上使用CogVLM的方法。

硬件要求

使用 CogVLM 需要 CUDA 11.8 及以上环境,推理总显存需要40G以上,可以直接使用 A40 A6000,或者 A100,也可以使用 2卡3090/A30/4090等。

上传数据模型

首先使用矩池云网盘上传需要的模型文件,本次使用的cogvlm-chat模型,另外还需要vicuna-7b-v1.5,这两个模型文件可以从 modelscope 平台进行下载,地址如下:

https://www.modelscope.cn/models/ZhipuAI/cogvlm-chat
https://modelscope.cn/models/AI-ModelScope/vicuna-7b-v1.5

使用网盘客户端 https://matpool.com/download/netdisk 可以直接将 modelscope 文件导入网盘指定目录。操作顺序如下图所示:

  • 点击应用ModelScope
  • 输入要上传的 ModelScope 模型链接
  • 点击模型地址输入框旁的浏览按钮,勾选所有文件
  • 点击导入网盘
  • 选择要存入的目录,然后点击确定即可

等模型文件上传时,我们可以同步进行下一步环境配置操作。

租用机器,配置环境

租用机器

在矩池云主机市场:https://matpool.com/host-market/gpu,选择一个A系列显卡,比如 A2000 (先租用便宜机器配置好环境,配置好可以保存环境)。 然后点击租用按钮。(也可以选其他支持 CUDA 11.8 显卡)

在租用页面,搜索 Pytorch2.1 ,选择 Pytorch 2.1.1 这个镜像,并在高级选项里自定义一个 8501端口(后面部署的 CogVLM webui 项目在这个端口),具体步骤如下图所示。

机器租用成功后,你会看到 8501 端口对应链接,后面启动 CogVLM web服务会在这个端口。

我们先点击打开 Jupyterlab,然后新建一个 Terminal 进行环境配置。

配置环境

首先需要 clone 下项目代码,Terminal 里输入以下指令即可。

git clone https://mirror.ghproxy.com/https://github.com/THUDM/CogVLM.git

clone 完成后,我们可以点击左侧的目录导航里的 CogVLM 打开项目文件夹,或者 Terminal 里输入指令进入 CogVLM 目录。

输入以下指令安装需要的Python依赖环境:

pip install -r requirements.txt 

安装有可能遇到这种依赖错误,理论上不影响我们后续的操作和最终CogVLM的使用。

当然,如果担心也可以继续输入以下指令安装对应版本包。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

以上内容配置完毕后,在租用页面点击更多保存到个人环境

等模型文件都下载好就可以开启下一步了。

运行程序

租用页面租用机器,这次运行程序,我们可以选择2卡A30/3090,或者单卡的A40/A6000,如下图所示,以租用 A6000 为例子,点击租用后。

这里我们试运行CogVLM项目下的composite_demo,打开 composite_demo 下的 client.py,由于本地只测试cogvlm-chat-hf模型,所以我吗注释掉24-40行代码(用于测试 agent_chat、vlm_chat、vlm_grounding的配置代码),取消44-52行的单模型测试配置代码,并将模型路径改成我们前面下载到网盘的绝对路径,以我自己为例,我是存放在/mnt/example/vicuna-7b-v1.5/mnt/example/cogvlm-chat中。

# if you just use one model, use like this
# /mnt/example 替换成自己的模型所在路径
models_info = {'tokenizer': {'path': os.environ.get('TOKENIZER_PATH', '/mnt/example/vicuna-7b-v1.5'),},'vlm_chat': {'path': os.environ.get('MODEL_PATH_AGENT_CHAT', '/mnt/example/cogvlm-chat'),'device': ['cuda:0']},
}

Jupyterlab 里新建一个Terminal,输入以下指令:

# 进入项目目录
cd /CogVLM/composite_demo
# 运行测试demo
streamlit run main.py

运行后服务会启动到 8051 端口,我们访问租用页面 8051 端口链接即可访问到对应服务了。

比如:https://hz.xxxx.com:xxxx/?token=xxxxx

需要注意,实际我们请求不需要 token,所以直接用:https://hz.xxxx.com:xxxx 这段即可。

访问后,模型开始加载,大概需要6-10分钟。模型完全加载到单卡A6000中占用显存 33.5 GB左右。

模型加载完毕,点击左侧的 Browse files 传一张图片进去,就可以提问进行测试:

Q: describe this paintingA: This is a pixelated artwork depicting a butterfly with vibrant colors. The background consists of layered green and teal mountains, and there's a winding golden pathway that seems to lead the viewer's eyes towards the butterfly. The butterfly itself has a predominantly pink and orange hue with white wings and a red and yellow head.

对比测试

在此基础上,我们对CogVLM、GPT4和Gemini的表现进行了一些测试。

描述图片中的时间

输入如下图片,CogVLM、GPT4和Gemini都能基本准确的进行对其进行描述。
在这里插入图片描述

CogVLM
在这里插入图片描述
GPT4
在这里插入图片描述

Gemini
在这里插入图片描述

绘画鉴赏(印象派)

当我们加大一定难度,输入的图片为莫奈的《打阳伞的女人》时,具体给定描述语为:This is a famous oil painting. Do you know the author and name of this painting? Please appreciate this painting and analyze it from the perspective of composition, brightness, saturation, contrast, and emotional atmosphere. 不同模型的反应变得较有趣味,CogVLM虽然输出不多但是描述基本准确,GPT4输出较长,而且有一定逻辑性,而Gemini对于有人像的图片(即便是油画)也拒绝评论。
在这里插入图片描述

CogVLM
Answer:Yes, this painting is ‘Woman with a Parasol’ by Claude Monet. It’s a masterpiece of Impressionism, showcasing Monet’s unique brushwork and emphasis on light and atmosphere. The composition is balanced with the woman and the parasol occupying the left side, and the child on the right. The brightness and saturation are high, with vivid colors capturing the essence of a sunny day. The contrast is evident between the bright sky and the darker figures, drawing attention to them. The emotional atmosphere is one of tranquility and leisure, capturing a fleeting moment in time.

GPT4
在这里插入图片描述

Gemini
在这里插入图片描述

绘画鉴赏(抽象派)

我们输入毕加索的作品《蓝色房间》。具体描述语 This is a famous oil painting. Do you know the author and name of this painting? Please appreciate this painting and analyze it from the perspective of composition, brightness, saturation, contrast, and emotional atmosphere. 在这个场景下,其对图片的理解差距并不是非常大。
在这里插入图片描述

CogVLM
Yes, this painting is ‘The Blue Room’ by Pablo Picasso. It’s a masterpiece that showcases Picasso’s unique style and his ability to capture emotion and atmosphere in his work. From a composition perspective, the painting is balanced with the figure in the foreground and the bed in the background. The brightness and saturation are used to create a sense of warmth and intimacy, contrasting with the cool blue tones that dominate the room. The emotional atmosphere is one of tranquility and introspection, with the figure lost in thought and the room bathed in soft light.

GPT4
This painting is titled “The Blue Room” and was painted by the Russian artist Valentin Serov in 1904. Serov was one of the foremost portrait artists of his time and a key figure in the Russian art scene at the turn of the 20th century.

In terms of composition, “The Blue Room” features a central figure, a nude woman, engaged in what appears to be a bathing ritual. The woman is positioned in a manner that suggests a candid moment rather than a posed one, creating a sense of intimacy. The composition is balanced, with the elements of the room leading the viewer’s eyes around the scene, from the striped item on the left to the flower arrangement on the right, and finally to the artwork and the wall’s details.

The brightness and saturation levels of the painting contribute to the calm and somewhat reflective mood. The cool blue tones dominate the scene, establishing a serene and tranquil atmosphere. Alongside these blues are touches of warmer hues like the reds and oranges found in the patterned textile and the bouquet of flowers. These elements provide a contrast that enlivens the overall cool color scheme without overpowering it.

Contrast is also evident in the treatment of light and shadow. The white of the bed linens and the brighter spots on the wall stand out against the muted blues, lending depth to the scene, and highlighting the form of the woman and the ripple of the bedclothes.

Emotionally, the setting is peaceful and introspective. The posture of the woman, with her head down and her body slightly hunched, suggests a moment of vulnerability or self-absorption. Combined with the cool color palette and the soft lighting, the painting evokes a deep sense of solitude and quietude.

Overall, “The Blue Room” is a masterful display of Serov’s ability to capture a fleeting, personal moment with sensitivity and elegance, using color, light, and composition to express a quiet but profound emotional narrative.

Gemini
The painting you sent is The Blue Room by Pablo Picasso. It is an oil on canvas painting that he painted in 1901 during his Blue Period.

Composition

The painting is composed of two main figures: a nude woman bathing in a tub and a bearded man standing in the doorway. The woman is the central focus of the painting, and her body is positioned diagonally across the canvas, creating a sense of movement and energy. The man is positioned off-center, and his body is turned away from the viewer, creating a sense of mystery and distance.

The painting is also divided into two main planes: the foreground and the background. The foreground is occupied by the woman and the tub, while the background is occupied by the wall and the doorway. The contrast between the two planes creates a sense of depth and perspective.

Brightness

The painting is relatively dark, with the exception of the woman’s skin and the white towel draped over the tub. The darkness of the painting creates a sense of intimacy and moodiness.

Saturation

The colors in the painting are muted and desaturated. This is characteristic of Picasso’s Blue Period paintings, which are often dominated by shades of blue and green. The muted colors create a sense of melancholy and loneliness.

Contrast

The contrast between the light and dark areas of the painting is relatively low. This creates a sense of unity and harmony. However, the contrast between the woman’s skin and the darkness of the background creates a sense of focus and importance.

Emotional atmosphere

The overall emotional atmosphere of the painting is one of melancholy and loneliness. This is evident in the muted colors, the dark background, and the woman’s solitary pose. The painting also conveys a sense of intimacy and voyeurism.

Analysis

The Blue Room is a complex and powerful painting that can be interpreted in many ways. On one level, it can be seen as a reflection of Picasso’s own personal feelings of melancholy and loneliness during his Blue Period. On another level, it can be seen as a more general meditation on the human condition.

The painting is also notable for its innovative composition and use of color. Picasso’s use of diagonal lines and muted colors creates a sense of movement, depth, and mood. The painting is also a masterpiece of light and shadow.

Overall, The Blue Room is a masterpiece of modern art. It is a painting that continues to fascinate and inspire viewers today.

细粒度物体识别 (飞机)

当我们将输入内容换成空客A320飞机样图 (airbus A320),向各个模型询问:Please tell me the type of the plane。CogVLM给出的结论依旧非常简洁,GPT4和Gemini给出的答案会更详细一些,Gemini会给到更详细一些的型号。
在这里插入图片描述

CogVLM
The plane in the image is an Airbus A320.

GPT4
在这里插入图片描述

Gemini
在这里插入图片描述

物品计数

我们输入的图片是在非正面视角下的图书,要求各个模型对图中书的数目进行计数 ,人眼可分辨有20本左右,前面14本确实很容易分辨,后面的6本较难识别。
CogVLM能辨认出14本;GPT的能力较强,他认为有20本书,并且说有一些书不完全在视野中;而Gemini只看出来了5本。
在这里插入图片描述
CogVLM
在这里插入图片描述

GPT4
在这里插入图片描述

Gemini
在这里插入图片描述

由此简单的测试可看到,CogVLM的能力还是比较强的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/728026.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

评估需求优先级的方法

Kano模型: 1.前言 在大量的需求需要进行迭代时,由于时间、人力、财力等相关因素干扰,无法在有限的时间内容对所有的需求进行满足,此时需要我们对需求进行优先级的排列。最大化的合理的提高有限资源的使用。 在常见的产品优先级…

【笔记】Android Telephony 漫游SPN显示定制(Roaming Alpha Tag)

一、功能名词简介和显示规则 Alpha Tag:运营商名称标识符,也是用于标识运营商的一个名称。客户需求描述常用名词,对开发而言都是SPN/PLMN功能模块的内容,状态栏左上角的运营商名称显示。 SPN相关文章: 【笔记】SPN和…

重装系统后正版office如何安装

前言 重装系统后,正版office如何安装 登录官网 https://www.microsoft.com 下载office https://account.microsoft.com/services

OA系统看飞书,能把繁杂场景设计的这么流畅,绝对是高手。

OA系统看飞书,能把繁杂场景设计的这么流畅,绝对是高手。 2023-08-18 23:33贝格前端工场 飞书是一款功能强大、操作流畅的企业协作工具,它提供了丰富的功能和灵活的场景设计,使得用户在使用过程中能够更加高效地协作和沟通。 以…

ChatMASTER部署教程

项目简介 ChatMASTER,基于AI大模型api实现的自建后端Chat服务,支出同步响应及流式响应,完美呈现打印机效果。支持一键切换ChatGPT(3.5、4.0)模型、文心一言(支持Stable-Diffusion-XL作图)、通义千问、讯飞星火、智谱清言(ChatGLM)等主流模型…

IP形象设计是什么设计?如何做?

随着市场竞争的激烈,越来越多的企业开始关注品牌形象的塑造和推广。在品牌形象中,知识产权形象设计是一个非常重要的方面。在智能和互联网的趋势下,未来的知识产权形象设计可能更加关注数字和社交网络。通过数字技术和社交媒体平台&#xff0…

ospf虚链路实验简述

1、ospf虚链路实验简述 ospf虚链路配置 为解决普通区域不在骨干区域旁,通过配置Vlink-peer实现不同区域网络设备之间建立逻辑上的连接。 实验拓扑图 r1: sys sysname r1 undo info enable int loopb 0 ip add 1.1.1.1 32 ip add 200.200.200.200 32 quit int e0/0/…

Leetcode 239:滑动窗口最大值

题意 大小为 k 的滑动窗口从整数数组 nums 的最左侧移到最右侧,只能看到滑动窗口中的 k 个数字,窗口每次向右移动一位。 返回滑动窗口的最大值。 示例 1: 输入:nums [1,3,-1,-3,5,3,6,7], k 3 输出:[3,3,5,5,6,7] …

一家新店怎么快速出体验分?教大家一个简单好用的方法,建议收藏

大家好,我是电商花花。 在现在直播电商时代,抖音电商已经成为了一种新兴的商业模式,在抖音小店的项目上,店铺体验分成为了抖音小店能否成功的一个关键因素之一。 店铺的体验分越高,我们店铺的权重才会更高&#xff0…

04.if判断

04.if判断 01.if判断02.运算符2.比较(关系)运算符3.逻辑运算符4.三目运算符(三元表达式) (03)5.if-else6.if-elif结构 04.if嵌套7.if嵌套 01.if判断 if判断基本格式 基本格式 if 要判断的条件:…

1.BOM-获取元素(获取元素、修改属性)

web Api基本认知 作用:通过JS去操作html页面和浏览器(实现浏览器中的某些功能) 分类: DOM(网页):Document Object Model(文档对象模型) BOM(浏览器):Borwser Object Model(浏览器对象模型) DOM DOM树 将网页中标签的关系以树状…

【MySQL知识体系】第2章 数据库与表的创建(一)

第2章 数据库与表的创建 2.1 数据库操作 2.2 表操作 文章目录 第2章 数据库与表的创建2.1 数据库操作2.1.1 创建第一个数据库2.1.2 更新数据库名称(数据库创建后无法修改名称)2.1.3 删除数据库2.1.4 取个合适的数据库名称 第2章 数据库与表的创建 2.1 数…

在 echarts 的 rich 中使用 iconfont 图标库图标作为 backgroundColor.image 值的方法

实现步骤 1、引入 iconfont.js。该脚本执行时&#xff0c;会在 body 下插入一个 svg 标签&#xff0c;标签下包含了图标库中的 svg 图标 path。 <script src"your/iconfont/path/iconfont.js"></script>或者 import your/iconfont/path/iconfont.js2、…

【学习心得】websocket协议简介并与http协议对比

一、轮询和长轮询 在websocket协议出现之前&#xff0c;要想实现服务器和客户端的双向持久通信采取的是Ajax轮询。它的原理是每隔一段时间客户端就给服务器发送请求找服务器要数据。 让我们通过一个生活化的比喻来解释轮询和长轮询假设你正在与一位不怎么主动说话的老大爷&…

基于R语言lavaan的SEM在复杂统计建模中的科研技术新突破

此外&#xff0c;我们还将深入探讨R语言的基础知识、结构方程模型的基本原理、lavaan程序包的使用方法等内容。无论是潜变量分析、复合变量分析&#xff0c;还是非线性/非正态/缺失数据处理、分类变量分析、分组数据处理等复杂问题&#xff0c;我们都将一一为您解析。 希望通过…

3.7作业

网络聊天室&#xff1a; 程序代码&#xff1a; ser.c #include <myhead.h> //定义消息类型结构体 struct xiaoxi {char type;char name[20];char text[100]; };int main(int argc, const char* argv[]) {// 创建套接字int sfd socket(AF_INET, SOCK_STREAM, 0);if (s…

Spring源码:手写AOP

文章目录 一、概念1、AOP是什么&#xff1f;2、相关概念1&#xff09;目标对象Target2&#xff09;通知Advice3&#xff09;连接点Joinpoint4&#xff09;切点Pointcut5&#xff09;切面Aspect6&#xff09;织入Weaving 二、分析三、实现1、实现Advice1&#xff09;前置通知2&a…

企业微信HOOK协议,新设备二次验证处理

提示设备强制二次验证问题已处理 HOOK&#xff1a;https://www.showdoc.com.cn/1663062930779972/7859611259700402密码&#xff1a;999999999

大数据冷热分离方案

数据冷热分离方案 1、背景 ​ 随着业务的发展&#xff0c;在线表中的数据会逐渐增加。常规业务都有冷热数据现象明显的特性&#xff08;需要访问的都是近期产生的热数据&#xff1b;时间久远的冷数据出于备份、备案溯源等诉求会进行在线保留&#xff09;。在业务表数据 量可控…

安卓玩机工具推荐----高通芯片9008端口读写分区 备份分区 恢复分区 制作线刷包 工具操作解析

上期解析了下adb端口备份分区的有关操作 安卓玩机工具推荐----ADB状态读写分区 备份分区 恢复分区 查看分区号 工具操作解析 在以往的博文中对于高通芯片机型的分区读写已经分享了很多。相关类似博文 安卓备份分区----手动查询安卓系统分区信息 导出系统分区的一些基本操作 …