深度学习算法应用实战 | 利用 CLIP 模型进行“零样本图像分类”

文章目录

    • 1. 零样本图像分类简介
      • 1.1 什么是零样本图像分类?
      • 1.2 通俗一点的解释
    • 2. 模型原理图
    • 3. 环境配置
    • 4. 代码实战
    • 5. Gradio前端页面
      • 5.1 什么是 Gradio ?
    • 6 进阶操作
    • 7. 总结


1. 零样本图像分类简介

在这里插入图片描述

1.1 什么是零样本图像分类?

“零样本图像分类”(Zero-shot image classification)指的是使用一个模型对图像进行分类,而这个模型并没有在包含那些特定类别的标记样本的数据上进行过显式训练。

传统的图像分类方法需要在一组特定的带标签的图像上训练模型。这个模型通过学习,将图像的某些特征与标签相对应。当需要使用这种模型来处理引入了新标签集的分类任务时,通常需要进行模型的微调,以适应新的标签。

与此相反,零样本或开放词汇的图像分类模型通常是多模态模型,这些模型在包含大量图像及其相关描述的数据集上进行训练。这些模型学习了视觉和语言之间对齐的表示方法,可以应用于包括零样本图像分类在内的许多下游任务。

这是一种更为灵活的图像分类方法,它允许模型在不需要额外训练数据的情况下,泛化到新的和未见过的类别。同时,它也使用户能够用自由形式的文本描述来查询他们目标对象的图像。


1.2 通俗一点的解释

上面的内容如果看不懂没关系,下面我来用通俗的语言解释这段话:

比如我们想让一个熊孩子能认识不同的图片(比如区分猫和狗),我们需要给这个熊孩子看很多标有“这是猫”、“这是狗”的图片来训练它。这就像是在教熊孩子“这些特征意味着猫,那些特征意味着狗”。但如果突然出现一个新的动物种类,比如浣熊,而熊孩子之前没有学习过浣熊的图片,它就不知道怎么识别了。这时,我们通常需要给熊孩子更多的浣熊图片来训练它识别浣熊。这就是我们上面提到的传统的图像分类

然而,“零样本图像分类”就像是给熊孩子一种超能力,让它能在没有直接学习过某个类别(比如浣熊)的情况下也能识别出来。这种方式是通过训练熊孩子理解图片和文字之间的关系来实现的。比如,熊孩子在学习的时候不仅看图片,还学习这些图片的描述。这样,当它遇到一个新的图片(比如浣熊),即使它之前没有直接学习过,它也可以通过理解图片的特征和之间学到的文字描述来猜测这可能是“浣熊”。

总的来说,这就是一种更聪明的方式,让熊孩子能够在没有被直接训练识别某些东西的情况下,也能识别出这些东西来。


那这篇博客, 我就教大家使用 CLIP 搭建一个零样本的分类模型!不需要任何的训练就可以实现你的分类需求!

教程使用 huggingfacetransformers 库来完成,这样方便我对整个专栏的代码教程进行维护,也方便我为大家分发模型(这种多模态的模型一般都很大,自己下载一次很麻烦,我会在博客中提供模型网盘地址)。


2. 模型原理图

论文地址:[paper] Learning Transferable Visual Models From Natural Language Supervision (arxiv.org)

论文摘要最近,在大量数据上进行模型预训练的自然语言处理领域取得的突破为计算机视觉领域的类似基础模型铺平了道路。这些模型可以通过生成通用视觉特征(即,适用于不同图像分布和任务且无需微调的特征)来大大简化任何系统中图像的使用。本研究表明,如果在来自不同来源的足够多的策划数据上训练,现有的预训练方法,特别是自监督方法,可以产生这样的特征。我们重新审视现有方法,并结合不同技术来扩展我们的预训练,包括数据和模型规模方面。大部分技术贡献旨在加速和稳定大规模训练。在数据方面,我们提出了一个自动化管道,用于构建专用的、多样化的、策划的图像数据集,而不是像自监督文献中通常做的那样使用未策划的数据。在模型方面,我们训练了一个拥有10亿参数的ViT模型,并将其蒸馏成一系列较小的模型,这些模型在大多数图像和像素级基准测试中超过了现有最佳的通用特征,即OpenCLIP

在这里插入图片描述


3. 环境配置

后续所有教程都使用conda环境,请大家自行配置好~

conda create --name huggingface-env python==3.8 -yconda activate huggingface-envpip install transformers

4. 代码实战

本次实战我们选择 openai 团队开源的 clip-vit-base-patch32 版本。借助 transformers 库 ,我们可以通过几行代码就完成一个零样本分类任务。

下载好我提供的模型后,修改以下两处就可以顺利运行代码:

  1. model路径和processor路径指定到你下载下来文件的位置。
  2. image_path路径换成本地图片路径。
# 导入Python图像库PIL和requests库
from PIL import Image
import requests# 导入transformers库中的CLIP处理器和CLIP模型
from transformers import CLIPProcessor, CLIPModel# 从预训练路径加载CLIP模型
model = CLIPModel.from_pretrained("/home/models/clip-vit-base-patch32")
# 从预训练路径加载CLIP处理器
processor = CLIPProcessor.from_pretrained("/home/models/clip-vit-base-patch32")# 设置一个图像的路径
image_path = "000000039769.jpg"
# 使用PIL的Image打开它
image = Image.open(image_path)# 使用处理器处理文本(这里有两个文本:猫和狗的照片)和图片,将它们转换为模型可以处理的格式
inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)# 将处理好的输入数据传递给模型并得到输出
outputs = model(**inputs)
# 从输出中获取图像与文本之间的相似性分数
logits_per_image = outputs.logits_per_image 
# 使用softmax函数计算标签的概率
probs = logits_per_image.softmax(dim=1) 
# 打印出概率
print(probs)
# tensor([[0.9949, 0.0051]], grad_fn=<SoftmaxBackward0>)

模型地址

链接:https://pan.baidu.com/s/1eg95QBmMOx9P0GvX-pshMg
提取码:hhze

小知识

如果你够细心,你就会发现打印出来的概率后面有一个grad_fn标识。

grad_fn=<SoftmaxBackward0> 是一个表示该张量是通过某个操作产生的,并且这个操作在PyTorch的自动微分系统中具有可微性(即可以进行梯度反向传播)的标识。

  • tensor([[0.9949, 0.0051]]:这是一个包含概率值的张量。在这个例子中,它表示图片被模型识别为第一个类别("a photo of a cat")的概率是99.49%,识别为第二个类别("a photo of a dog")的概率是0.51%
  • grad_fn:这是"gradient function"的缩写,意味着这个张量是作为一个计算结果产生的,而这个计算是可以进行梯度反向传播的。在这种情况下,<SoftmaxBackward0>是一个特定的梯度函数,它指的是这个张量是通过Softmax函数计算得到的,并且如果需要的话,可以通过这个函数来计算梯度。

我们这篇内容就是那模型进行推理,所以我们不需要关心这个grad_fn属性。


5. Gradio前端页面

每次都使用黑洞洞的终端推理图片是不是很无聊呢?下面为大家介绍一个工具,它可以快速的为算法实现一个前端页面,方便我们以图形化的方式推理图片。

5.1 什么是 Gradio ?

项目地址:gradio-app

文档地址:Gradio Interface Docs

Gradio 是一个开源库,旨在为机器学习模型提供快速且易于使用的网页界面。它允许开发者和研究人员轻松地为他们的模型创建交互式的演示,使得无论技术背景如何的人都可以方便地试用和理解这些模型。使用Gradio,你只需几行代码就可以生成一个网页应用程序,该应用程序可以接收输入(如图片、文本或音频等),并展示模型的输出。这对于测试、展示和获取模型反馈非常有用,特别是在协作、教育或研究的环境中。此外,它还提供了一系列用于增强用户体验的功能,如输入验证、自定义布局和分析工具,这些都使得Gradio成为机器学习领域中展示和共享模型的受欢迎工具。

安装方式很简单,一行指令搞定。

pip install gradio -i https://pypi.tuna.tsinghua.edu.cn/simple

下面是我基于这个库实现的 CLIP 零样本分类模型页面,同时为大家分别准备了一张猫一张狗的图片,以便大家能够更好地体验和使用这个工具。

请添加图片描述
请添加图片描述

import gradio as gr
from PIL import Image
from transformers import CLIPProcessor, CLIPModel
import torch
import requests# 从预训练的路径中加载CLIP模型和处理器
model = CLIPModel.from_pretrained("/home/models/clip-vit-base-patch32"
)
processor = CLIPProcessor.from_pretrained("/home/models/clip-vit-base-patch32"
)def classify_image_with_text(image, text):# 根据逗号分割输入文本,以处理多个标签labels = text.split(",")# 处理输入数据:将文本和图像转换为模型可以处理的格式inputs = processor(text=labels, images=image, return_tensors="pt", padding=True)# 获取模型的输出with torch.no_grad():outputs = model(**inputs)# 计算概率logits_per_image = outputs.logits_per_image  # 这是图像与文本之间的相似度分数probs = logits_per_image.softmax(dim=1).tolist()[0]  # 用softmax获取标签概率# 创建一个响应字典,用于输出每个标签的概率response = {label: prob for label, prob in zip(labels, probs)}return response# 创建Gradio界面
# fn指定了要运行的函数,inputs定义了输入类型,outputs定义了输出类型
iface = gr.Interface(fn=classify_image_with_text,inputs=[gr.Image(type="pil"), gr.Textbox(label="Text Input")],  # 图片和文本框输入outputs="json",  # 输出为JSON格式examples=[["https://gitee.com/diffiehellman/diffiehellman_personal_blog_gallery/raw/master/cdog.jpg","dog, cat, tigers, lions, elephants, pandas, giraffes",],["https://gitee.com/diffiehellman/diffiehellman_personal_blog_gallery/raw/master/ccat.jpg","dog, cat, tigers, lions, elephants, pandas, giraffes",],],title="CLIP零样本图像分类",description="上传一张图片获得json格式的零样本分类结果",
)# 启动界面
iface.launch()

6 进阶操作

在我们学习了如何使用 CLIP 之后,接下来我们将利用这些知识来实施一个小型项目。这个项目的目的是通过实际操作来加强大家对 Python 中一些常用库的熟悉程度。

这一次,我们的项目相对简单:我们将从一个包含猫和狗图片的混合文件夹中,使用我们学习的算法自动区分并归类这两种图片。

这个案例不仅是一个很好的机器学习入门项目,也是一个非常实用的技能,可以应用于各种图片分类任务,用来清洗个数据集什么的非常的方便~

算法步骤

  1. 加载模型:使用transformers库加载预训练的 CLIP 模型和处理器。
  2. 读取图片:使用 PIL 读取图片。
  3. 图像预处理:使用 CLIP 的处理器对图片进行预处理。
  4. 模型预测:对每张处理过的图片使用 CLIP 模型,获取其与“猫”和“狗”文本描述的相似度。
  5. 分类和保存:根据模型的预测将图片分类为猫或狗,并保存到相应的文件夹。

使用到的Python库

  • PIL(Python Imaging Library):一个强大的图像处理库,可用于打开、操作和保存多种图像格式。
  • OS:用于与操作系统进行交互。它提供了丰富的方法来处理文件和文件夹。通过os库可以执行诸如创建、删除、移动文件和目录,以及获取文件属性等操作。
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
import os# 加载预训练的CLIP模型和处理器
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")# 定义读取图片的文件夹路径
folder_path = "/path/to/your/folder"# 定义保存分类后图片的路径
save_path_cats = "/path/to/save/cats"
save_path_dogs = "/path/to/save/dogs"# 读取文件夹中的所有图片文件
for filename in os.listdir(folder_path):if filename.endswith(".jpg") or filename.endswith(".png"):  # 检查文件格式# 打开图片image = Image.open(os.path.join(folder_path, filename))# 使用处理器处理图片和文本inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)# 模型预测outputs = model(**inputs)probs = outputs.logits_per_image.softmax(dim=1)# 根据预测结果分类图片if probs[0, 0] > probs[0, 1]:  # 如果“猫”的概率高于“狗”image.save(os.path.join(save_path_cats, filename))  # 保存到猫的文件夹else:image.save(os.path.join(save_path_dogs, filename))  # 保存到狗的文件夹print("分类完成!")

7. 总结

这篇教程是我们系列文章的开篇之作。虽然内容相对简单,但我们实现的算法 CLIP 是一个在多模态领域极具影响力的模型。这个经典的模型不仅在本教程中发挥了重要作用,而且在后续的博客中,我们还将继续利用它来实施更多的有趣项目。

这个系列旨在逐步深入,让大家不仅了解算法的基础知识,还能学习如何将这些算法应用于实际的、有意义的项目中。每一篇教程都是精心设计的,以确保即使是初学者也能够跟上节奏,并逐步提升自己的技能。

我非常欢迎大家在评论区提出自己遇到的实际任务,或者对特定算法的疑问和讨论。

感谢大家的支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/612453.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用懒加载 + 零拷贝后,程序的秒开率提升至99.99%

目录 一、5秒钟加载一个页面的真相二、优化四步走1、“懒加载”2、线上显示 就读取一个文件&#xff0c;为什么会慢呢&#xff1f; 三、先从上帝视角&#xff0c;了解一下啥子是IO流四、写个栗子&#xff0c;测试一下1、通过字符输入流FileReader读取2、通过缓冲流BufferedRea…

Spark---RDD序列化

文章目录 1 什么是序列化2.RDD中的闭包检查3.Kryo 序列化框架 1 什么是序列化 序列化是指 将对象的状态信息转换为可以存储或传输的形式的过程。 在序列化期间&#xff0c;对象将其当前状态写入到临时或持久性存储区。以后&#xff0c;可以通过从存储区中读取或反序列化对象的…

YOLOv8改进 | 检测头篇 | 利用DynamicHead增加辅助检测头针对性检测(四头版本)

一、本文介绍 本文给大家带来的改进机制是针对性的改进,针对于小目标检测增加P2层,针对于大目标检测增加P6层利用DynamicHead(原版本一比一复现,全网独一份,不同于网上魔改版本)进行检测,其中我们增加P2层其拥有更高的分辨率,这使得模型能够更好地捕捉到小尺寸目标的细节…

docker启动mongo

用户名&#xff1a;root 密码&#xff1a;123456 version: 3.1 services:mongo:image: mongo:7container_name: mongorestart: alwaysports:- 27017:27017volumes:- /opt/data/mongo:/data/dbenvironment:TZ: Asia/ShanghaiMONGO_INITDB_ROOT_USERNAME: rootMONGO_INITDB_ROO…

第10.2节-简历匹配性和表现力自查

(点击即可收听) 多次投递简历却没有得到回复时&#xff0c;我们应该对自己的简历进行检查和评估&#xff0c;对比那些优秀的简历 找到自己的不足之处并进行修改。 优秀的简历是反复修改出来的&#xff0c;对于每一个需要靠简历找工作的求职者而言&#xff0c;没有完美的简历&am…

【GoLang入门教程】Go语言几种标准库介绍(六)

文章目录 前言几种库Net库 (网络库&#xff0c;支持 Socket、HTTP、邮件、RPC、SMTP 等)重要的子包和功能&#xff1a;示例 OS库&#xff08;操作系统平台不依赖平台操作封装&#xff09;主要功能&#xff1a;示例 path库(兼容各操作系统的路径操作实用函数)常用函数&#xff1…

在ubuntu上检查内存使用情况的九种方法

在 Ubuntu 中&#xff0c;可以通过 GUI(图形用户界面)和命令行使用多种方法来监视系统的内存使用情况&#xff0c;监视 Ubuntu 服务器上的内存使用情况并不复杂&#xff1b;了解已使用和可用的内存量对于故障排除和优化服务器性能至关重要&#xff0c;因为内存对系统 I/O 速度至…

极狐 GitLab 冷知识:使用 Email 也可以创建 Issue?

前言 在使用 GitLab 时&#xff0c;创建 Issue 和 Merge Request 的方法&#xff0c;除了常规的使用 GitLab Web UI 进行操作和通过 API 调用操作&#xff0c;还有一些比较好玩的&#xff0c;比如使用 Email 来创建。 Incoming email 如果是 Self-Manager 的 GitLab 用户&am…

高精度彩色3D相机:开启崭新的彩色3D成像时代

3D成像的新时代 近年来&#xff0c;机器人技术的快速发展促使对3D相机技术的需求不断增加&#xff0c;原因在于&#xff0c;相机在提高机器人的性能和实现多种功能方面发挥了决定性作用。然而&#xff0c;其中许多应用所需的解决方案更复杂&#xff0c;仅提供环境的深度信息是…

分布式数据库原理及技术实验及个人思考

Hive的数据库及表的存储结构体系讨论&#xff1a; 1.显示hive所在数据库的位置 方法一&#xff1a;一次性临时存储 >hive set hive.cli.print.current.dbtrue 方法二&#xff1a;永久存储 在conf文件夹下修改hive-site.xml配置文件&#xff0c;添加 <property> …

解决matplotlib中文乱码问题

一、修改配置文件&#xff0c;一劳永逸的方法 1. 首先&#xff0c;下载SimHei字体&#xff08;即SimHei.tff包&#xff09;下载地址&#xff1a;SimHei.ttf|字体下载 2. 下载好之后&#xff0c;找到matplotlib文件夹&#xff0c;如下图所示&#xff1a; 如果找不到matplotlib…

基于JavaWeb+BS架构+SpringBoot+Vue智能菜谱推荐系统的设计和实现

基于JavaWebBS架构SpringBootVue智能菜谱推荐系统的设计和实现 文末获取源码Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例《500套》 源码获取 文末获取源码 Lun文目录 目 录 目 录 III 第一章 概述 1 1.1 研究背景 1 1.2研究目的及意义 1 1.3…

Digital Audio (HDMI)未插入 用Hdmi连接电脑 显示高清数字音频未插入 win10电脑没声音,喇叭上一个叉❌

先说结论&#xff0c;出现这些问题的原因&#xff1a; 未插入音频设备或者硬件问题&#xff08;10%&#xff09;设置错误&#xff0c;未使用显示器音频 &#xff08;30%&#xff09;音频驱动不兼容或者没有驱动&#xff08;50%&#xff09;其他驱动有问题 &#xff08;10%&…

“Tab“ 的新型可穿戴人工智能项链

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

少儿编程 2023年12月中国电子学会图形化编程等级考试Scratch编程三级真题解析(判断题)

2023年12月scratch编程等级考试三级真题 判断题 19、下列两段程序的运行效果相同 答案:对 考点分析:考查积木综合使用,重点考查循环积木的使用;左边属于有条件的循环,由变量的值控制,当变量值大于50时,循环停止,而变量始终为零,不满足条件,所以一直循环,和右边的…

白嫖aws创建Joplin server服务器

网上有很多的Joplin服务器的搭建教程&#xff0c;但是基本都是抄来抄去&#xff0c;对初学者实在是太不友好了。 话不多说&#xff0c;说干就干&#xff0c;自己从头找资料搭了一个&#xff0c;这可能是全网最好的Joplin服务器搭建教程了。 aws服务器 aws的服务器还是很香的&…

企业用WhatsApp营销的好处有哪些?

1.建立良好的客户关系 WhatsApp是全球用户喜爱的即时通信软件&#xff0c;使用WhatsApp与客户沟通&#xff0c;可拉进企业和客户双方的距离。使用WhatsApp会话和消息推送功能&#xff0c;企业和用户可实时开展消息对话&#xff0c;及时解决客户咨询与疑虑&#xff0c;构建便捷…

移动通信原理与关键技术学习之信道编解码(5)

先回顾调制的过程&#xff1a;调制就是对信号源的信息进行处理加到载波上&#xff0c;使其变为适合于信道传输的形式的过程&#xff0c;就是使载波随信号而改变的技术。 1.什么是IQ调制&#xff1f; 答&#xff1a;将数据分为两路&#xff0c;分别进行载波调制&#xff0c;两…

PIG框架学习2——资源服务器的配置详解

一、前言 1、pig资源服务器的配置 Spring Security oauth2相关的依赖是在pigx-common-security模块中引入的&#xff0c;其他模块需要进行token鉴权的&#xff0c;需要在微服务中引入pigx-common-security模块的依赖&#xff0c;从而间接引入相关的Spring security oauth2依赖…

20240110在ubuntu20.04下重启samba服务

20240110在ubuntu20.04下重启samba服务 百度搜索&#xff1a;samba restart https://www.python100.com/html/78028.html 重启samba命令详解 更新&#xff1a;2023-05-17 16:04 一、重启samba命令 重启samba可以使用以下命令&#xff1a; /etc/init.d/smb restart 或者 syste…