[CLIP] Learning Transferable Visual Models From Natural Language Supervision

[CLIP] Learning Transferable Visual Models From Natural Language Supervision

news/2025/4/8 6:53:14/文章来源:https://blog.csdn.net/sinat_30618203/article/details/139533819

通过在4亿图像/文本对上训练文字和图片的匹配关系来预训练网络，可以学习到SOTA的图像特征。预训练模型可以用于下游任务的零样本学习

1、网络结构

1）simplified version of ConVIRT

2）linear projection to map from each encoder's representation to the multi-modal embedding space

3）image encoder

-> ResNet

antialiased rect-2 blur pooling

用attention pooling (single layer of "transformer-style" multi-head QKV attention， where the query is conditioned on the global average-pooled representation of the image)来代替global average pooling

-> Vision Transformer (ViT)

add an additional layer normalization to the combined patch

position embeddings before the transformer

slightly different initialization scheme

4）text encoder

-> Transformer

architecture modifications

63M-parameter 12 layer 512-wide model with 8 attention heads

lower-cased byte pair encoding (BPE) representation of the text with a 49152 vocab size

the max sequence length was capped at 76

the text sequence is bracketed with [SOS] and [EOS] tokens

the activations of the highest layer of the transformer at the [EOS] token are treated as the feature representation of the text which is layer normalized and then linearly projected into the multi-modal embedding space

5）scale

-> image encoder

equally increase the width, depth, and resolution of the model

-> text encoder

only scale the width of the model to be proportional to the calculated increase in width of the ResNet, do not scale the depth at all

* text encoder对CLIP的表现影响较小

2、数据

1）400 million (image, text) pairs from Internet

2）many of the (image, text) pairs are only a single sentence

3、训练

1）Contrastive Language-Image Pre-training (CLIP)

2）text as a whole, not the exact words of that text

3）Given a batch of N (image, text) pairs, predict N x N possible (image, text) pairings。N取32768

4）jointly train an image encoder and text encoder

5）maximize the cosine similarity of the $N$ real pairs; minimizing the cosine similarity of the $N^{2} - N$ incorrect pairs

6）train from scratch

7）数据增强

random square crop from resized images

8）learnable temperature parameter $\tau$ (control the range of the logits in the softmax)

4、优势

无需softmax分类器来预测结果，因此可以更灵活的用于zero-shot任务

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/849497.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

使用Docker运行不同版本的Node.js

使用Docker运行不同版本的Node.js

使用Docker运行不同版本的Node.js 目录使用Docker运行不同版本的Node.js 一、Docker概述二、Node.js环境简介三、使用Docker运行不同版本的Node.js 四、高级操作与技巧五、总结与最佳实践一、Docker概述 1.1 定义与核心概念 Docker是一种开源的应用容器引擎，它允许…

阅读更多...

容器是什么？

容器是什么？

概念容器可以被看作是一种轻量级的虚拟化技术。与传统虚拟化技术相比，容器不需要为每个应用程序提供单独的操作系统，它们共享宿主机的操作系统内核。这使得容器更加轻便和高效。想象一下，容器就像是一艘艘可以在海洋中独立航行的货轮&…

阅读更多...

麒麟v10系统arm64架构openssh9.7p1的rpm包

麒麟v10系统arm64架构openssh9.7p1的rpm包

制作openssh 说明理论上制作的多个rpm在arm64架构（aarch64）都适用系统信息：4.19.90-17.ky10.aarch64 GNU/Linux 升级前备份好文件/etc/ssh、/etc/pam.d等以及开启telnet 升级后确认正常后关闭telnet 在之前制作过openssh-9.5p1基础上继续…

阅读更多...

1.Linux入门

1.Linux入门

文章目录一、介绍1.1 操作系统1.2 Linux1.3 虚拟机1.4 安装 CentOS7 二、远程连接 Linux2.1 FinalShell2.2 远程连接Linux 三、扩展3.1 WSL3.2 虚拟机快照一、介绍 1.1 操作系统我们平常所用的电脑是个人桌面操作系统，也就是Windows或者是macOS 目前我们要学的…

阅读更多...

【YOLOv10改进[CONV]】使用DualConv二次创新C2f模块实现轻量化 + 含全部代码和详细修改方式 + 手撕结构图 + 全网首发

【YOLOv10改进[CONV]】使用DualConv二次创新C2f模块实现轻量化 + 含全部代码和详细修改方式 + 手撕结构图 + 全网首发

本文将使用DualConv二次创新C2f模块实现轻量化，助力YOLOv10目标检测效果的实践，文中含全部代码、详细修改方式以及手撕结构图。助您轻松理解改进的方法。改进前和改进后的参数对比：目录一 DualConv 1 结合33卷积和11卷积核 2 DualConv 3 可视化二 C2f_DualConv助…

阅读更多...

el-dialog给弹框标题后加图标，鼠标悬停显示详细内容

el-dialog给弹框标题后加图标，鼠标悬停显示详细内容

效果： 代码： <div slot"title" class"el-dialog__title">标题<el-tooltip effect"dark" placement"right"><div slot"content">鼠标悬停显示</div><i class"el-icon…

阅读更多...

水务设备数字化管理

水务设备数字化管理

在数字化浪潮席卷全球的今天，水务行业也迎来了数字化转型的重要契机。传统水务管理模式中，设备监控、数据收集、运行维护等环节往往存在效率低下、成本高昂、安全隐患多等问题。而HiWoo Cloud平台的出现，以其强大的设备接入能力、高效的数据处…

阅读更多...

音视频开发23 FFmpeg 音频重采样

音视频开发23 FFmpeg 音频重采样

1.重采样 1.1 为什么要重采样？ 为什么要重采样？当然是原有的⾳频参数不满⾜我们的需求。⽐如在FFmpeg解码⾳频的时候，不同的⾳源有不同的格式，采样率等，在解码后的数据中的这些参数也会不⼀致。 (最新FFmpeg 解码⾳频…

阅读更多...

外贸自动化脚本编写会用到的源代码!

外贸自动化脚本编写会用到的源代码!

随着全球化的加速推进，外贸行业正迎来前所未有的发展机遇，为了提高工作效率、减少人为错误，并更好地把握市场机遇，越来越多的外贸企业开始关注自动化脚本的编写与应用。自动化脚本不仅可以帮助企业实现业务流程的自动化&#xf…

阅读更多...

语言模型解构——手搓BPE算法

语言模型解构——手搓BPE算法

1. BPE简介 BPE 的全称是 Byte Pair Encoding，原本是一种数据压缩算法，现已被广泛应用于自然语言处理中的分词任务。它通过统计高频字符序列来构建词表，并将词汇拆分为更小的、可重用的子词单元，例如：highest-> [h…

阅读更多...

凸函数的局部最优也是全局最优的证明

凸函数的局部最优也是全局最优的证明

这个性质早就知道了，但并不太清楚严谨的证明是什么。这也是《Introduction to linear optimization》书中第三章课后题的第一题。这篇博客给出严谨的证明。 Exercise 3.1 (Local minimum of convex functions) Let f : R n → R f: \mathcal{R}^n \rightarrow \m…

阅读更多...

css 清除伪类active,hover效果

css 清除伪类active,hover效果

来源 :hover伪类可以让我们设置鼠标移入时的样式。鼠标移入并选择后，我们就不想让这个元素触发active以及hover的效果该怎么整呢？ 解决使用pointer-events:none: 注意：pointer-event会阻挡所有的事件，包括js的click之类的事…

阅读更多...

View 关于文本框可以输入e，表单验证不正确的问题

View 关于文本框可以输入e，表单验证不正确的问题

【问题原因】：使用的组件为<input typenumber/>，这个时候按道理只能输入数字，但是字母e确可以确认，原因是e代表数字2.71828，他也是个数字，所以能输入【解决方案】： 1、使用组件<Input…

阅读更多...

派单软件，改变服务业未来的神秘武器！

派单软件，改变服务业未来的神秘武器！

随着人们生活质量的提升，对于日常生活、工作中的售后维修服务响应时间、服务质量十分的在意。即使现在信息化时代快速发展，但还是有不少人们面临着以下问题。你是否曾经因为等待维修服务而焦急万分？ 你是否曾经因为繁琐的报修流程而倍感烦恼…

阅读更多...

苍穹外卖笔记-08-套餐管理-增加，删除，修改，查询和起售停售套餐(上)

苍穹外卖笔记-08-套餐管理-增加，删除，修改，查询和起售停售套餐(上)

套餐管理 1 任务2 新增套餐2.1 需求分析和设计页面原型和业务规则接口设计setmeal和setmeal_dish表设计 2.2 代码开发2.2.1 根据分类id查询菜品DishControllerDishServiceDishServiceImplDishMapperDishMapper.xml 2.2.2 新增套餐接口SetmealControllerSetmealServiceSetmealSe…

阅读更多...

【自定义View】Android圆饼进度条

【自定义View】Android圆饼进度条

源码自定义属性 <?xml version"1.0" encoding"utf-8"?> <resources><declare-styleable name"ArcProgressView"><attr name"android:textSize" /><attr name"bgBorderWidth" format"d…

阅读更多...

计算机毕业设计基于YOLOv8的头盔检测系统

计算机毕业设计基于YOLOv8的头盔检测系统

1、安装Anaconda 官网下载或者哔哩哔哩有的up分享 https://www.anaconda.com/download 版本无所谓，安装位置不要有中文就行 2、创建环境yolov8 winR打开命令行 conda create -n yolov8 python3.9 3、打开源码下载下来放到你想放的目录，直接用pyCharm或者…

阅读更多...

【香橙派】Orange Pi AIpro体验——国产AI赋能

【香橙派】Orange Pi AIpro体验——国产AI赋能

文章目录 🍔开箱🛸烧录镜像⭐启动系统🎈本机登录🎈远程登陆 🎆AI功能体验🔎总结 🍔开箱可以看到是很精美的开发组件这里是香橙派官网 http://www.orangepi.cn/ 我们找到下面图片的内容&#…

阅读更多...

【C/C++】C语言如何实现类似C++的智能指针？

【C/C++】C语言如何实现类似C++的智能指针？

在C中，智能指针是为了自动化资源管理而引入的工具。比如std::unique_ptr和std::shared_ptr等，它们管理着所持有对象的生命周期，可以在智能指针被销毁时自动释放其所持有的资源。在C语言中，虽然没有直接的智能指针概念，…

阅读更多...

“冻干”凭什么好吃不肥喵？既能当零食又可做主食的冻干分享

“冻干”凭什么好吃不肥喵？既能当零食又可做主食的冻干分享

近年来，冻干猫粮因其高品质而备受喜爱，吸引了无数猫主人的目光，像我这样的资深养猫人早已开始选择冻干喂养。但新手养猫的人，可能会感到迷茫：冻干猫粮到底是什么？冻干可以一直当主食喂吗？ 一、…

阅读更多...

最新文章