ICCV2023 | MCD: Misalign, Contrast then Distill:重新思考VLP中的错位

论文标题: Misalign, Contrast then Distill: Rethinking Misalignments in Language-Image Pretraining

论文地址:ICCV 2023 Open Access Repository

代码:None

LG AI Research

一、问题提出

SLIP发现,在CLIP中引入增强(特别是调整裁剪和翻转的大小)实际上会导致性能下降。SimCLR通过在图像之间用自监督学习损失代替infoNCE,避开了在CLIP中使用增强视图,但是在充分捕捉多模式学习的本质方面存在局限性。但是对于image-text中随机图像增强过程不知道其对应的文本,经常导致增强图像视图与其描述不一致:

这些不一致给VLP中对比损失中加入了噪声,如果不适当处理,会导致性能下降。为了缓解这个问题,最近,使用额外的augmentation embeddings或 heavy external off-the-shelf object detectors and summary extractors 来匹配训练期间的对齐。但是他们局限性是在训练和推理中都增加了不必要的负担。

因此,是否可以将其利用起来?即是否可以将它们作为VLP的训练源。

二、Methods

1、Misalign

对图像进行随机扩增,创建图像与文本出现不同程度的错位(或根本不对齐)。存在三种情况(i)文本不可知的随机增强可能会导致正图像-文本对中的错位。(ii)随机增强可能错误地导致负对之间的正信号出现。(iii)在原始图像-文本对内可能已经天然存在错位。

(其实就是三种错位:正样本对变负样本对,负样本对变正样本对,数据集中本来的错位)

2、Contrast

将所有数据(图像、文本和增强图像)映射到一个同一多模态空间中,并通过对比目标(对比度)学习所有图像-文本对之间的距离。具体:使用这两种模态的所有正对和负对。包括N个图像样本、N个文本样本和N个随机增强图像样本,zi为batch(3N)中的i-th embedding,zp为正样本:

3、Distill

Log-Ratio Loss for Image–Text Distance.

给定学生的fI和动量教师的f'I,通过学习embedding空间中图像-文本不对齐的比率来近似相似距离的比率。使用Log-Ratio损失:

Misalignment in Positive pairs.

设i′表示增强图像样本的索引。在方程(5)InfoNCE上,第i′个图像样本和第i个文本样本作为正对。然而,随机扩充偶尔可以将正对转换为负对。为了解释这种转换,利用原始对和增广对之间的对数比:

Misalignment in Negative pairs.

增强图像可以与不同的文本具有相关性,这通常被视为方程中的负对:

Misalignment in Noisy pairs.

提出了噪声对的损失,其中噪声标签被训练为比匹配的图像-文本对具有更大的距离:

Distillation Loss.

总的算法流程:

三、Training MCD

1、MLM Loss.

2、Momentum Teacher Update.

学生Encoder器和动量教师Encoder。学生使用损失更新,教师使用动量更新:

3、Progressive Distillation.

InfoNCE的损失与错位损失相冲突。因为InfoNCE不管其错位程度如何,它只管拉开距离。在训练的早期阶段,模型需要学习如何用硬标签区分阳性或阴性配对。然而,随着训练的进行,对数比损失精细地模拟了原始图像-文本对中增加或固有存在的各种不对齐之间的距离。因此,逐渐减少涉及增强视图的InfoNCE损失的贡献:

四、Experiment

MCD Pretraining on YFCC15M Dataset

Image–Text Retrieval

Vision–Language Compositionality

ImageNet zero-shot

Ablation Study

该工作的亮点在于将这种Misalignments当成一种训练资源在用,并引入了Log-Ratio(计算错位的相似度差),分成三类,故事很好。早前训练InfoNCE Loss为主,后期训练以Log-Ratio Loss为主。根据教师网络的参数更新方式,教师网络和学生网络就是“动量编码器”与“编码器”之间区别,只是套上了一层蒸馏的意识外壳(因为要求相似度的差值)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/640109.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring项目aop实现接口防止连续点击锁

aop实现 1,注解 注解用于接口方法、接口参数、和请求实体的属性上。 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/*** author dll*/ Ta…

MfgTool烧写工具

系列文章目录 MfgTool烧写工具 MfgTool烧写工具 系列文章目录一、MfgTool工具简介二、烧写NXP官方系统三、烧写自己的系统四、改造自己的烧写工具 一、MfgTool工具简介 1、mfgtool是NXP官方做的向I.MX系列烧写系统的软件,运行在windows下。可以烧写uboot.imx、zIma…

如何在Shopee深圳站点进行选品并提高销售潜力?

在如今的电商市场中,选品是卖家们提高销售业绩的重要环节。对于在Shopee深圳站点进行选品的卖家来说,了解市场需求、分析竞争对手、优化供应链管理、制定合理的价格策略以及精准的营销策略都是至关重要的。本文将为您介绍一些关键策略,帮助您…

php目录操作示例

目录 1.常用函数 2.列举当前目录列表 3.判断是否是文件夹 1.常用函数 函数名功能scandir 列出指定路径中的文件和目录 opendir 打开文件夹,返回操作资源 readdir读取文件夹资源closedir 关闭文件夹操作资源 is_dir 判断是否是文件夹 filetype 显示是文件夹还是文…

CSS 蜡烛效果

<template><view class="holder"><!-- 身子 --><view class="candle"><!-- 光源 --><view class="blinking-glow"></view><!-- 火星子 --><view class="thread"></view>…

transformer优化(二)-DETR 学习笔记

论文地址&#xff1a;https://arxiv.org/pdf/2005.12872.pdf 代码地址&#xff1a;https://github.com/bubbliiiing/detr-pytorch https://github.com/facebookresearch/detr 1.是什么&#xff1f; DETR&#xff08;Detection Transformer&#xff09;是一种基于Transforme…

新崛起的自动化神器Playwright

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

词语的魔力:语言在我们生活中的艺术与影响

Words That Move Mountains: The Art and Impact of Language in Our Lives 词语的魔力&#xff1a;语言在我们生活中的艺术与影响 Hello there, wonderful people! Today, I’d like to gab about the magical essence of language that’s more than just a chatty tool in o…

怎么去除水中的溴酸盐

语&#xff1a;近年来&#xff0c;我国矿泉水市场发展迅速&#xff0c;各种品牌和类型的矿泉水琳琅满目。然而&#xff0c;在众多矿泉水产品中&#xff0c;部分产品却存在溴酸盐超标的问题。本文将为您揭示矿泉水溴酸盐超标的危害&#xff0c;提醒消费者在选购矿泉水时务必谨慎…

redis的事件机制

文章目录 文件事件1. 文件事件处理器的构成2. I/O多路复用程序的实现3. 事件的类型4. 文件事件的处理器 时间事件1. 实现 事件的调度与执行 Redis服务器是一个事件驱动程序&#xff08;单Reactor单线程模型&#xff09;&#xff0c;服务器需要处理以下两类事件&#xff1a; 文件…

Kafka(三)【Broker 存储】

目录 前言 Kafka Broker 1、工作流程 1.1、Zookeeper 存储的 Kafka 信息 1.2、Kafka Broker 的总体工作流程 1.3、Broke 重要参数 2、Kafka 副本 2.1、副本基本信息 2.2、Keader 选举流程 2.3、Leader 和 Follower 的故障处理细节 Follower 故障 Leader 故障&#x…

2017年认证杯SPSSPRO杯数学建模A题(第一阶段)安全的后视镜全过程文档及程序

2017年认证杯SPSSPRO杯数学建模 A题 安全的后视镜 原题再现&#xff1a; 汽车后视镜的视野对行车安全非常重要。一般来说&#xff0c;汽车的后视镜需要有良好的视野范围&#xff0c;以便驾驶员能够全面地了解车后方的道路情况。同时&#xff0c;后视镜也要使图像的畸变尽可能…

国产品牌GC6609与TM2209的参数分析,为什么适用于3D打印机,医疗器械等产品中

步进电机驱动的应用方案目前市场上大多选用国外品牌的电机驱动器&#xff0c;其中trinamic的TMC2208/2209在这一块的应用很广泛。但是由于市场越来越应激。&#xff0c;当前对于产品开发成本要求也越来越低&#xff0c;国产品地准出了相应的TMC2208/2209&#xff0c;因此trinam…

Vue3+ElementUI 多选框中复选框和名字点击方法效果分离

现在的需求为 比如我点击了Option A &#xff0c;触发点击Option A的方法&#xff0c;并且复选框不会取消勾选&#xff0c;分离的方法。 <el-checkbox-group v-model"mapWork.model_checkArray.value"> <div class"naipTypeDom" v-for"item …

国家急救日倡议活动暨120急救大课堂公益培训在京成功举办

2024年1月20日&#xff0c;由国家卫生健康委员会等多个相关部门指导&#xff0c;中国医院协会急救中心&#xff08;站&#xff09;分会主办&#xff0c;北京急救中心承办的“国家急救日”倡议活动暨急救科普大课堂公益培训系列活动&#xff0c;在全国范围内启动。 健康中国行动…

王晶感慨62岁刘德华的一日三餐,简直不是人过的日子

♥ 为方便您进行讨论和分享&#xff0c;同时也为能带给您不一样的参与感。请您在阅读本文之前&#xff0c;点击一下“关注”&#xff0c;非常感谢您的支持&#xff01; 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 你是否曾对那些身材保持得如此之好的人感到过羡慕&#xff1f…

使用vue-pdf插件加载pdf

安装&#xff1a; // 安装这个版本&#xff0c;其它版本会有千奇百怪的错&#xff0c;这个版本和4.0.0都是可以的 cnpm install vue-pdf4.2.0// 安装pdfjs-dist cnpm install pdfjs-dist2.5.207 使用&#xff1a; // 我的css样式是pxToRem&#xff0c;友友们使用可能样式会有…

HCIP之BGP联邦实验

华子目录 实验拓扑及要求规划网段和IP地址实验步骤配置IP地址先让IGP通建BGP邻居修改ospf下环回接口网络类型修改联邦之间的最大跳数每台运行BGP的路由器批量宣告路由修改本地下一跳测试 实验拓扑及要求 规划网段和IP地址 实验步骤 配置IP地址 r1配置&#xff0c;依次类推 […

什么叫单位矩阵?

单位矩阵&#xff08;Identity Matrix&#xff09;是一个特殊的方阵&#xff0c;其主对角线上的元素全为1&#xff0c;而其他元素全为0。单位矩阵通常用符号 I 或 E 表示。 一个nn 的单位矩阵的表示形式如下&#xff1a; 其中&#xff0c;主对角线上的元素全为1&#xff0c;…

C/Cxx-面向对象中Message的概念

在Programming Abstractions in C pp.129遇到了面向对象中messages这个概念&#xff1a; “In the object-oriented world, objects communicate by sending information and requests from one object to another. Collectively, these transmissions are called messages. Th…