【多模态】BEiT v2

链接:https://arxiv.org/pdf/2208.06366
论文:BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

Introduction

  1. Motivation:Masked image modeling (MIM) 任务在自监督表征学习上取得了不错的成绩,但是现有方法大多是基于low-level image pixels,需要探索模型的high-level semantics。
  2. 创新点:引入了矢量量化知识蒸馏(Vector-Quantized Knowledge Distillation ,VQ-KD)算法来离散语义空间,同时引入一个patch聚合策略(a patch aggregation strategy)鼓励模型关联所有patch到[CLS]
  3. 实验效果:
    在这里插入图片描述

Details

整体架构与BEiT相似,依旧是包含一个visual tokenizer对图像进行离散表示(visual tokens),训练目标则是重建相应位置的masked visual tokens。

  1. Image Representation:依旧使用ViT,将输入切为patches,flattened and linearly projected to input embeddings,最终输入transformer。
  2. Training Visual Tokenizer
    在这里插入图片描述
    a. 提出vector-quantized knowledge distillation (VQ-KD)方法训练visual tokenizer, 架构如上图所示,包括tokenizer和decoder两部分。
    b. tokenizer将输入图像映射为一系列visual tokens,进行离散化,与patch数量对应。其包含一个Vision Transformer encoder, and a quantizer。想通过encoder将图像编码为向量,然后quantizer查找最近邻的表示。寻找最近邻embedding公式如下(quantizer的目的是将向量映射到固定词表,便于在后续mask任务中预测):
    在这里插入图片描述
    先对向量进行l2正则,使用余弦相似度计算。
    c. 向量量化后,过l2正则输入decoder,decoder模型为多层Transformer,其目标是重建Teacher模型的语义特征(Teacher模型可以为DINO或者CLIP)。再最大化decoder的输出和teacher模型的输出的余弦相似度。
    d. 由于量化过程不可微,直接使用梯度拷贝(从decoder的输入到encoder的输出),直观上,量化器为encoder输出查找最近的编码,所以该codebook embeddings的提督对encoder的优化方向有效。
    在这里插入图片描述
    第一项为decoder输出与teacher输出的余弦相似度损失,sg表示stop-gradient,前向传递过程中为恒等式,同时在反向传播期间具有零梯度。第二项和第三项分别代表前向和反向。
  3. Improving codebook utilization.
    向量量化训练期间很容易遇到codebook的坍缩,只有一小部分的codes可以使用,
    a. 量化过程将码本嵌入空间的维数减少到32-d, 在被送入解码器之前被映射回高维空间
    b. 指数移动平均可以使VQ-KD的训练稳定。
  4. Pretraining BEIT V2
    a. 给定输入图像x,大约40%的patches会被block-wisely masked,masked position会被标记,masked patch会被一个shared learnable embedding取代。
    b. prepend a learnable [CLS] token,在预测时对应位置加一个全连接层。
    在这里插入图片描述
    c. Pretraining global representation:为了使CLS更好地进行全局图像特征表示,消除patch-level的预训练对image-level的表示差异,选取最后L层的CLS表示,以及encoder第l层的patch表示,拼接作为一个浅层(2-layer)Transformer的输入,进行掩码预测。MIM Head的参数共享,两个loss相加(原始MIM loss和过完浅层transformer的loss)。直观上,这样做的好处在于由于使用训练不充分的中间表示,导致CLS更好地涵盖全局信息,使MIM loss更低。该新增的两层transformer仅辅助训练,inference会被丢弃。

实验

  1. 两阶段训练参数
    a. Visual tokenizer training
    ViT-B/16,decoder为三层Transformer,和encoder头数与维度都相同,Teacher使用CLIP-B/16 train VQ-KD on ImageNet-1k with 224×224 resolution。code size K is set as 8192,code dimension D as 32。
    b. Masked image modeling
    ImageNet-1K,set l = 9 for ViT-B/16, l = 21 for ViT-L/16,40% mask
    pre-train的vit encoder和modeling阶段不是同一个
  2. 对比实验
    在这里插入图片描述
    在这里插入图片描述
  3. 消融实验
    a. VQ-KD的消融
    在这里插入图片描述
    b. Patch aggregation消融
    在这里插入图片描述
    c. VQ-KD targets
    在这里插入图片描述
  4. 可视化实验
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/35733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

教师资格证考试面试报名流程

文章目录 前言面试报名流程一、登录官网二、选择报考省份三、注册报名账号四、确认考试承诺五、填报个人信息六、上传个人照片七、查看个人信息八、面试报名九、等待审核十、考试缴费最后(必看)附录1. 中小学教师资格考试网2. 广东省教资考试报名通知&am…

【Mysql】多表、外键约束

多表 1.1 多表简述 实际开发中,一个项目通常需要很多张表才能完成。 例如一个商城项目的数据库,需要有很多张表:用户表、分类表、商品表、订单表… 1.2 单表的缺点 1.2.1 数据准备 创建一个数据库 db3 CREATE DATABASE db3 CHARACTER SET utf8;数据库…

Segment any Text:优质文本分割是高质量RAG的必由之路

AI应用开发相关目录 本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群 AI应用开发流程概…

网络文化经营许可证(文网文)办理全面讲解

随着互联网时代的飞速发展,互联网早已渗透到人们的生活中,各类直播、短视频成为大家生活娱乐必不可少的一部分。注册一家从事互联网行业的企业是一个不错的选择。那互联网企业需要办理什么证件资质呢?在互联网行业从事盈利文化活动必须持有网…

【精品方案】智能制造之路(93页PPT)

引言:智能制造之路:革新制造业的引领之旅 随着科技的迅猛发展,特别是人工智能、物联网、大数据等技术的不断进步,制造业正迎来一场深刻的变革。智能制造,作为这场变革的核心,正逐步成为推动产业升级和转型发…

大模型课程资料-全网最火29套全栈大模型项目实践

29套AI全栈大模型项目实战,人工智能视频课程-多模态大模型,微调技术训练营,大模型多场景实战,AI图像处理,AI量化投资,OPenCV视觉处理,机器学习,Pytorch深度学习,推荐系统…

【LLM】一分钟带你了解Agent工作流四范式

文章目录 1. 大模型直接生成-generation2. 大模型充当工具使用-tool3. 大模型执行思维链-Planning4. 多大模型Agent合作-multiagent collaboration 1. 大模型直接生成-generation 通过提示词,大模型直接生成想要的结果: 2. 大模型充当工具使用-tool …

拥抱数字化未来,如何以费控驱动业务发展?

管理费用是企业运营中仅次于人力成本的第二大可控成本,一般会占到企业年度收入的5%—10%,但多数企业存在费用疏于管理、费用管理制度流于纸面难落地、费用浪费严重等问题。 如果不进行科学管理,有专家表示,估计企业每年至少有10%的…

vue总结

1.什么是VUE? Vue就是一套用于构建用户界面的渐进式框架,与其他框架不同的是,Vue被设计为可以自底向上逐渐应用.Vue的核心库只关注图层,不仅容易上手,还便于与第三方库或既有项目整合. 2.Vue的优点 体积小 高效率 双向数据绑定,简化Dom操作 通过MVVM思想实现数据的双向绑定…

Pixea Plus for Mac:图像编辑的极致体验

Pixea Plus for Mac 是一款专为 Mac 用户设计的强大图像编辑软件。凭借其卓越的性能和丰富的功能,它为用户带来了前所未有的图像编辑体验。无论是专业的设计师,还是业余的摄影爱好者,Pixea Plus 都能满足您对于图像编辑的各种需求。 Pixea P…

浏览器扩展V3开发系列之 chrome.cookies 的用法和案例

【作者主页】:小鱼神1024 【擅长领域】:JS逆向、小程序逆向、AST还原、验证码突防、Python开发、浏览器插件开发、React前端开发、NestJS后端开发等等 chrome.cookies API能够让我们在扩展程序中去操作浏览器的cookies。 在使用 chrome.cookies 要先声明…

软考系统架构师考试考点整理就看这一篇

软考系统架构师考试考点整理就看这一篇 最近软考成绩出来了不少同学与笔者沟通,聊到软考现在越来越难了,考了两三次都没过,也有不少新同学咨询软考考试的一些福利政策,投入大量的物力,财力,精力&#xff0c…

如何借助物联网实现土壤监测与保护

如何借助物联网实现土壤监测与保护 高标准农田信息化是指利用现代信息技术,如物联网、大数据、云计算等,对农田进行数字化、智能化的管理,以提高农田的生产效率和可持续发展能力。其中,土壤监测与保护是农田信息化的重要内容之一…

低代码:释放企业创新力的钥匙

近年来,随着信息技术的不断发展,企业对于快速开发应用程序的需求越来越迫切。然而,传统的软件开发过程常常耗时费力,限制了企业的创新潜力。于是,低代码应运而生,成为解决开发难题的一把利器。 低代码开发…

智能聊天AI机器人网页怎么聊?这样做很简单

智能聊天AI机器人网页怎么聊?随着科技的飞速发展,智能聊天AI机器人已经逐渐渗透到我们的日常生活中,为我们提供了更加便捷、高效的交流方式。在网页上,这些智能聊天机器人以其独特的魅力,为我们打开了与机器对话的新世…

Epic商店登录时一直转圈圈怎么回事?Epic登录转圈圈解决办法

很多游戏玩家都喜欢在Epic商店上面免费领取游戏,但是经常在登陆领取的过程中,遇到Epic账号登陆不上的问题,登陆界面一直转圈圈,下面分享一下具体解决办法,帮助大家顺利流畅登陆,轻松喜加一。 如果遇到Epic商…

低内阻、高性能数字音频功放芯片-NTP8938

由工采网代理的韩国NF(耐福)NTP8938是一款支持2X30W低内阻、高性能数字音频功放芯片;采用QFN40封装,芯片内置DSP集成了多功能数字音频信号处理功能,高性能,高保真。 芯片工作电压范围:5V&#x…

python实现可视化大屏(django+pyechars)

1.实现效果图 2.对数据库进行迁移 python manage.py makemigrations python manage.py migrate 3.登录页面 {% load static%} <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport"…

【回溯算法题记录】组合总和题汇总

组合总和 39. 组合总和题目描述初始思路后续分析 40. 组合总和 II题目描述思路&#xff08;参考代码随想录&#xff09; 39. 组合总和 题目&#x1f517; 题目描述 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数…

3d渲染软件有哪些(2),渲染100邀请码1a12

3D渲染软件有很多&#xff0c;上次我们介绍了几个&#xff0c;这次我们接着介绍。 1、Arnold Arnold渲染器是一款基于物理算法的电影级渲染引擎&#xff0c;它具有渲染质量高、材质系统丰富、渲染速度快等特点&#xff0c;是3D设计师的极佳选择。2、Octane Render Octane Ren…