albef论文学习

albef论文学习

news/2025/10/14 6:29:33/文章来源:https://blog.csdn.net/LI_XIAO_XING/article/details/137650797

首先要知道vit是啥东西。vit就是transformer模型在图像领域的运用。

transformer模型原本是用于自然语言的，encoder和decoder接受的都是文字。vit把图像分割成很多个小块，把各个小块拉长当成向量来用，接下来就是一样的。最后接一个全连接层做分类。

注意它只用了encoder部分哦

有些模型会把最后得到的tokens做一个平均作为输入给最后的全连接层的值（用这个平均作为这个图片上提炼出来的信息），有些模型会在后面加上一个cls 作为 token(bert饼干)，最后拿这个cls对应的值作为图像的信息。albet使用的是后者的方法。

再来看albet部分：

左边那一部分其实和vit一毛一样，（可能是图像进入transformer模型的通用方法）提出来的黄色方块就是上文提到的cls对应的token，是图像信息的精华。

右边的部分是bert模型的一部分。用这个已经预训练过的语言模型处理text信息，bert模型那当然cls不得不品，和隔壁cls图像信息门当户对

这里的特点在于他把bert模型拆开了，（不拆开那不就是clip吗）

首先要对刚刚拿到的两个token做简化（downsample , normalization，把向量变短）

得到了两个正样本，就要尽可能让他们两个更近，负样本存在下面的队列里（moco操作，没有梯度不用占一大堆内存）通过正样本和负样本的对比学习得到的loss让图像特征和文本特征尽量拉近。在这一步就要让图像和文本尽量配对

事实上，这个模型只需要下面半部分就已经可以通过正负样本的学习来学习哪些图像和文本可以配对了。

ITM（img text matching）loss是什么？判断文本和图片匹不匹配。这一步不给他上强度的话会很简单，所以会从一开始搞正负样本的地方找出一个与正样本相似度最高的样本作为负样本给它判断，强化其能力。

MLM就是bert的完型填空，但也运用了图像那一边传过来的信息。

主体部分就是这样，接下来是重量级：动量蒸馏

这个主要适用于对付从互联网上爬下来的垃圾数据。我们获得的图像和对应文本经常会牛头不对马嘴，别的文本却又刚好可以放进去，这样正样本和负样本对比学习就要学出史来了。

应对方法：不要one-hot而是multi-hot，从动量模型里得出一些可以的描述，让结果既要和正样本去靠拢，也要接近这些。

问题：动量模型是从哪来的？

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/809986.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

PostgreSQL入门到实战-第二十弹

PostgreSQL入门到实战-第二十弹

PostgreSQL入门到实战 PostgreSQL中表连接操作(四)官网地址PostgreSQL概述PostgreSQL中LEFT JOIN命令理论PostgreSQL中LEFT JOIN命令实战更新计划 PostgreSQL中表连接操作(四) 如何使用PostgreSQL LEFT JOIN子句从多个表中选择数据官网地址声明: 由于操作系统, 版本更新等…

阅读更多...

【统计建模选题】针对网络诈骗受害者心理的统计建模研究

【统计建模选题】针对网络诈骗受害者心理的统计建模研究

针对网络诈骗受害者心理的统计建模研究是一个非常有意义且具有实际应用价值的方向。这个研究领域不仅关注于诈骗行为本身，更深入探讨了受害者的心理特征，有助于设计更有效的预防策略和干预措施。研究方向细分受害者心理特征分析：通过对网…

阅读更多...

14亿美元！德国默克与AI生物科技公司合作；马斯克Neuralink首位脑机接口植入者用意念打游戏；黄仁勋在俄勒冈州立大学开讲

14亿美元！德国默克与AI生物科技公司合作；马斯克Neuralink首位脑机接口植入者用意念打游戏；黄仁勋在俄勒冈州立大学开讲

AI for Science 的新成果、新动态、新视角—— 日本第一 IT 公司富士通：生成式 AI 加速药物研发马斯克：Neuralink 首位脑机接口植入者用「意念」打游戏默克与 AI 生物科技公司 Caris 达成合作 AI 蛋白质设计服务提供商「天鹜科技」完成数千万元 Pre…

阅读更多...

CPU核心数、线程数都是什么意思？

CPU核心数、线程数都是什么意思？

最早，每个物理 cpu 上只有一个核心，对操作系统而言，也就是同一时刻只能运行一个进程/线程。为了提高性能，cpu 厂商开始在单个物理 cpu 上增加核心（实实在在的硬件存在），也就出现了多核 cpu&…

阅读更多...

bugku-web-你从哪里来

bugku-web-你从哪里来

这里就这一句话提示，问我是不是谷歌的？ 用谷歌浏览器访问没看见什么变化抓包查看没有变化这时我想到爬虫中的反爬策略中有一种，判断请求的当前界面来判断用户的起始判断位置这时抓取报文 GET / HTTP/1.1 Host: 114.67.175.224:1516…

阅读更多...

【简单讲解macOs虚拟机安装全过程】

【简单讲解macOs虚拟机安装全过程】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者，CSDN实力新星，CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益，如有不足之处，欢迎在评论区提出指正，让我们共…

阅读更多...

leetcode 1702

leetcode 1702

leetcode 1702 题目例子代码思路 class Solution { public:string maximumBinaryString(string binary) {int n binary.size();int i binary.find(0);if(i string::npos){return binary;}int zeros count(binary.begin(), binary.end(), 0);string s(n, 1);s[izeros-1]…

阅读更多...

Java常见的设计模式

Java常见的设计模式

Java常见的设计模式工厂模式（Factory Pattern）单例模式（Singleton Pattern）代理模式模式（Proxy Pattern）适配器模式（Adapter Pattern）观察者模式（Observer Pattern&…

阅读更多...

蓝桥杯，，，，，，

蓝桥杯，，，，，，

辗转相除求最大公约数 #include<iostream> using namespace std;int gcd(int a, int b)//求最大公约数，如果返回值为1，最大公约数只有1，为所求 {return b ? gcd(b, a % b) : a; } int main() {int count 0;for(int i1;i<2020;i)f…

阅读更多...

《二》Qt Creator工具介绍与使用

《二》Qt Creator工具介绍与使用

一、关于界面点击文件--->新建文件或项目会出现如下图： 我们选择第一个点击下一步下一步： 继续下一步直到结束： 二，具体文件介绍我们点击pro查看以下 QT core gui第1行表示使用qt的core和gui库，如果以后…

阅读更多...

2024年最新版JAVA 面试题

2024年最新版JAVA 面试题

最近看大家也在搜索我之前转载的关于JAVA的面试题，但是呢不确定是不是已经过时点了，毕竟时间间隔的蛮久了，现在技术日新月异，所以我特意搜了下，给大家找到了全新的面试题，是一位大佬给大家总结的&#xff0…

阅读更多...

作为40岁还在IT行业的你，会给30多岁的我什么建议？

作为40岁还在IT行业的你，会给30多岁的我什么建议？

作为一名40岁的IT行业从业者，我想分享一些宝贵的经验和建议，希望能对你在30多岁时的职业发展有所帮助： 1. **持续学习** 技术行业的发展日新月异，持续学习是保持竞争力的关键。不论是通过在线课程、专业书籍还是行业会议&am…

阅读更多...

DVWA靶场的下载与搭建

DVWA靶场的下载与搭建

目录什么是靶场 DVWA靶场下载下载地址安装什么是靶场靶场就是人为提供的带有安全漏洞的服务，每一个学习者都可以在本地快速搭建来实操，回溯漏洞的发生原理以及操作方式。DVWA靶场呢就是一个可以通过浏览器访问的拥有可视化页面的web靶场。 DVW…

阅读更多...

Docker- Redis

Docker- Redis

博文目录文章目录说明前置命令说明 Docker Hub Redis 数据卷数据卷印射在容器内的路径redis/data 容器内的路径说明/data数据目录/data/redis.conf配置文件前置在 GitHub 找一份 redis.conf 配置文件, 放到卷 redis 中, 按需修改 # bind 127.0.0.1 # 解除只允许环回地…

阅读更多...

实况窗助力美团打造鸿蒙原生外卖新体验，用户可实时掌握外卖进展

实况窗助力美团打造鸿蒙原生外卖新体验，用户可实时掌握外卖进展

自2023年华为宣布全新HarmonyOS NEXT蓄势待发，鸿蒙原生应用全面启动以来，已有金融、旅行、社交等多个领域的企业和开发者陆续宣布加入鸿蒙生态。其中，美团作为国内头部的科技零售企业，是首批加入鸿蒙生态的伙伴，其下的…

阅读更多...

一题多解之回文字符问题

一题多解之回文字符问题

递推实现 #include <iostream> #include <algorithm> #include <string> using namespace std; string s; //递归实现 bool judge(int b,int e){//结束条件：be,只有一个字符;或者b>e,遍历结束if(b>e) return true;else{//当前位置与其前一…

阅读更多...

函数、指针和数组的相互运用（C语言）

函数、指针和数组的相互运用（C语言）

1、函数指针数组含义：数组的每个元素都是函数指针类型.eg： （此代码链接：http://t.csdnimg.cn/ClJmb.也可以在我发布博客中找到） 2、指向函数指针数组的指针 1、引入 3、回调函数 1、含义：就是一个通过…

阅读更多...

便携式汽车充气泵方案开发设计研发

便携式汽车充气泵方案开发设计研发

微型充气泵方案是通过内部马达的运转来工作。抽气时，连通器的阀门被大气的气压冲开，气体进入气筒，而向轮胎中打气时，阀门又被气筒内的气压关闭，气体就进入了轮胎中。这是利用大气压的原理制作了微型充气泵方案来给汽车…

阅读更多...

Jackson 2.x 系列【21】序列化修饰器 BeanSerializerModifier

Jackson 2.x 系列【21】序列化修饰器 BeanSerializerModifier

有道无术，术尚可求，有术无道，止于术。本系列Jackson 版本 2.17.0 源码地址：https://gitee.com/pearl-organization/study-jaskson-demo 文章目录 1. 概述2. 抽象方法2.1 changeProperties2.2 orderProperties2.3 updateBuilder2…

阅读更多...

前端开发攻略---简化响应式设计：利用 SCSS 优雅管理媒体查询

前端开发攻略---简化响应式设计：利用 SCSS 优雅管理媒体查询

1、演示 2、未优化前的代码 .header {width: 100px;height: 100px;background-color: red; } media (min-width: 320px) and (max-width: 480px) {.header {width: 10px;} } media (min-width: 320px) and (max-width: 480px) {.header {height: 20px;} } media (min-width: 48…

阅读更多...

最新文章