多模态论文阅读之VLMo

多模态论文阅读之VLMo

news/2025/4/4 21:25:04/文章来源:https://blog.csdn.net/qq_41825704/article/details/134206249

VLMo泛读

Title
Motivation
Contribution
Model
Expertiments
Summary

Title

VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts

Motivation

CLIP和ALIGN都采用dual-encoder的方式分别编码图像和文本，模态之间的交互采用cosine similarity ，这种方法对retrieval tasks(检索任务)及其有效；但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后来一系列的tasks，采用的fusion encoder 的方式，即一开始分来images and text 然后采用transformer的encoder 做cross-modal 的intersection，这样的architecture 弥补了dual encoder architecture的drawback，But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有没**有一种融合上述两种架构的方法呢？**做检索任务的时候用 dual-encoder架构，做classfication的时候用fusion encoder，所以本文提出了Mixture-of-Modality-Experts
VLMo的训练loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一样的。提出了一个stagewise的预训练方法分别vision 和NLP中的large-scale corpus：首先在vision上训练好，再预训练language experts on text-only data，最后将模型用于vision-language pre-training。

Contribution

模型上的改进：Mixture-of-Modality-Experts
训练方式上的改进：分阶段模型预训练

Model

overview of the model

模型中所有的multi-head self-Attention都是share weights的
模型inference的时候很灵活，要做那个任务，切换到那个架构上就行。
分阶段训练策略

Expertiments

比ALBEF性能好很多
在更大的数据集上训练，数据变得更好。

Summary

就是把transformer里的encoder中的FFN分为了几个FFN

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/128884.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

《C++ Primer》第6章函数（一）

《C++ Primer》第6章函数（一）

参考资料： 《C Primer》第5版《C Primer 习题集》第5版 6.1 函数基础（P182） 典型的函数定义包括：返回类型（ return type ）、函数名字、0 个或多个形参（ parameter ）组成的列表、函…

阅读更多...

Windows下pm2调用npm和nuxt的办法

Windows下pm2调用npm和nuxt的办法

pm2调用npm pm2 start C:\Users\xiao\AppData\Roaming\npm\node_modules\npm\index.js --name test -- run start 其中index.js的路径就是npm全局安装的路径，可通过以下命令获取 npm root -g require全局npm模块的一种方法新建文件pm2npm.js const root req…

阅读更多...

Redis常见的全局命令

Redis常见的全局命令

Redis中最核心的两个命令set和get 两个最核心的命令就是get和set. redis是按照键值对的方式来存储数据的,所以set就表示把key-value存储进去,get表示根据key来查询对应的value. 需要注意的是,必须进入redis客户端才能输入redis命令. 此处的key和value都是字符串类型.对于上述…

阅读更多...

致远OA wpsAssistServlet任意文件上传漏洞复现 [附POC]

致远OA wpsAssistServlet任意文件上传漏洞复现 [附POC]

文章目录致远OA wpsAssistServlet任意文件上传漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 0x06 修复建议致远OA wpsAssistServlet任意文件上传漏洞复现 [附POC] 0x01 前言免责声明：请勿利用…

阅读更多...

【行云流水线实践】基于“OneBuild”方法对镜像进行快速装箱 | 京东云技术团队

【行云流水线实践】基于“OneBuild”方法对镜像进行快速装箱 | 京东云技术团队

在云原生领域，无论使用哪种编排调度平台，Kubernetes，DockerSwarm，OpenShift等，业务都需要基于镜像进行交付，我们在内部实践“Source-to-image”和链式构建，总而总结出“OneBuild”模式。其核心…

阅读更多...

VS2022安装时碰到VsWebProtocolSelector.Msi包安装错误，2330code解决方法

VS2022安装时碰到VsWebProtocolSelector.Msi包安装错误，2330code解决方法

未能安装包“Microsoft.VisualStudio.VsWebProtocolSelector.Msi,version17.8.34129.139”。搜索 URL https://aka.ms/VSSetupErrorReports?qPackageIdMicrosoft.VisualStudio.VsWebProtocolSelector.Msi;PackageActionInstall;ReturnCode2330 详细信息 …

阅读更多...

C++——定义一个 Book(图书)类

C++——定义一个 Book(图书)类

完整代码： /*定义一个 Book(图书)类，在该类定义中包括数据成员和成员函数数据成员：book_name （书名）、price(价格)和 number(存书数量)； 成员函数：display()显示图书的情况；borro…

阅读更多...

Spring面试题：（二）基于xml方式的Spring配置

Spring面试题：（二）基于xml方式的Spring配置

xml配置Bean的常见属性 id属性 name属性 scope属性 lazy-init属性 init-method属性和destroy属性 initializingBean方法 Bean实例化方式 ApplicationContext底层调用BeanFactory创建Bean，BeanFactory可以利用反射机制调用构造方法实例化Bean，也可采用工…

阅读更多...

css文本溢出省略号多行单行例子详细

css文本溢出省略号多行单行例子详细

在 CSS 中，可以使用 text-overflow: ellipsis; 属性来实现文本溢出时自动省略号的效果。但是该属性只能用于单行文本溢出的情况，对于多行文本溢出的情况，需要使用一定的技巧才能实现相应的效果。下面将分别介绍单行和多行文本溢出时的实现方法…

阅读更多...

排序算法(1)

排序算法(1)

这里写目录标题排序插入排序直接插入排序希尔排序选择排序直接选择排序堆排序向下调整堆排序交换排序冒泡排序排序插入排序直接插入排序直接插入排序是O（N^2）的排序算法从0下标开始往后排 void InsertSort(int* a,int n)//直接插入排序 {fo…

阅读更多...

Apollo云实验：使用Sim control仿真自动驾驶

Apollo云实验：使用Sim control仿真自动驾驶

使用Sim control仿真自动驾驶概述Sim control仿真自动驾驶启动DreamView仿真系统实验目的福利活动主页传送门：📀 传送概述自动驾驶汽车在实现落地应用前，需要经历大量的道路测试来验证算法的可行性和系统的稳定性，但道路测试…

阅读更多...

语言模型和人类的推理都依赖内容

语言模型和人类的推理都依赖内容

人类不太擅长逻辑，需要依赖内容直觉进行推理。许多认知研究表明，人类的推理并不是完全抽象的（不是完全的形式与内容分离）。相反，我们的推理取决于问题的内容： 当内容支持逻辑推理时，我们回答…

阅读更多...

Spring Boot实践 --windows环境下 K8s 部署 Docker

Spring Boot实践 --windows环境下 K8s 部署 Docker

第一步：搭建项目并制作合适的jar包这里我们准备好前面项目用户管理系统项目里的jar包。测试功能，定时任务会每过10s打印一次日志： E:\test>java -jar demospringboot-0.0.1-SNAPSHOT.jar2023-11-01 20:24:21.059 INFO 11848 --- [ …

阅读更多...

关于Linux下排查C++进程Segment fault问题的步骤

关于Linux下排查C++进程Segment fault问题的步骤

C 中出现Segment问题的常见原因有: 如果要定位Segment fault问题，需要进行如下几步： gdb your_program(gdb) break main(gdb) run(gdb) backtrace同时要在CMakeLists.txt文件中配置编译时启用符号调试信息， 在C或者C中的设置分别如下&#x…

阅读更多...

Layui上传Excel, 并返回每行导入的结果

Layui上传Excel, 并返回每行导入的结果

前端代码 <button type"button" class"layui-btn" id"uploadExcel"><i class"fa fa-lg fa-file-excel-o"></i> 上传Excel </button>layui.config({base: assets/layuiadmin/ //静态资源所在路径}).extend({i…

阅读更多...

Java中队列的数据结构

Java中队列的数据结构

Java中的队列是一种基于先进先出（FIFO）原则的数据结构，它可以用来存储一组元素，并支持在队列的末尾添加元素，以及在队列的开头删除元素。Java中的队列可以通过Java集合框架中的Queue接口来实现，常用的实现类…

阅读更多...

数据交易模型的扩展性，可操作性

数据交易模型的扩展性，可操作性

目录数据交易模型的扩展性，可操作性模型的扩展性：模型的可操作性：数据交易模型的扩展性&

阅读更多...

Pytest UI自动化测试实战实例

Pytest UI自动化测试实战实例

环境准备序号库/插件/工具安装命令1确保您已经安装了python3.x2配置python3pycharmselenium2开发环境3安装pytest库pip install pytest4安装pytest -html 报告插件pip install pytest-html5安装pypiwin32库(用来模拟按键)pip install pypiwin326安装openpyxl解析excel文件库p…

阅读更多...

论文辅助笔记：t2vec models.py

论文辅助笔记：t2vec models.py

1 EncoderDecoder 1.1 _init_ class EncoderDecoder(nn.Module):def __init__(self, vocab_size, embedding_size,hidden_size, num_layers, dropout, bidirectional):super(EncoderDecoder, self).__init__()self.vocab_size vocab_size #词汇表大小self.embedding_size e…

阅读更多...

leetcode_117 填充每个节点的下一个右侧节点指针 II

leetcode_117 填充每个节点的下一个右侧节点指针 II

文章目录 1. 题意2. 题解2.1 BFS2.2 BFS空间优化2.3 DFS序层次记录 3. Ref 1. 题意在一颗树的同层之间用指针把他们链接起来。填充每个节点的下一个右侧节点指针 II 2. 题解 2.1 BFS 用一个变量记录下同层最右侧的节点，当遍历到时更新下一层的最右侧节点即可…

阅读更多...

最新文章