FROZEN TRANSFORMERS IN LANGUAGE MODELS ARE EFFECTIVE VISUAL ENCODER LAYERS

本文是LLM系列文章,针对《FROZEN TRANSFORMERS IN LANGUAGE MODELS ARE EFFECTIVE VISUAL ENCODER LAYERS》的翻译。

语言模型中的冻结Transformer是有效的视觉编码器层

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法:用于视觉编码的冷冻LLMTransformer
  • 4 LLMTransformer在视觉任务中的适用性
  • 5 面向可视化任务的LLMTransformer分析
  • 6 信息过滤假设
  • 7 结论

摘要

本文揭示了大型语言模型(LLM),尽管仅根据文本数据进行训练,但在没有语言的情况下,对于纯视觉任务来说,它是令人惊讶的强大编码器。更有趣的是,这可以通过一种简单但以前被忽视的策略来实现——使用来自预训练LLM的冻结transformer块作为组成编码器层来直接处理视觉标记。我们的工作突破了利用LLM进行计算机视觉任务的界限,大大偏离了传统实践,传统实践通常需要多模式视觉语言设置以及相关的语言提示、输入或输出。我们证明,我们的方法在各种任务中始终提高了性能,包括纯2D和3D视觉识别任务(例如,图像和点云分类)、时间建模任务(例如动作识别)、非语义任务(例如运动预测)和多模态任务(例如,2D/3D视觉问答和图像文本检索)。这种改进是一种普遍现象,适用于各种类型的LLM(例如LLaMA和OPT)和不同的LLMtransformer块。我们还提出了信息过滤假设,以解释预训练LLM在视觉编码中的有效性——预训练的LLMtransformer块识别信息性视觉标记,并进一步放大其效果。这一假设得到了经验上的支持,即在用LLMtransformer块训练后,特征激活对相关区域表现出更强的关注。我们希望我们的工作能激发我们对利用LLM的新观点,并加深我们对其潜在机制的理解。代码在https://github.com/ziqipang/LM4VisualEncoding可见.

1 引言

2 相关工作

3 方法:用于视觉编码的冷冻LLMTransformer

4 LLMTransformer在视觉任务中的适用性

5 面向可视化任务的LLMTransformer分析

6 信息过滤假设

7 结论

讨论和限制。我们已经验证了经过预训练的冻结语言Transformer在各种视觉任务中的能力。值得注意的是,我们的目标是有条不紊地探索这个调查不足的问题。因此,我们的实验旨在在与公认或有竞争力的基线进行公平比较的情况下,最大限度地提高任务的多样性,而不是为所有任务争取最先进的性能,这也受到我们计算资源的限制。我们把所有任务的实验规模扩大到最先进的水平作为有趣的未来工作。同时,我们还注意到,我们的信息过滤假设没有涵盖几个有趣的问题,例如,如何量化不同层的功能,以及分析训练过程如何促进视觉表征特征与语言transformer的合作,这些也是有意义的方向。
结论。在这项工作中,我们探索了大型语言模型(LLM)作为视觉任务编码器的意外能力,这与它们传统的基于文本的应用程序有很大不同。通过将来自预训练LLM的冻结Transformer块无缝集成到视觉编码器中,我们观察到,在2D图像和视频分类、3D点云识别、非语义运动预测以及2D和3D视觉语言任务等各种视觉挑战中,性能都得到了一致的增强。这一现象以我们提出的信息过滤假设为基础,突出了LLM对更一般的表征学习的内在适应性和多功能性。我们希望我们的见解将促进对LLM应用未知领域的进一步探索,并促进创新战略,以新颖的方式利用其潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/114183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5种常用的冲突解决方法

1、撤退/回避:从实际或潜在冲突中退出,将问题推迟到准备充分的时候,或将问题推给其他人员解决; 2、缓和/包容:强调一致而非差异,为维持和谐与关系而退让一步,考虑其他方面的需求; …

华为云HECS服务器下docker可视化(portainer)

一、docker安装 华为云HECS安装docker-CSDN博客 二、portainer安装 portainer地址:Portainer: Docker and Kubernetes Management Platform 当前portainer分CE(开源版) 和 BE(商业版),用CE即可 1 创建…

Vue3开始

1. Vue3简介 2020年9月18日,Vue.js发布版3.0版本,代号:One Piece(海贼王) 经历了:4800次提交、40个RFC、600次PR、300贡献者 官方发版地址:Release v3.0.0 One Piece vuejs/core 截止2023年…

c++23中的新功能之十七显示this的应用

一、显示this 在前面的文章中分析了显示this(Deducing This),具体的内容请移步《c23新功能之二语法中的Deducing This》,本篇对显示this对实际应用中的一些完善和更新形式进行分析说明,抛砖引玉。 二、CRTP的应用 在前面的学习中,学过CRTP…

ARM映像文件组成

引言 ARM编译器将各种源文件(汇编文件、C语言程序文件、C语言程序文件)编译生成ELF格式的目标文件(后缀为.o文件,以下将目标文件简称为.o文件),.o文件经过连接器,和C/C运行时库一起编译生成ELF格…

如何解决香港服务器使用的常见问题

​  站长们在选择香港服务器租用时会考虑到它的各种性能以及稳定性,这是必须的。但是使用过程中还有些问题也不容忽视,比如:带宽资源是否短缺,是否存在安全漏洞,连接是否正常等这些问题也要考虑到。 香港服务器使用中…

php判断是否是email格式

要判断一个字符串是否是有效的电子邮件地址,你可以使用正则表达式和PHP内置函数来完成。以下是一个示例代码: $email "exampleexample.com"; // 你要检查的电子邮件地址// 使用正则表达式检查电子邮件格式 if (filter_var($email, FILTER_VA…

数据库备份与恢复(实战mysqldump+bin-log)

一、为什么要进行数据库备份? 常见数据库备份的应用场景如下: 数据丢失应用场景: 人为操作失误造成某些数据被误操作 软件 BUG 造成部分数据或全部数据丢失 硬件故障造成数据库部分数据或全部数据丢失 安全漏洞被入侵数据恶意破坏 非数据丢…

UV统计 - HyperLogLog

UV统计 - HyperLogLog 首先我们搞懂两个概念: UV:全称Unique Visitor,也叫独立访客量,是指通过互联网访问、浏览这个网页的自然人。1天内同一个用户多次访问该网站,只记录1次。PV:全称Page View&#xff…

Leetcode—2331.计算布尔二叉树的值【简单】

2023每日刷题(六) Leetcode—2331.计算布尔二叉树的值 递归实现代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ bool evaluateTree(struct TreeNod…

【算法与数据结构】--算法应用--算法在实际问题中的应用

一、算法在搜索引擎中的应用 搜索引擎是计算机科学中算法应用的典型领域之一。搜索引擎的主要任务是帮助用户在海量数据中快速找到相关信息。以下是算法在搜索引擎中的主要应用: 爬虫算法:爬虫是搜索引擎的基础,用于自动抓取互联网上的网页…

2.1.C++项目:网络版五子棋对战之前置知识

文章目录 一、Websocketpp(一)Websocket介绍(二)报文格式(三)Websocketpp介绍(四)Websocketpp使用1.websocketpp常用接口介绍2. http/websocket服务器 (五)Js…

SLAM ORB-SLAM2(5)例程了解

SLAM ORB-SLAM2(5)例程了解 1. TUM 数据集1.1. 三种相机1.2. 目录结构2. 单目demo2.1. 参数校验2.2. 配置数据集图像路径2.3. 创建单目SLAM2.3. 处理图像数据2.4. 结束3. RGB-D demo3.1. 参数校验3.2. 配置数据集图像路径3.3. 创建 RGB-D SLAM3.3. 处理图像数据3.4. 结束4. 总…

动画制作软件 Animate 2024 mac中文版介绍说明(an2024) v24.0

Animate 2024 mac是一款动画制作软件,它能帮助用户轻松制作出各种精美的动画作品。 Animate 2024拥有强大而直观的设计工作流程,能够让用户自由地构建动画场景、绘制精美的图形,并轻松添加动态效果。无论是传统手绘风格还是骨骼动画&#xff…

rust的排序

Vec 中的 Methods from Deref<Target [T]> 示例 fn main() {let mut strings vec!["banana", "", "ban", "", "apple", "alpha", "cherry", "date"];strings.sort_by(|a, b| {if a…

CUDA学习笔记(七)Kernel性能调节

本篇博文转载于https://www.cnblogs.com/1024incn/tag/CUDA/&#xff0c;仅用于学习。 Exposing Parallelism 这部分主要介绍并行分析&#xff0c;涉及掌握nvprof的几个metric参数&#xff0c;具体的这些调节为什么会影响性能会在后续博文解释。 代码准备 下面是我们的kernel…

类和对象介绍

一、类 1.类的声明 class Box{//类名private://私有成员double width,length,height;//长&#xff0c;宽&#xff0c;高 public://公有成员void init(double l,double w,double h){//初始化 lengthl;widthw;heighth;}double S(){//求表面积 return (height*lengthheight*width…

【Lua语法】字符串

Lua语言中的字符串是不可变值。不能像在C语言中那样直接改变某个字符串中的某个字符&#xff0c;但是可以通过创建一个新字符串的方式来达到修改的目的 print(add2(1 , 2 ,15,3))a "no one"b string.gsub(a , "no" , "on1111")print(a) print…

【Python】AttributeError: module lib has no attribute X509_V_FLAG_CB_ISSUER_CHECK

问题&#xff1a; 运行脚本报错&#xff1a;module lib has no attribute X509_V_FLAG_CB_ISSUER_CHECK 原因&#xff1a; pyOpenSSL版本与python版本不匹配 解决方案&#xff1a; window系统 重新安装pyOpenSSL 1、卸载当前版本pyOpenSSL pip uninstall pyOpenSSL2、重新…

flink问题 集合

1.flink 乱码 在配置文件flink-conf.yaml增加配置项&#xff1a;env.java.opts: -Dfile.encodingUTF-8