扩展大型视觉-语言模型的视觉词汇:Vary 方法

在人工智能领域,大型视觉-语言模型(LVLMs)正变得越来越重要,它们能够处理多种视觉和语言任务,如视觉问答(VQA)、图像字幕生成和光学字符识别(OCR)。然而,现有的模型通常依赖于一个通用的视觉词汇表,如CLIP,这在处理一些特殊视觉任务时可能会遇到效率低下和词汇表外问题。为了解决这些问题,研究者们提出了Vary方法,这是一种用于扩展LVLMs视觉词汇的有效方法。

LVLMs在多种任务上展现出了卓越的性能,但它们在处理如文档级OCR或图表理解这类需要细粒度视觉感知的任务时,仍然面临挑战。CLIP风格的视觉词汇表在这些任务中可能会遇到编码效率低下的问题。Vary方法的提出,旨在通过生成和融合新的视觉词汇表来提升LVLMs的性能。

Vary方法是针对大型视觉-语言模型(LVLMs)提出的一种创新方法,旨在通过扩展模型的视觉词汇来提升其在特定视觉任务上的表现,尤其是那些需要密集和细粒度视觉感知的任务,如文档级光学字符识别(OCR)或图表理解。以下是Vary方法的详细介绍:

1. 动机与挑战

现有的LVLMs通常使用统一的视觉词汇表,如CLIP,来处理各种视觉任务。然而,CLIP在处理一些特殊场景,如高分辨率图像、非英语OCR、文档/图表理解等任务时,可能不够高效,甚至会遇到超出词汇表的问题。

2. Vary的核心思想

Vary方法的核心思想是模仿文本词汇表的扩展方式,为视觉词汇表添加新的元素。这包括两个主要步骤:生成新的视觉词汇表和将新旧词汇表融合。

3. 方法细节

3.1 生成新的视觉词汇表

生成新的视觉词汇表是Vary方法的第一阶段,这一阶段的目标是创建一个能够补充现有CLIP视觉词汇表的新型视觉词汇表,以提高LVLMs在特定视觉任务上的表现。以下是详细说明,包括在论文中的具体位置:

新词汇网络的构建
  • 使用预训练的ViTDet图像编码器:Vary采用了SAM预训练的ViTDet(base scale)图像编码器作为新词汇网络的主要组成部分。由于SAM-base的输入分辨率是1024×1024,输出步长是16,因此最后一层的特征形状是(64×64×256),这与CLIP-L的输出(256×1024)不匹配。为了解决这个问题,研究者们在SAM初始化网络的最后一层后面添加了两个卷积层,以将特征形状转换为与CLIP兼容的形式。
数据引擎和训练过程

      

  • 文档数据:选择高分辨率的文档图像-文本对作为主要的正面数据集,因为密集OCR可以有效验证模型的细粒度图像感知能力。研究者们创建了自己的数据集,包含了100万中文和100万英文文档图像-文本对。
  • 图表数据:由于当前的LVLMs在图表理解方面表现不佳,特别是中文图表,研究者们选择将其作为需要写入新词汇的另一个主要知识点。他们使用matplotlibpyecharts作为渲染工具,为matplotlib风格的图表构建了25万中英文数据对,对于pyecharts风格的图表则构建了50万。
  • 负面自然图像:为了确保新引入的词汇在处理CLIP-VIT擅长的自然图像时不会产生噪声,研究者们构建了负面自然图像-文本对,以确保新词汇网络在看到自然图像时能正确编码。
输入格式
  • Vary-tiny使用图像-文本对通过自回归进行训练。输入格式遵循流行的LVLMs,即使用两个特殊标记"<img>"和"</img>"来指示图像标记的位置,作为插值OPT-125M的输入。
3.2 扩展视觉词汇表

扩展视觉词汇表是Vary方法的核心贡献之一,旨在解决大型视觉-语言模型(LVLMs)在处理特定视觉任务时可能遇到的效率和性能问题。

Vary-tinyVary-base的架构

Vary-tiny Vary方法的第一阶段,专注于生成新的视觉词汇表。它由一个词汇网络和一个小型的OPT-125M模型组成。这个词汇网络使用自回归的方式,通过预测下一个词来生成新的视觉词汇。OPT-125M模型在这个过程中充当解码器,帮助生成与视觉任务相关的文本描述。

Vary-base Vary方法的第二阶段,它利用Vary-tiny生成的新视觉词汇表来增强LVLMs的性能。Vary-base的架构包括两个并行的视觉词汇网络:新的词汇网络和原有的词汇网络(如CLIP)。这两个网络在输入时是独立的,但它们的输出会在进入大型语言模型(LLM)之前进行整合,以此来提供更丰富的视觉特征表示。

训练策略

在训练Vary-base时,采取了一种特殊的策略,即冻结新旧视觉词汇网络的权重。这样做的目的是保留新旧词汇网络的知识,避免在训练过程中丢失。由于这些词汇网络已经在Vary-tiny阶段进行了训练,因此它们在Vary-base中的权重保持不变,这样可以确保新引入的视觉词汇不会影响已有的视觉特征提取能力。

除了冻结词汇网络的权重外,Vary-base中的其他模块,如输入嵌入层和LLM,其权重则不冻结。这些模块会在训练过程中进行优化,以适应新的视觉词汇并提高模型的整体性能。

训练过程

Vary-base的训练过程通常包括两个阶段:预训练和监督式微调(Supervised Fine-Tuning,简称SFT)。

  1. 预训练:在这个阶段,模型使用大量的图像-文本对进行训练,以学习通用的视觉和语言表示。预训练可以帮助模型建立一个强大的知识基础,为后续的微调打下基础。
  2. SFT:在SFT阶段,模型会在特定的下游任务上进行训练,以调整和优化模型参数,使其更适应特定的应用场景。这个阶段可能会使用特定的数据集,如DocVQAChartQA,来进行任务相关的优化。

通过这种训练策略,Vary-base能够结合新旧视觉词汇的优势,提高模型在复杂视觉任务上的表现,同时保持在通用任务上的性能。

4. 实验与结果

4.1 数据集和评估指标
  • 自定义文档级OCR测试集:包含纯OCR任务和Markdown格式转换任务。纯OCR任务中,测试集随机抽取了100页中文和英文文档。Markdown转换任务中,测试集包含200页文档,其中100页包含表格,另100页包含数学公式。
  • DocVQAChartQA:用于测试下游任务性能的提升。
  • MMVet:用于监控模型在通用任务上的性能变化。
  • 评估指标:对于文档解析任务,使用归一化编辑距离(Normalized Edit Distance)和F1分数来评估模型性能。对于DocVQAChartQAMMVet,使用各自数据集的标准指标进行公平比较。
4.2 实施细节

   

  • Vary-tiny训练:使用512的批量大小和3epoch进行训练,采用AdamW优化器和余弦退火调度器,学习率为5e-5
  • Vary-base训练:在Vary-base的训练阶段,冻结新旧视觉词汇网络的权重,优化输入嵌入层和LLM的参数。预训练的初始学习率为5e-5SFTSupervised Fine-Tuning)阶段为1e-5。预训练和SFT阶段的批量大小为256,训练周期为1
4.3 细粒度感知性能
  • Vary-tiny:通过生成视觉词汇的过程,Vary-tiny获得了中文和英文的密集OCR能力。在中文和英文文档(纯文本)OCR上分别达到了0.2660.197的编辑距离,证明了新视觉词汇在细粒度文本编码上的能力。
  • Vary-base:与Nougat(一个专门的文档解析模型)相比,在英文纯文本文档上达到了相当的表现。通过不同的提示(例如,将图像转换为Markdown格式),Vary-base能够实现文档图像到Markdown格式的转换。
4.4 下游任务性能

  • DocVQAVary-baseLLaVA-80k SFT数据上达到了78.2%(测试)和76.3%(验证)的ANLSAnswer Normalized Levenshtein Score)。
  • ChartQA:在使用LLaVA-665k数据进行SFT时,Vary-baseChartQA上达到了66.1%的平均性能。
  • 这些结果表明,Vary在这些具有挑战性的下游任务上的表现与Qwen-VL等流行方法相当或更好,证明了所提出的视觉词汇扩展方法对下游任务也是有益的。
4.5 通用性能
  • MMVet基准:使用Vicuna-7B作为LLM,以及LLaVA-CC665k作为SFT数据,Vary在MMVet基准上的总指标比LLaVA-1.5高出2.4%,证明了Vary的数据和训练策略没有损害模型的通用能力。

实验结果表明,Vary方法通过扩展视觉词汇,在细粒度感知任务和下游任务性能上都取得了显著提升。同时,Vary在保持原有能力的同时,还增强了对特定视觉任务的处理能力,如文档级OCR和图表理解。这些结果证明了Vary方法的有效性,并展示了其在实际应用中的潜力。

5. 结论

Vary方法成功地证明了扩展LVLMs视觉词汇的重要性,并通过实验展示了其在多个任务上的卓越性能。尽管Vary已经取得了令人满意的结果,但在扩展视觉词汇方面仍有改进空间。研究者们希望Vary的设计能够吸引更多研究关注这一方向,并从视觉词汇构建的角度重新思考LVLMs的设计。

6. 代码与资源

Vary的代码已经开源,并可在GitHub上找到。此外,研究者们还提供了一些预训练模型和数据集,以促进进一步的研究和开发。

通过Vary方法,我们看到了LVLMs在处理特殊视觉任务方面的新可能性,这为未来的研究和应用开辟了新的道路。

项目主页:https://varybase.github.io/

论文地址:https://arxiv.org/pdf/2312.06109.pdf

Github地址:https://github.com/Ucas-HaoranWei/Vary

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/5338.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker--compose概述与部署

目录 一、概述 1. Compose简介 1.1 docker compose常用命令 1.2 Compose配置常用字段 2. YAML简介 2.1 YAML支持的数据结构 2.2 YML文件编写注意事项 2.3 Docker Compose文件结构 3. Docker-Compose安装 ​编辑 4.docker Compose撰写nginx 镜像 1. 准备环境 ​编辑…

Zabbix 安装部署说明文档

Zabbix是一个开源的网络监控和管理系统&#xff0c;其架构设计用于提供企业级的监控解决方案。以下是Zabbix的主要组件&#xff1a; 1.Zabbix Server&#xff1a;这是Zabbix系统的核心组件&#xff0c;负责接收Agent程序报告的系统可用性、系统完整性和统计数据。Zabbix Serve…

CSS 06

精灵图 为什么要使用精灵图 一个网页中往往会应用很多小的背景图像作为修饰&#xff0c;当网页中的图像过多时&#xff0c;服务器就会频繁地接收和发送请求图片&#xff0c;造成服务器请求压力过大&#xff0c;这将大大降低页面的加载速度,因此&#xff0c;为了有效地减少服务…

【深度学习】YOLOv5,金属表面的缺陷检测,GC10-DET数据集

目录&#xff1a; 文章目录 数据集数据集转换下载yolov5创建 dataset.yaml训练参数开始训练数据分布训练结果问询、帮助 数据集 数据集地址&#xff1a; https://github.com/lvxiaoming2019/GC10-DET-Metallic-Surface-Defect-Datasets 数据集下载方式&#xff1a; Downlo…

有趣的大模型之我见 | Claude AI

最近我的朋友圈被 Claude 3 严重刷屏。因为它在 Performance Benchmark 和 Vision Capabilities 中的表现荣登第一。 对 Claude AI 的喜欢是从它第二个版本出来。仅从我个人的简单应用场景的体验是&#xff0c;Claude 对于 prompt 的理解度&#xff0c;尤其是对中文的理解度高…

PHP源码_在线艺术字体在线生成转换设计网站源码

最全的字体转换器在线转换、艺术字体在线生成器和字体下载&#xff0c;包括书法字体在线转换、毛笔字在线生成器&#xff0c;更有草书字体、篆体字、连笔字、POP字体转换器等中文和英文字体。 支持自己添加字体&#xff0c;在线艺术字体转换器&#xff0c;织梦内核艺术字体在线…

.NET操作 Access (MSAccess)

注意&#xff1a;新项目推荐 Sqlite &#xff0c;Access需要注意的东西太多了&#xff0c;比如OFFICE版本&#xff0c;是X86还是X64 连接字符串 ProviderMicrosoft.ACE.OleDB.15.0;Data Source"GetCurrentProjectPath"\\test.accdb//不同的office版本 连接字符串有…

MySQL Workbench 数据库常用操作

大家好哦&#xff0c;我是程序员徐师兄&#xff0c;今天为大家打来的是MySQL Workbench 数据库常用操作。 文章目录 一、连接数据库二、进入数据库三、创建数据库四、设置默认数据库五、创建数据表六、查看表数据七、查看数据表 一、连接数据库 二、进入数据库 三、创建数据库 …

Shopee怎么选品成功率高达80%?请学

电商圈内流传着一句话&#xff1a;三分靠运营&#xff0c;七分靠选品。 选品在电商项目中至关重要&#xff0c;也是一个非常考验技巧和经验的环节。选品选择得好&#xff0c;后续的每一步都会变得相对轻松。 那么要怎么在众多商品中脱颖而出&#xff0c;提高在Shopee平台上选…

Llama images - 记录我看到的那些羊驼

来自 &#xff1a; DREAM: Distributed RAG Experimentation Framework

如何用智能获客开启新商机?揭秘赢销侠软件的奇效

在当今数字化竞争日益激烈的商业环境中&#xff0c;企业为了生存和发展&#xff0c;必须寻找新的途径以获取潜在客户。智能获客作为一种新型的营销方式&#xff0c;正以其高效、精准的特点改变着传统的市场开拓模式。而在这个过程中&#xff0c;自动获客软件的作用愈发凸显&…

Adobe推出AI视频超分辨率工具VideoGigaGAN

&#x1f989; AI新闻 &#x1f680; Adobe推出AI视频超分辨率工具VideoGigaGAN 摘要&#xff1a;Adobe公司最新推出的AI工具VideoGigaGAN&#xff0c;利用上采样技术将视频分辨率从128128提升至10241024。这一工具基于GigaGAN模型开发&#xff0c;专注于生成视频超分辨率&am…

《深入解析windows操作系统》第1章读书笔记

1、服务&#xff1a;指操作系统中可以被调用的例程&#xff08;即函数&#xff0c;等价于系统调用&#xff1f;&#xff09;、设备驱动程序或者服务器进程。一些特定术语如下&#xff1a; 1&#xff09;Windows API函数&#xff1a;指Windows API中已经被文档化、可被调用的子例…

TCP重传,滑动窗口,流量控制,拥塞控制

TCP重传&#xff0c;滑动窗口&#xff0c;流量控制&#xff0c;拥塞控制 TCP重传机制&#xff1a; 超时重传快速重传SACKD-SACK 通过序列号与确认应答判断是否要重传 超时重传&#xff1a; 超过指定时间没有收到确认应答报文&#xff0c;就会重发该数据 触发超时重传的情况…

SpirngBoot整合快递100

目录 一、注册快递100 二、技术文档地址 三、需要认证的key和comcumer 四、spring boot 整合快递 100使用 4.1 引入快递100和hutool的依赖 4.2 将key和comcumer写入application.properties文件中 4.3 新建一个modle,用于将查出来的json数据转成对象 4.4 新建一个controll…

MySql-日期分组

一、分别统计各时间各类型数据条数 数据库的 request_time字段 数据类型&#xff1a;timestamp 默认值&#xff1a;CURRENT_TIMESTAMP 例子&#xff1a; 2024-01-26 08:25:48 原数据&#xff1a; 1、将数据按照日期&#xff08;年月日&#xff09;形式输出 按照request_…

5A手控问道手游戏抢装备说明手册

5A手控-问道抢装备方法 下载软件地址&#xff1a;www.aishouk.com 支持win10 和win 11 系统 下载&#xff0c;安装完成后&#xff0c;打开软件。 下载最好选择 CSDN 或者 百度网盘下载 &#xff0c;官网下载速度很慢。这点大家 需要注意。 注册/登录 打开软件&#xff0c;点…

Mellanox网卡打流命令ib_write_bw执行遇到Couldn‘t listen to port 18515原因与解决办法?

要点 要点&#xff1a; ib默认使用18515命令 相关命令&#xff1a; netstat -tuln | grep 18515 ib_write_bw --help |grep port# server ib_write_bw --ib-devmlx5_1 --port 88990 # client ib_write_bw --ib-devmlx5_0 1.1.1.1 --port88990现象&#xff1a; 根因&#xf…

首页最新 多IP浏览器防关联:如何配置多个独立且稳定的IP地址?

在互联网时代&#xff0c;IP地址的重要性不言而喻。然而&#xff0c;IP关联问题却成为一项令人担忧的隐私和安全挑战。针对这个问题&#xff0c;多IP浏览器是一种解决方案&#xff0c;可以帮助用户单独配置多个独立且稳定的IP地址&#xff0c;有效地防止IP关联。 一、IP关联是…

ipad的文件如何传到手机里 iPad较大文件怎么发送出去 iMazing下载教程

在现代生活中&#xff0c;随着移动设备的普及和多样化&#xff0c;我们经常需要在不同设备之间传输文件&#xff0c;以便在工作、学习或娱乐中更加便捷地使用这些文件。iPad和iPhone是用户广泛使用的设备&#xff0c;我们时常使用它们来存储和访问大量的个人数据。但有时&#…