【重磅消息】微软开源了自家的Florence-2,处理各种视觉任务的统一模型

在人工通用智能(AGI)系统的世界里,一个重要的转变正在发生,那就是利用多功能的、预先训练好的表征,在各种应用中表现出与任务无关的适应性。这种转变始于自然语言处理(NLP)领域,现在也开始进入计算机视觉领域。这就是 Florence-2 的用武之地:它是一种视觉基础模型,旨在应对计算机视觉和视觉语言任务中的任务多样性挑战。

背景

人工通用智能(Artificial General Intelligence)的目标是创建能在各种任务中表现出色的系统,就像人类表现出各种能力一样。最近,在 NLP 领域,预先训练好的多功能模型取得了成功,这为计算机视觉领域的类似方法提供了灵感。虽然现有的大型视觉模型在迁移学习方面表现出色,但它们在面对各种任务和简单指令时往往会陷入困境。挑战在于如何处理各种视觉相关任务中固有的空间层次和语义粒度。

主要挑战包括综合视觉注释的可用性有限,以及缺乏一个统一的预训练框架和一个无缝集成空间层次和语义粒度的单一神经网络架构。为专门应用定制的现有数据集严重依赖于人工标注,这限制了能够捕捉错综复杂的视觉相关任务的基础模型的开发。

在这里插入图片描述

Florence-2:预览

为了应对这些挑战,Florence-2 模型通过多任务学习和广泛的视觉注释,成为一个通用的骨干。这就为不同的视觉任务提供了统一的、基于提示的表示方法,有效地解决了综合训练数据有限和缺乏统一架构的难题。

Florence-2 模型由微软公司开发,采用序列到序列架构,集成了图像编码器和多模态编码器-解码器。这种设计适用于各种视觉任务,无需对特定任务的架构进行修改,符合 NLP 界以一致的底层结构进行多功能模型开发的理念。

Florence-2 凭借其前所未有的零拍摄和微调能力脱颖而出,在字幕、物体检测、视觉接地和指代表达理解等任务中取得了最先进的新成果。即使在使用公共人类标注数据进行微调后,Florence-2 仍能与更大型的专业模型相媲美,树立了新的标杆。

技术深度

Florence-2 经过精心设计,克服了传统单一任务框架的局限性,采用了从序列到序列的学习范式,在一个共同的语言建模目标下整合了各种任务。
在这里插入图片描述
让我们深入了解构成这一创新模式架构的关键组成部分。

任务制定 (Task Formulation )

Florence-2 采用序列到序列框架,以统一的方式处理各种视觉任务。每个任务都被视为一个翻译问题,模型接收输入图像和特定任务提示,并生成相应的输出响应。

任务可以涉及文本或区域信息,模型会根据任务的性质调整其处理过程。对于特定区域的任务,标记化器的词汇表中引入了 __cpLocation 标记,以适应各种格式,如方框表示法、四方框表示法和多边形表示法。

视觉编码器(Vision Encoder)

视觉编码器在处理输入图像时发挥着关键作用。为此,Florence-2 采用了 DaViT(数据高效视觉转换器)作为视觉编码器。DaViT 将输入图像转换为扁平化的视觉标记嵌入,同时捕捉空间和语义信息。生成的视觉标记嵌入与文本嵌入连接起来,以便进一步处理。

多模态编码器-解码器转换器(Multi-Modality Encoder-Decoder Transformer)

Florence-2 的核心在于其基于变换器的多模态编码器-解码器。这一架构可同时处理视觉和语言标记嵌入,实现文本和视觉信息的无缝融合。多模态编码器-解码器有助于生成反映对输入图像和任务提示的全面理解的响应。

优化目标(Optimization Objective)

为了有效地训练 Florence-2,我们采用了标准的语言建模目标。鉴于输入(图像和提示的组合)和目标输出,该模型在所有任务中都使用了交叉熵损失。这一优化目标可确保模型学会在各种视觉相关任务中生成准确的反应。

Florence-2 架构证明了多任务学习以及文本和视觉信息无缝整合的强大功能。让我们简要讨论一下多任务学习设置。

多任务学习设置

多任务学习是 Florence-2 的核心功能,需要大规模、高质量的注释数据。该模型的数据引擎 FLD-5B 可自主生成一个全面的视觉数据集,其中包含 1.26 亿张图像54 亿个注释。该引擎采用自动图像注释和模型完善的迭代策略,摒弃了传统的单一和人工注释方法。

多任务学习方法包含三个不同的学习目标,每个目标都针对不同的粒度和语义理解水平:

  • 图像层面的理解任务:Florence-2 擅长通过语言描述理解图像的整体背景。任务包括图像分类、字幕和视觉问题解答(VQA)。
  • 区域/像素级识别任务:该模型有助于在图像中对物体和实体进行详细定位,捕捉物体与其空间环境之间的关系。这包括物体检测、分割和指代表达理解等任务。
  • 细粒度视觉语义对齐任务:Florence-2 解决了文本与图像之间细粒度对齐的复杂任务。这涉及定位与文本短语(如对象、属性或关系)相对应的图像区域。

通过将这些学习目标纳入多任务框架,Florence-2 能够熟练处理各种空间细节,区分理解层次,并实现视觉任务的通用表征。

绩效与评估

Zero-Shot 和 Fine-Tuning 能力

Florence-2 的零镜头性能给人留下了深刻印象,它在各种任务中都表现出色,无需对特定任务进行微调。例如,Florence-2-L 在 COCO caption 上的 CIDEr 得分为 135.6,超过了拥有 800 亿个参数的 Flamingo 等模型。

在微调方面,Florence-2 表现出了高效和有效。在 RefCOCO 和 TextVQA 等任务中,其简单的设计优于采用专门架构的模型。Florence-2-L 在各种任务中都表现出了具有竞争力的先进性能,突显了它的多功能性。

与 SOTA 模型的比较

Florence-2-L 在各种视觉模型中脱颖而出,表现出强大的性能和效率。与 PolyFormer 和 UNINEXT 等模型相比,Florence-2-L 在 RefCOCO REC 和 RES 等任务中表现出色,展示了其跨任务级别的通用性。

在图像级任务中,Florence-2 在 COCO Caption karpathy 测试拆分中获得了 140.0 的 CIDEr 分数,超过了参数更多的 Flamingo 等模型。包括物体检测和分割在内的下游任务凸显了 Florence-2 卓越的预训练能力。即使在冻结模型阶段,Florence-2 仍能保持极具竞争力的性能,这充分体现了它的有效性。

Florence-2 在 ADE20k 数据集上的语义分割任务中的表现也很突出,超过了之前最先进的模型,如 BEiT 在 ViT-B 上的预训练模型。

定性评估和可视化结果

Florence-2 就以下任务进行了定性评估:

详细图片说明

在这里插入图片描述

Visual Grounding

在这里插入图片描述

开放式词汇检测

在这里插入图片描述

OCR

在这里插入图片描述

地区到细分

在这里插入图片描述

与 SOTA LMM 的比较

在详细的字幕任务上,Florence-2 与 GPT 4V、LLaVA 和 miniGPT-4 等其他大型多模态模型(LMM)进行了对比评估。

在这里插入图片描述

总结

总之,Florence-2 是一个开创性的视觉基础模型,展示了多任务学习以及文本和视觉信息融合的巨大潜力。它为各种任务提供了高效的解决方案,而无需进行大量的微调。

该模型能够处理从图像级理解到细粒度视觉语义配准等各种任务,标志着向统一视觉基础迈出了重要一步。Florence-2 的架构体现了序列到序列学习的威力,为综合表征学习树立了新的标准。

展望未来,Florence-2 为未来的视觉基础模型铺平了道路。它的成功强调了在训练中考虑不同任务和粒度水平的重要性,从而有望建立适应性更强、更稳健的机器学习模型。在我们探索不断发展的人工智能领域时,Florence-2 的成就开辟了一条探索之路,促使研究人员更深入地研究多任务学习和跨模态理解领域。

参考

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个领域感兴趣,或者想要了解更多技术干货,请关注我的账号,一起成长!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机械硬盘和固态硬盘的区别及判断硬盘类型的方法

HDD(机械硬盘)和 SSD(固态硬盘)的主要区别 存储介质 HDD:使用磁性盘片(磁盘)和机械读写头SSD:使用闪存芯片 速度 HDD:读写速度较慢,因为需要机械读写头在…

新学期分班群发话术

尊敬的家长们: 我是XX学校X年级的班主任XXX老师。随着新学期的到来,我带着满心的期待和责任,向各位宣布一个重要的信息:本校即将开始新学年的分班工作。 分班的目的: 分班是为了适应不同学生的学习需求,确…

SaaS企业营销:PLG转型下SaaS企业如何成为赢家

在数字化浪潮的推动下,SaaS(软件即服务)行业正经历着前所未有的变革。特别是随着产品引领增长(PLG)模式的兴起,SaaS企业正面临着前所未有的机遇与挑战。如何在PLG转型中脱颖而出,成为行业赢家&a…

汇川学习笔记7 - 雕刻机项目

1、系统上电轴准备好之后,自动复回原点一次, 2、在雕刻机面板上有三个按钮用来控制画三种图形 3、注意cnc代码放置的文件夹 4、FILE0文件内容 5、FILE1文件内容 6、FILE2文件内容 7、程序代码下载地址 https://download.csdn.net/download/qq_6191667…

无需科学上网:轻松实现国内使用Coze.com平台自己创建的Bot(如何实现国内免费使用GPT-4o/Gemini等最新大模型)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 如何在国内使用 Coze.com 创建的 Bot 📒📝 创建Bot📝 实现国内使用📝 测试⚓️ 相关链接 ⚓️📖 介绍 📖 Coze.com 是一个强大的平台,允许用户创建各种类型的 Bot。然而,许多国内用户可能会遇到访问问题,导致无法…

Centos7.9安装openldap

文章目录 一、背景二、正文2.1 openldap服务端必要软件安装2.1.1使用yum命令安装2.1.2安装libdb相关依赖2.1.3复制一个默认配置到指定目录下,并授权,这一步一定要做,然后再启动服务,不然生成密码时会报错2.1.4授权给ldap用户&…

windows系统共享文件时,有权限文件访问被拒绝

我们在使用windows操作系统的时候,需要复制或者更改网络中的共享文件。但是有时候会出现图下的情况:文件访问被拒绝 查看共享文件的安全属性,发现Everyone的权限是完全控制的 这个时候我们可以看到,这个共享文件图标右上方带了一把…

vue2实现一个简易实用的日历(可特殊标记多个日期)

效果如下&#xff1a; <template><div class"calendar"><div class"header"><button click"previousMonth"><</button><h2>{{ currentYear }}-{{ currentMonth }} </h2><button click"nex…

【SpringCloud】Nacos

Nacos简介 2018年6月&#xff0c;Eureka 2.0宣布闭源&#xff08;但1.X版本仍然活跃&#xff09;&#xff0c;同年7月&#xff0c;阿里Nacos宣布开源&#xff0c;并迅速成为国内开发者关注的焦点。作为Eureka的替代品&#xff0c;Nacos目前已经成为国内开发者的首选。 Nacos&…

error: ‘CV_YUV2BGR_UYVY‘ was not declared in this scope

遇到这个问题时&#xff0c;按照如下修改可解决问题。 //cv::cvtColor(yuvImg, rgbImg, CV_YUV2BGR_UYVY);cv::cvtColor(yuvImg, rgbImg, cv::COLOR_YUV2RGB_UYVY);

浅析Vite本地构建原理

前言 随着Vue3的逐渐普及以及Vite的逐渐成熟&#xff0c;我们有必要来了解一下关于vite的本地构建原理。 对于webpack打包的核心流程是通过分析JS文件中引用关系&#xff0c;通过递归得到整个项目的依赖关系&#xff0c;并且对于非JS类型的资源&#xff0c;通过调用对应的loade…

《人人都是产品经理》笔记2:一个需求的奋斗史

一个需求的奋斗史 用户&#xff01;用户&#xff01;为什么会有需求&#xff1f;用户比客户更大以用户为中心的思想&#xff0c;以老板为中心的行动 用户研究方法 需求采集用户需求并不是产品需求&#xff0c;满足需求的三种方式把用户需求转化成产品需求 需求打包 BRD 产品会议…

Docker 搭建 MinIO 对象存储

Docker 搭建 MinIO 对象存储 一、MinIO MinIO 是一个高性能的对象存储服务器&#xff0c;用于构建云存储解决方案。MinIO 允许你存储非结构化数据&#xff08;如图片、视频、日志文件等&#xff09;以对象的形式。MinIO 提供简单的部署选项和易于使用的界面&#xff0c;允许你…

【免费API推荐】:汇总多种免费API接口(12)

欢迎来到幂简集成汇总的多种免费API接口世界&#xff01;我们致力于为开发者和创业者提供一个集成了各种免费API接口的平台。在这里&#xff0c;您可以轻松获取多种免费API接口&#xff0c;涵盖了各种领域的需求&#xff0c;包括天气、地图、社交媒体、专利相关信息等等。我们精…

哪里还能申请免费一年期SSL证书?

SSL证书是网络安全的基石之一&#xff0c;它确保了数据传输的安全性和网站身份的真实性。而申请免费一年期SSL证书&#xff0c;则为广大用户提供了一个经济高效的方式来提升网站的安全性。具体介绍如下&#xff1a; 基于不同服务平台的免费SSL证书申请 FreeSSL&#xff1a;此平…

硬盘监控和分析工具:Smartctl

文章目录 1. 概述2. 安装3. 使用4. smartctl属性信息介绍 1. 概述 Smartctl&#xff08;S.M.A.R.T 自监控&#xff0c;分析和报告技术&#xff09;是类Unix系统下实施SMART任务命令行套件或工具&#xff0c;它用于打印SMART自检和错误日志&#xff0c;启用并禁用SMRAT自动检测…

【MySQL】索引的原理及其使用

文章目录 什么叫索引减少磁盘IO次数缓存池(Buffer Pool&#xff09;MySQL的页页内目录页目录 正确理解索引结构为什么Innodb的索引是B树结构各种存储引擎支持的索引聚簇索引和非聚簇索引索引类型 关于索引的操作创建主键索引唯一索引的创建普通索引的创建查看索引删除索引 什么…

APP IOS

APP IOS苹果源生应用程序 APP Android-CSDN博客

nexus配置问题

错误信息&#xff1a; npm ERR! code E401 npm ERR! Unable to authenticate, need: BASIC realm"Sonatype Nexus Repository Manager"解决办法一&#xff1a; npm login --registryhttp://192.168.52.128:8081/repository/npm-repo 输入 用户名 密码 邮箱完成后会…

无线鼠标键盘怎么连接电脑?4种简单方法

在当今科技发展日新月异的时代&#xff0c;无线鼠标和键盘已经成为许多人日常工作和娱乐中的重要配件。与传统有线设备相比&#xff0c;无线鼠标和键盘具有更大的灵活性和便利性&#xff0c;让我们能够更自由地操作电脑&#xff0c;而不受线缆的束缚。 然而&#xff0c;对于一…