华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩...

41fbefd8d76fdb87f264ba382922d837.png

来源:机器学习研究组订阅

这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题。

视觉 - 语言预训练 (Vision-Language Pre-training,VLP) 提高了许多视觉 - 语言任务的性能。然而,大多数现有的预训练模型只能在基于理解任务或基于生成任务中表现出色。

现有的 VLP 方法主要存在两个局限性:

(1)从模型角度来讲,大多数方法采用基于编码器的模型,或者采用基于编码器 - 解码器模型。然而,基于编码器的模型很难直接转换到文本生成任务中,而编码器 - 解码器模型还没有成功地用于图像 - 文本检索任务;

(2)从数据角度来讲,像 CLIP、SimVLM 等 SOTA 模型通过在 web 上收集的图像 - 文本对进行预训练,尽管扩大数据集获得了性能提升,但 web 上的文本具有噪声,对 VLP 来说并不是最优。 

近日,来自 Salesforce Research 的研究者提出了 BLIP(Bootstrapping Language-Image Pre-training),用于统一视觉 - 语言理解和生成任务。BLIP 是一个新的 VLP 框架,可以支持比现有方法更广泛的下游任务。BLIP 通过自展标注(bootstrapping the captions),可以有效地利用带有噪声的 web 数据,其中标注器(captioner)生成标注,过滤器(filter)去除有噪声的标注。

该研究在视觉 - 语言任务上取得了 SOTA 性能,例如在图像 - 文本检索任务上, recall@1 提高 2.7%;在图像标注任务上,CIDEr 提高 2.8%、VQA 提高 +1.6%。当将 BLIP 以零样本的方式直接迁移到视频 - 语言任务时,BLIP 也表现出很强的泛化能力。

论文一作为Salesforce亚洲研究院高级研究科学家Junnan Li,香港大学电子工程学士,新加坡国立大学计算机科学博士。他的主要研究兴趣在于自监督学习、半监督学习、弱监督学习、迁移学习以及视觉与语言。 

dc5d45b9e8fd30355fefec5086810256.png

  • 论文地址:https://arxiv.org/pdf/2201.12086.pdf

  • 代码地址:https://github.com/salesforce/BLIP

  • 试玩地址:https://huggingface.co/spaces/akhaliq/BLIP

BLIP 的效果如何呢?用户只需上传一张图像,或单击内置示例加载图像就可完成。

BLIP 模型具有两个功能:图像标注和回答问题。这里,我们上传了猫咪和狗的图片:在图像标注这一功能下,模型输出「caption: a puppy and a kitten sitting in the grass(一只小狗和一只小猫坐在草地上)」(如下图红框所示)。

de5cdb0edec8cc5550b5bb7c410d7223.png

在回答问题功能下:当我们输入问题「what is the color of the puppy(小狗的颜色是什么)」,模型输出「tan(棕黄色)」。

d8f4bbea775403ca5965ede1f5e7653e.png

上传著名油画《星夜》,在图像标注功能下模型输出「caption: a painting of a starry night over a city(一幅描绘城市星空的画)」。

c79a6df41d9e96b972ec70df3f6c9740.png

上传经典动画《龙猫》,向模型提问「who is standing next to totoro(谁坐在龙猫旁边)」,模型回答「little girl(小女孩)」。

ef6d432e32319c371ce68b7ddc672dc3.png

架构 & 方法

研究者提出的 BLIP 是一个统一的视觉语言预训练(vision-language pre-training, VLP)框架,从有噪声的图像文本对中学习。接下来详细解读模型架构 MED(mixture of encoder-decoder)、它的预训练目标以及用于数据集自展的方法 CapFilt。下图 2 为 BLIP 的预训练模型架构和目标。

e39be64c7ce528d1d00e5ae40f954703.png

动态运行示意图如下:

6ca0b868d24f844bdf48534e84393ac9.gif

模型架构

研究者将一个视觉 transformer 用作图像编码器,该编码器将输入图像分解为 patch,然后将这些 patch 编码为序列嵌入,并使用一个额外的[CLS] token 表征全局图像特征。相较于将预训练目标检测器用于视觉特征提取的方法,使用 ViT 在计算上更友好,并且已被最近很多方法所采用。

为了预训练一个具备理解和生成能力的统一模型,研究者提出了多任务模型 MED(mixture of encoder-decoder),它可以执行以下三种功能的任意一种:

  • 单峰编码器

  • 基于图像的文本编码器

  • 基于图像的文本解码器

 预训练目标

研究者在预训练过程中共同优化了三个目标,分别是两个基于理解的目标和一个基于生成的目标。每个图像文本对只需要一个前向传播通过计算更重(computational-heavier)的视觉 transformer,需要三个前向传播通过文本 transformer,其中激活不同的功能以计算以下 3 个损失,分别是:

  • 图像文本对比损失(image-text contrastive loss, ITC),激活单峰编码器,旨在通过鼓励正图像文本对(而非负对)具有相似的表征来对齐视觉与文本 transformer 的特征空间;

  • 图像文本匹配损失(image-text matching loss, ITM),激活基于图像的文本编码器,旨在学习捕获视觉与语言之间细粒度对齐的图像文本多模态表征;

  • 语言建模损失(language modeling loss, LM),激活基于图像的文本解码器,旨在给定一张图像时生成文本描述。

为了在利用多任务学习的同时实现高效的预训练,文本编码器和解码器必须共享除自注意力(self-attention, SA)层之外的所有参数。具体地,编码器使用双向自注意力为当前输入 token 构建表征,同时解码器使用因果自注意力预测接下来的 token。

另外,嵌入层、交叉注意力(cross attention, CA)层和 FFN 在编码和解码任务之间功能类似,因此共享这些层可以提升训练效率并能从多任务学习中获益。

 CapFilt 

研究者提出了一种提升文本语料库质量的新方法——CapFilt(Captioning and Filtering)。如下图 3 所示,CapFilt 引入了两个主要的模块:一个是为给定 web 图像生成标注的标注器(captioner),另一个是消除有噪声图像文本对的过滤器(filter)。这两个模块都源于同一个预训练 MED 模型,并各自在 COCO 数据集上微调。

2f644f85e325c4672690c6ce27fb7b7e.png

具体地,标注器是一个基于图像的文本解码器。它利用 LM 目标进行微调,以解码给定图像的文本。比如,给定 web 图像 I_w,则标注器生成标注 T_s,其中每张图像一个标注。

过滤器是一个基于图像的文本编码器。它利用 ITC 和 ITM 目标进行微调,以学习文本是否与图像匹配。过滤器消除原始 web 文本 T_w 和合成文本 T_s 中的噪声文本,其中如果 ITM 头(head)预测一个文本与图像不匹配,则该文本被认为有噪声。

最后,研究者将过滤后的图像文本对于人工注释对相结合以生成一个新的数据集,并用它预训练了新模型。

实验结果

研究者在 PyTorch 中实现模型,并在两个 16-GPU 节点上预训练模型。其中,图像 transformer 源于在 ImageNet 上预训练的 ViT,文本 transformer 源于 BERT_base。

CapFilt 的效果

下表 1 中,研究者比较了在不同数据集上预训练的模型,以验证 CapFilt 在下游任务(包括微调和零样本设置下的图像文本检索和图像标注)上的效用。

63749831dcd300dae2e60133cfd021dd.png

下图 4 中给出了一些标注示例以及对应的图像,从而在质量上验证了标注器有效地生成新的文本描述,过滤器有效地消除原始 web 文本和合成文本中的噪声标注。

086501db07759996a97219d69c0a61f2.png

合成标注的关键:多样性 

在 CapFilt 方法中,研究者使用一种随机解码方法——核抽样(nucleus sampling)来生成合成标注。下表 2 中与束搜索(beam search)方法进行了比较,可以看到核抽样取得了更好的数据结果,尽管由于过滤器更高的噪声比导致了更大的噪声。

44cf8fc7411414c20e30bad962bd7590.png

参数共享与解耦

在预训练中,文本编码器和解码器共享所有参数,除自注意力层外。表 3 评估了使用不同参数共享策略进行预训练的模型性能,其中预训练是在 14M 带有 web 文本的图像上进行的。

结果表明,除 SA 外,所有层具有参数共享优于那些没有进行参数共享的,同时也减少了模型的大小,从而提高了训练效率。

c966f336eb5bf66f71722af9105f5ac0.png

在 CapFilt 中,标注器和过滤器分别在 COCO 上进行了端到端的微调,表 4 研究了标注器和过滤器以共享参数的方式进行预训练的影响。

由于参数共享,标注器产生的噪声标注不会被过滤器过滤掉,这可以从较低的噪声比 (8% 比 25%) 看出。

360962901cccd077827a9b4c2e806ac5.png

与 SOTA 模型进行比较

该研究将 BLIP 与 VLP 模型在视觉 - 语言下游任务上进行了比较。如表 5 所示,与现有方法相比,BLIP 实现了性能改进。使用相同的 14M 预训练图像,BLIP 在 COCO 上的 recall@1 比之前的最佳模型 ALBEF 高 2.7%。

f33cc65df331f27e334531b553dc3d0e.png

该研究还通过将在 COCO 上微调的模型直接迁移到 Flickr30K 来执行零样本检索。结果如表 6 所示,BLIP 也大大优于现有方法。

54a2a976aa5a771ecc10df2ff58a8d4c.png

在图像标注任务上,该研究采用两个数据集:NoCaps 和 COCO,两者都使用在 COCO 上微调并具有 LM 损失的模型进行评估。如表 7 所示,使用 14M 预训练图像的 BLIP 显著优于使用相似数量的预训练数据的方法。使用 129M 图片的 BLIP 与使用 200M 图片的 LEMON 相比,具有相媲美性能。

89fcdde99092684810a0cd454a288986.png

视觉问答 (VQA) 要求模型在给定图像和问题的情况下预测答案。该研究没有将 VQA 制定为多答案分类任务,而是遵循 Li 等人研究将其视为一个答案生成任务,它支持开放式 VQA。

结果如表 8 所示,在测试集上,使用 14M 图像,BLIP 的性能比 ALBEF 高出 1.64%。使用 129M 图像,BLIP 比 SimVLM 获得了更好的性能,而 SimVLM 使用了 13 倍多的预训练数据和更大的视觉骨干,并附加了一个卷积阶段。

e2586a4bac9550ed01304d27e5884279.png

更多实验数据请参见原论文。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

8c70a158f7bd4cc98f6b34d3ae111137.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482593.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2020年9月25日-01-项目启动(团队分工)+带宽,网络速度的计算

此博客用于记录2020年9月25日每日分享, 大概讲讲团队里的分工合作那些事儿。 关于带宽啊,网速啊之类的一些事儿 日期:2020年9月25日 主题: 团队合作怎么合作?有什么人?一般用什么工具?诸如此类…

群体决策是如何误入歧途的

1986年,刚刚升空不久就发生爆炸的挑战者号航天飞机。© Boing Boing来源: 利维坦文:Joshua Holden译:以实马利校对:兔子的凌波微步原文:nautil.us/what-makes-group-decisions-go-wrong-and-right-1340…

2020年9月26日-02-软件工程-工程化思维+瀑布模型+敏捷开发

此博客用于记录2020年9月26日每日分享, 软件工程中的集中常见模式,瀑布模型,敏捷开发等 日期:2020年9月26日 主题: 讨论讨论怎么使用软件工程的思想来解决问题软件工程中的集中常见模式,瀑布模型&#xff…

PowerDesigner15在win7-64位系统下对MySQL 进行反向工程以及建立物理模型产生SQL语句步骤图文傻瓜式详解...

1、安装PowerDesigner15、MySQL5.不详细讲解了。网上一大把。请各位亲参考去。 2、安MyODBC-standard-3.51.0.7-win.msi、mysql-connector-odbc-5.1.5-win.msi两个文件。可以支持odbc在win7下创建连接。 3、安装好之后,最好重新启动系统。不要试图在win7控制面板内找…

转换机器学习:面向多学科问题,构建机器学习新生态

来源: 集智俱乐部作者:Ivan Olier译者:郭瑞东审校:张澳编辑:邓一雪导语机器学习方法在生命、物理、社会经济等复杂系统的应用日渐频繁。如何针对特定任务选取合适的机器学习方法,如何综合利用各类机器学习方…

nginx正向代理 反向代理

1、正向代理 1.我访问不了某网站,但是我能访问一个代理服务器,这个代理服务器呢,他能访问那个我不能访问的网站 2.于是我先连上代理服务器,告诉他我需要那个无法访问网站的内容,代理服务器去取回来,然后返回给我。 3.客户端必须设置正向代理…

【综述专栏】从微分几何和代数拓扑的视角来重新探讨图神经网络

来源:知乎—努力努力再努力q地址:https://zhuanlan.zhihu.com/p/435040892在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可…

2021-07-27-jeesite学习笔记

2021年7月30日 https://blog.csdn.net/weixin_43886319/article/details/102668518 日了狗 2021年7月29日 sqlJenkins充吧 第一天 参考博文 安装jdk https://blog.csdn.net/qq_42815754/article/details/82968464 有关linux环境变量 https://blog.csdn.net/ljheee/articl…

elasticsearch-1

单实例安装 1、官网下载tar压缩包 https://www.elastic.co/downloads/elasticsearch 2、将下载好的压缩包elasticsearch-5.5.2.tar.gz上传到linux服务器,并解压缩 tar -vxf elasticsearch-5.5.2.tar.gz 3、cd进入到elasticsearch-5.5.2目录中,启动ela…

清华博士后用10分钟讲解AlphaCode背后的技术原理,原来程序员不是那么容易被取代的!...

来源:AI科技评论不久前,DeepMind 的团队发布了一个可以自动生成竞赛级代码的人工智能系统——AlphaCode,号称「媲美普通程序员」,一经发表就在国内外的AI圈里引起了巨大轰动。 -论文地址:https://storage.googleapis.c…

css基础选择器

文章目录css简介css语法规范css代码风格:css选择器的作用css基础选择器标签选择器:类选择器多类名选择器id选择器:id选择器和类选择器的区别:通配符选择器:选择器总结css简介 ​ CSS 是层叠样式表 ( Cascading Style …

深度学习模型模拟大脑地形图,有助于回答大脑不同部分如何协同工作

来源:ScienceAI编辑:凯霞大脑中处理视觉信息的部分——颞下(IT)皮层——受损可能是毁灭性的,尤其是对成年人而言。那些受影响的人可能会失去阅读能力(一种称为失读症的疾病)或辨认面孔&#xff…

深度学习再登Science:万物皆可做神经网络处理器,你甚至可以用锅碗瓢盆

来源:机器学习研究组订阅想象一下,你周围的任何东西,比如一个煎锅、一个玻璃镇纸,都可以用来当成神经网络的中央处理器,那是什么感觉?神经网络简单来说,是一种模仿大脑执行复杂任务的只能系统&a…

css目标

第一天 第二天

Gotta Catch Em All!——三元环计数

传送: https://vjudge.net/problem/Kattis-gottacatchemall 前置知识: 三元环计数 https://www.cnblogs.com/Dance-Of-Faith/p/9759794.html 思路: 首先去重边,记每个点的度数为n,三元环个数为m,答案为(∑…

【前瞻】机器人领域十项前沿技术

来源:工业互联网观察 机器人大讲堂近些年来,机器人行业发展迅速,机器人被广泛应用于各个领域尤其是工业领域,不难看出其巨大潜力。与此同时,我们也必须认识到机器人行业的蓬勃发展,离不开先进的科研进步和…

day27 网络编程一

网络编程 基础 一 软件开发架构 # c/s架构(client/server) c:客户端 / s:服务端 # b/s架构(browser/server) b:浏览器 / s:服务器 ps:bs架构本质也是cs架构 手机端看上去cs架构比较火,实际上bs已经在崛起,微信支付宝都在做一件事:统一接口,手机端之后肯定也是bs比较火 未来应用…

不止摩尔定律,计算领域值得学习的定律还有哪些?

来源:新智元当下,计算机领域最受欢迎的两大定律是:摩尔定律和梅特卡夫定律。摩尔定律,是以Intel(英特尔)联合创始人Gordon Moore(戈登•摩尔)为命名,摩尔定律预言,芯片上…

世界一流大学如何建设人工智能学科

来源:光明日报作者:李锋亮 庞雅然 人工智能人才培养是变革核心人工智能、基因工程、纳米科学并列为21世纪三大尖端技术,是工业革命4.0的变革核心。其中,人工智能涉及广泛的知识领域,包括技术体系内的数学基础、技术基础…

机器学习获量子加速!物理学家与计算科学家「自然联姻」

来源:新智元AI和量子计算的碰撞,会产生什么神奇的火花?IBM团队的一项研究表明,在机器学习任务上,已经找到了量子计算能够加速数据分类的证据,远超传统算法。未来,基于量子的机器学习加速器可能就…