惊呆!不用一张图片,却训出个图像识别SOTA?

文 | 橙橙子

如果老板派给你一个任务,不使用一张图片,让你训练一个视觉预训练模型,你会不会觉得老板疯了。最近有一篇论文,不仅没用一张真实图片和标注,还训练出个媲美SOTA的效果,甚至超过了MoCov2和SimCLRv2,你敢信么?今天,就让我们来看一下这篇神作!

论文题目:
Can Vision Transformers Learn without Natural Images?

论文链接:
https://arxiv.org/pdf/2103.13023.pdf

项目地址:
https://hirokatsukataoka16.github.io/Vision-Transformers-without-Natural-Images/

也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0414】 下载论文PDF~

什么是不需要真实图像的ViT?

视觉Transformer(ViT)最近强势进军CV界,并取得绝佳效果,大有要取代曾经的王者卷积神经网络(CNNs)的趋势。不过,ViT也有诸多问题,在预训练阶段经常需要上亿级别的真实图像数据和标注预训练才能和CNNs一较高低,这直接带来了诸如隐私保护、标注成本、AI伦理等问题。随着自监督学习方法(Self-Supervised Learning, SSL)如Moco、SimCLR的成功, 标注问题被极大地解决,但是在真实图像上进行训练仍然会触发诸如侵犯隐私和公平性保护的问题。譬如,正因为图像版权相关的问题,著名的ImageNet数据集只能用于非商业用途。

如果能不使用任何真实图像数据和人工标注情况下训练ViT,还能达到甚至超过真实图像训练的最优模型,数据问题荡然无存,模型轻松放心大胆用,这简直完美,岂不快哉!

公式驱动的监督学习

重点来了!通过什么方式达成这一目标呢?本文提出了一种基于公式驱动的监督学习方法(Formula-Driven Supervised Learning,FDSL)。这种方法依赖于没有自然图像的数据库,即分形数据库(FractalDB)。通过分配分形来自动生成图像模式及其类别标签,这些分形基于现实世界背景知识中存在的自然规律。FractalDB最早被提出于[1],值得一提的是,这篇文章同样也是本文作者所写,并获得了ACCV 2020最佳论文提名奖。

FractalDB的构造过程可以分为两步:

(1)使用迭代函数系统(iterated function system,IFS)自动生成基础分形和对应的类别。熟悉计算机图形学的同学们会比较熟悉,使用IFS生成分形分为选定随机起始像素点、随机生成种仿射变换包含6个参数:4个旋转参数和2个平移参数;表示采样概率)、依据概率分布对当前点采样变换函数生成新的描绘点、重复迭代这个过程直至达到设定像素点阈值这几个过程。最终的分形由这些像素点绘制而成,由于它由确定,所以对应的类别就是。这种方法能够保证只使用简单的公式就可以生成接近自然物体的复杂模式。

(2)对基础分形做扩展,得到当前类下的不同样例(intra-category instances)。这个步骤的目的是为了扩充数据。类别内扩充的基本原则是在保持分形基本形状不变的情况下,尽可能增加多样性。论文提出了三种方式:a. 对IFS的6个参数进行一定weight缩放:预设了4种weight,可以产生25种()不同的变种。b.旋转:包括不旋转、水平旋转、垂直旋转、水平-垂直共4种。c. 块渲染:基础分形使用了的像素渲染,为了制造差异性,块渲染使用10种的像素块。这样,对于每一种类别,我们可以构造出1000()个样例。

最终,FractalDB含有两种不同的规模。FractalDB-1K含有1k类别,共计1M样例。FractalDB-10k含有10k类别,共计10M样例。

下图展示了分形数据库的构造过程:

分形数据库联合ViT

FractalDB可以直接应用在ViT上么?答案是肯定的,不过本文也针对ViT的特点做了一些使用方式上的修改。首先,真实图像是彩色图,而分形没有背景,是灰度图。为了让模型学到一些色彩的分布,论文对FractalDB进行了色彩增强,即在渲染时随机使用颜色像素。进一步,参考自监督学习的成功经验,论文进行了更长时间的充分训练。

好了,数据已ready,剩下的就交给强大的ViT了!这里,论文使用了DeiT (Data-Efficient Image Transformers)[2]. 在FractalDB上训练ViT和在真实图像上训练方法一样,将2D图像拆分成大小的多个patch,并平铺在一起组成多个visual token的1D输入,然后开心快乐的feed到Transormer中训练就好啦~

呼唤实验效果

实验是检验真理的唯一标准,效果好不好,结果看一下。论文使用了经典的pretrain-finetune方法,首先在FractalDB上预训练的DeiT,接着在各个视觉下游任务数据集上微调。

首先和多种有监督方法进行了效果对比。尽管论文方法没有完全超过在在Imagenet-1k(1.28M)上训练的效果,但是已经非常接近了。这可是完全一张真实图像都没有用啊喂! 另外我们可以看到,使用预训练和不使用,效果差距是非常明显的。

另一方面,论文和流行的自监督学习方法进行了实力对比。论文方法的平均表现亮眼,超过了MoCov2、SimCLRv2等方法。

最后,论文也做了一些可视化分析。使用分形数据库训练的模型相对于有监督模型和自监督模型而言,过滤器的范围要更广,可以在更大的范围内获取特征。

总结一下

论文另辟蹊径的在不使用任何真实图像和标注的条件下,成功训练了一个强大的ViT模型,虽然距离现在的有监督方法还有微弱差距,但是已经超过了目前最优秀的自监督模型MoCov2和SimCLRv2,是一项非常有趣的工作,相信它在AI伦理和版权保护方面有重要意义。

不过,笔者私以为,抛开数据使用问题,研究角度还是很期望看到自动构造的分形数据和真实图像数据的融合训练,说不定会有意想不到的效果呢。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1] Pre-training without Natural Images
(https://arxiv.org/pdf/2101.08515.pdf)

[2] Training data-efficient image transformers & distillation through attention
(https://arxiv.org/pdf/2012.12877.pdf)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478702.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 797. 所有可能的路径(DFS)

1. 题目 给一个有 n 个结点的有向无环图,找到所有从 0 到 n-1 的路径并输出(不要求按顺序) 二维数组的第 i 个数组中的单元都表示有向图中 i 号结点所能到达的下一些结点(译者注:有向图是有方向的,即规定…

每天数百亿用户行为数据,美团点评怎么实现秒级转化分析?

背景 用户行为分析是数据分析中非常重要的一项内容,在统计活跃用户,分析留存和转化率,改进产品体验、推动用户增长等领域有重要作用。美团点评每天收集的用户行为日志达到数百亿条,如何在海量数据集上实现对用户行为的快速灵活分析…

pycharm插件之SonarLint

pycharm插件之SonarLint pycharm插件之SonarLint 一、插件安装位置 1、在线安装插件 通过File—>Settings—>Plugins进行安装插件,然后只需要重新启动IEDA即可。 2、离线安装插件 通过 Settings > Plugins > Install Plugin from 离线安装&#x…

论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入

论文笔记整理:谭亦鸣,东南大学博士生。来源:ICLR2020链接:https://openreview.net/pdf?idBkxSmlBFvrKG embedding(KGE)模型的目标是学习知识图谱中实体和关系的向量表示。近年来众多的KGE方法被提出&#…

撑起百万亿参数模型想象力!英伟达发布新一代SuperPOD超算,AI算力新巅峰!

周一,黄教主又很淡定的在自家厨房里开完了GTC发布会。众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型,目前比较流行的…

每日优鲜小程序基础组件介绍

每日优鲜小程序基础组件介绍1.基础组件介绍2.基础组件的结构与作用3.基础组件的接入方法初次引入初始化更新与维护基础组件接入1.基础组件介绍 小程序基础组件基于每日优鲜主商城小程序业务实践演变而来。 基础组件的名称为:mini_app_base_module。 基础组件的项…

Redis 高负载下的中断优化

背景 2017年年初以来,随着Redis产品的用户量越来越大,接入服务越来越多,再加上美团点评Memcache和Redis两套缓存融合,Redis服务端的总体请求量从年初最开始日访问量百亿次级别上涨到高峰时段的万亿次级别,给运维和架构…

LeetCode 394. 字符串解码(栈)

1. 题目 给定一个经过编码的字符串,返回它解码后的字符串。 编码规则为: k[encoded_string],表示其中方括号内部的 encoded_string 正好重复 k 次。注意 k 保证为正整数。 你可以认为输入字符串总是有效的;输入字符串中没有额外的空格&…

90TB显存!英伟达发布新一代SuperPod超算,AI算力新巅峰!

周一,黄教主又很淡定的在自家厨房里开完了GTC发布会众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型,目前比较流行的V…

VS Code HtmlFindClass 插件介绍

这款插件诞生于工作中,在写大量的前端代码之后,发现有的工作比较重复,浪费时间,于是想能不能通过工具来解决。起初是拿Java写的,但是它不利于推广,因为很多前端同学不掌握Java。以至于是一直我自己在使用。…

论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架

论文笔记整理:窦春柳,天津大学硕士。链接:https://arxiv.org/pdf/1909.03227.pdf动机首先作者提出了问题,传统的关系抽取是不能很好的解决三元组重叠,如下图。从图中可以发现,传统的关系抽取针对Normal 类型…

LeetCode 733. 图像渲染(DFS/BFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 有一幅以二维整数数组表示的图画,每一个整数表示该图画的像素值大小,数值在 0 到 65535 之间。 给你一个坐标 (sr, sc) 表示图像渲染开始的像素值(行 ,列)和一个新的颜…

美团外卖Android平台化架构演进实践

美团外卖自2013年创建以来,业务一直高速发展。目前美团外卖日完成订单量已突破1800万,成为美团点评最重要的业务之一。美团外卖的用户端入口,从单一的外卖独立App,拓展为外卖、美团、点评等多个App入口。美团外卖所承载的业务&…

Vue源码探究笔记

对于源代码分析有一个基本原则:要找到它的最早期的版本,比如1.0版本。1.0版本奠定了一款框架的基础结构,之后的版本迭代都是基于这套结构进行更新的。所以掌握了基础结构,那也就掌握了这个框架。这个原则适用于世界上绝大多数事务…

Jarvis:一个值得关注的多模态端到端人机对话框架,针对所有行业适配

说到应用级的人机对话框架,很多人可能首先想到的是RASA开源项目。不过,今天跟大家简要分享一个功能更为丰富、性能更为强劲的多模对话框架——Jarvis,非常值得对话系统从业者关注一下。Jarvis是英伟达于2019年发布的人机对话服务,…

技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

本文转载自公众号:AI前线。作者 | 李冬梅 采访嘉宾 | 唐杰知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知…

LeetCode 542. 01 矩阵(BFS DP)

文章目录1. 题目2. 解题2.1 BFS2.2 DP动态规划1. 题目 给定一个由 0 和 1 组成的矩阵,找出每个元素到最近的 0 的距离。 两个相邻元素间的距离为 1 。 示例 1: 输入: 0 0 0 0 1 0 0 0 0 输出: 0 0 0 0 1 0 0 0 0示例 2: 输入: 0 0 0 0 1 0 1 1 1 输出: 0 0 0 0…

美团旅行销售绩效系统研发实践

背景 O2O是目前互联网竞争最激烈的领域之一,其重要的业务特征是有大规模的线下业务团队,他们分布在五湖四海,直接服务着数以百万的商家,责任很重,管理的难度巨大。能否通过技术手段,打造高效的线下团队&…

深入解析Node.js setTimeout方法的执行过程

深入了解setTimeout源码之前,本有两个选择。一是通过chromium源码分析,二是通过Node.js源码分析。后来发现第一种方案的源码获取成本太大,于是从Node官网获取了几十兆的代码用来了解。 当前的Node版本为:v10.16.0 setTimeout方法定…

别只关注GPT3!细如发丝的模型更具现实杀伤力!

这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3;而另一种恰恰相反,是把很平常的东西做到最小。 ----王苏语录GPT3自从诞生以来,便受到…