我不看好data2vec这类多模态融合的研究

ed16fd4c0c79189309d20cdbdc9bd51e.png

文 | 谢凌曦@知乎

作者注:所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。谢谢!

最近data2vec在twitter和知乎上小火了一把,有人说data2vec是个不错的工作,也有人说data2vec最成功的就是名字。

1c14be31706060aaf7cc98fc7ec63119.png

我的一句话评价:在当前的技术储备下,我不太看好这种多模态融合的路线会走太远。

先说文章。主体方法一句话就可以说清楚:利用masked data modeling的方式对语音、文本、图像进行统一预训练。

至于用EMA来构造teacher然后监督student等常规操作,与许多已有方法相似,因此也不再赘述。和之前若干文章一样,作者也毫不避讳,甚至有些骄傲地宣传该方法非常简单,并且可以处理三种不同模态。

实验部分因为要兼顾三种模态,所以每个部分都比较短,其中视觉部分略显敷衍:只做了ImageNet上的fine-tuning——然而在我看来,fine-tuning这个setting真的没有太大价值:预训练模型的两个最重要的能力(小样本、域迁移)都没有得到考验!

总的来讲,与近期视觉领域的若干文章一样,data2vec使用了极简架构,达到了比较solid的实验结果,因而是一篇值得被ICML接受的文章。

顺便说句题外话感慨一下:最近做预训练的文章,都流行“方法1页,实验4-5页”的暴力写作风格,似乎要向业界传递一个信号:方法不重要,数据和算力才是。

回想十年前,方法和实验长度1:1的文章,都时常要被质疑方法太简单。时代确实不一样了。

问题是,现在这样真的对吗?或者说,这样真的能解决长远的问题吗?我们知道,不同模态的数据具有十分不同的性质。除了语音和文本这种对应性很强的跨模态,如果我们考虑文本和图像,就会发现两者的对应关系复杂而多变。

本中的某些token,根本不会在图像中呈现出来,反之亦然。在这种情况下,统一使用masked modeling的做法,虽然确实取得了一定的效果,但是它的上限不会太高;指望它完成真正的跨模态,就更是天方夜谭了。

上述现象,归根结底,这是因为图像和文本的来源不同:图像作为反映客观事物的载体,必须追求真实和详细;而文本作为人类主观意志的表达,则往往追求抽象和简洁。

目前,还没有任何一种方法能够证实两种数据应该被映射到同一个隐空间上;而几乎所有跨模态预训练方法,都不过将两种完全不同的数据强行对齐,得到一些统计意义上的弱规律罢了。

当然,我不是说这些事没有意义。在深度学习,尤其是具有大一统潜力的transformer模块的助力下,这样做确实拓展了人类的知识边界和工具包,值得记为AI发展的一个小里程碑。

但是,我们决不能满足于这种简单暴力的方法,因为它们对本质问题(即不同模态数据如何对齐)的帮助极为有限。

就拿我熟悉的视觉任务来说。BEIT和MAE开启了一波masked image modeling的热潮,然而问题是:在图像上做mask真的对吗,真的能够学到高效的语义吗?这个问题目前还没有得到解答!

换句话说,还没有人能够回答,图像自监督究竟学到了什么,是否学到了超越像素统计量的信息?在这种情况下,如果我们一味地沉浸在transformer的表面繁荣里,沾沾自喜于fine-tuning比linear probing高出的那几个百分点,怕是会忘了前路漫漫,懈怠于思考真正重要的问题吧。

总之,大一统很重要也很迷人,但是还不到火候啊。

最后,我希望以下两件事至少发生一件。

第一,我被狠狠地打脸:这样暴力的预训练方法确实带来了非平凡的突破,走向下一个时代的AI。

第二,大佬/大组们能够稍微冷静一些,向业界传递正确的信号,让没有足够资源烧实验的同学们知道哪些问题重要、哪些问题亟待解决、哪些问题不过是无奈下的选择:只有更理智的大众,才能更好地推动业界发展,不是么?

690d6bbb5d2d45dc885e55d19742509f.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

fa9f26ca5d9c1e7d205f9f1c7f67d9ae.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477633.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 165. 比较版本号

1. 题目 比较两个版本号 version1 和 version2。 如果 version1 > version2 返回 1&#xff0c;如果 version1 < version2 返回 -1&#xff0c; 除此之外返回 0。 你可以假设版本字符串非空&#xff0c;并且只包含数字和 . 字符。 . 字符不代表小数点&#xff0c;而是…

会议交流 | 第十六届全国知识图谱与语义计算大会 (CCKS2022)

点击阅读原文&#xff0c;进入 CCKS2022 注册页面。OpenKGOpenKG&#xff08;中文开放知识图谱&#xff09;旨在推动以中文为核心的知识图谱数据的开放、互联及众包&#xff0c;并促进知识图谱算法、工具及平台的开源开放。

Spring Cloud Config对特殊字符加密的处理

之前写过一篇关于配置中心对配置内容加密解密的介绍&#xff1a;《Spring Cloud构建微服务架构&#xff1a;分布式配置中心&#xff08;加密解密&#xff09;》。在这篇文章中&#xff0c;存在一个问题&#xff1a;当被加密内容包含一些诸如、这些特殊字符的时候&#xff0c;使…

负采样,yyds!

文 | 徐澜玲源 | RUC AI Box引言&#xff1a;负采样方法最初是被用于加速 Skip-Gram 模型的训练&#xff0c;后来被广泛应用于自然语言处理 (NLP)、计算机视觉 (CV) 和推荐系统 (RS) 等领域&#xff0c;在近两年的对比学习研究中也发挥了重要作用。本文聚焦于负采样方法&#x…

图谱实战 | 10 个前沿落地应用案例分享(附下载)

转载公众号 | DataFunSummit导读&#xff1a;知识图谱和图学习都是这两年比较热门的研究方向。近年来&#xff0c;无论是工业界还是学术界&#xff0c;都陆续提出了自己的知识图谱构建平台&#xff0c;知识图谱被广泛应用在推荐、医疗等行业场景&#xff1b;各个公司、各个研究…

LeetCode 1080. 根到叶路径上的不足节点(递归)

1. 题目 给定一棵二叉树的根 root&#xff0c;请你考虑它所有 从根到叶的路径&#xff1a;从根到任何叶的路径。&#xff08;所谓一个叶子节点&#xff0c;就是一个没有子节点的节点&#xff09; 假如通过节点 node 的每种可能的 “根-叶” 路径上值的总和全都小于给定的 lim…

Spring Cloud构建微服务架构:分布式配置中心(加密解密)

在微服务架构中&#xff0c;我们通常都会采用DevOps的组织方式来降低因团队间沟通造成的巨大成本&#xff0c;以加速微服务应用的交付能力。这就使得原本由运维团队控制的线上信息将交由微服务所属组织的成员自行维护&#xff0c;其中将会包括大量的敏感信息&#xff0c;比如&a…

112页机器学习数学知识整理!数学基础回顾.pptx

机器学习的基础是数学&#xff0c;数学基础决定了机器学习从业人员的上限&#xff0c;想要学好机器学习&#xff0c;就必须学好数学。这么多数学知识&#xff0c;不管是硕士阶段还是博士阶段的研究生&#xff0c;是没法学完全的&#xff0c;必须有所取舍&#xff0c;黄海广博士…

LeetCode 274. H指数(排序,哈希)

1. 题目 给定一位研究者论文被引用次数的数组&#xff08;被引用次数是非负整数&#xff09;。编写一个方法&#xff0c;计算出研究者的 h 指数。 h 指数的定义: “h 代表“高引用次数”&#xff08;high citations&#xff09;&#xff0c;一名科研人员的 h 指数是指他&…

论文浅尝 | 记忆推理:最近邻知识图谱嵌入

笔记整理&#xff1a;孙硕硕&#xff0c;东南大学硕士&#xff0c;研究方向为根因溯源。Citation: Zhang N, Xie X, Chen X, et al. Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings[J]. arXiv preprint arXiv:2201.05575, 2022.动机大多数知识图…

LeetCode 275. H指数 II(二分查找)

1. 题目 给定一位研究者论文被引用次数的数组&#xff08;被引用次数是非负整数&#xff09;&#xff0c;数组已经按照升序排列。编写一个方法&#xff0c;计算出研究者的 h 指数。 h 指数的定义: “h 代表“高引用次数”&#xff08;high citations&#xff09;&#xff0c;…

Spring Cloud中Hystrix 线程隔离导致ThreadLocal数据丢失

在Spring Cloud中我们用Hystrix来实现断路器&#xff0c;Zuul中默认是用信号量&#xff08;Hystrix默认是线程&#xff09;来进行隔离的&#xff0c;我们可以通过配置使用线程方式隔离。 在使用线程隔离的时候&#xff0c;有个问题是必须要解决的&#xff0c;那就是在某些业务…

如果再这么玩下去,中国的科研就没戏了

文 | 知识分子编者按&#xff1a;今天编发的这篇文章&#xff0c;是某国立研究所所长的内心自白。他的一家之言&#xff0c;道出了许多人不愿意面对的现实——中国科研表面上看起来一片繁荣&#xff0c;实际深藏危机&#xff0c;如果继续跟班式搞科研&#xff0c;中国科研就没戏…

Spring Cloud Feign的文件上传实现

在Spring Cloud封装的Feign中并不直接支持传文件&#xff0c;但可以通过引入Feign的扩展包来实现&#xff0c;本来就来具体说说如何实现。 服务提供方&#xff08;接收文件&#xff09; 服务提供方的实现比较简单&#xff0c;就按Spring MVC的正常实现方式即可&#xff0c;比…

论文浅尝 | 开放知识图谱构建必读:封闭域VS开放知识抽取与4大类开放抽取常用方法概述...

转载公众号| 老刘说NLP最近社区抛出一个关于开放知识抽取的话题&#xff0c;也是当前知识图谱构建的一个热点&#xff0c;希望能够介绍相关的工作&#xff0c;而在之前也做过一些工作&#xff0c;借着这个机会&#xff0c;写一篇文章&#xff0c;来跟大家谈谈这个问题。开放知识…

别再双塔了!谷歌提出DSI索引,检索效果吊打双塔,零样本超BM25!

卖萌屋今日学术精选这篇论文展示了信息检索可以用一个Transformer来完成&#xff0c;其中&#xff0c;关于语料库的所有信息都被编码在Transformer模型的参数中。论文标题&#xff1a;Transformer Memory as a Differentiable Search Index链接&#xff1a;https://arxiv.org/a…

LeetCode 71. 简化路径(栈)

1. 题目 以 Unix 风格给出一个文件的绝对路径&#xff0c;你需要简化它。或者换句话说&#xff0c;将其转换为规范路径。 在 Unix 风格的文件系统中&#xff0c;一个点&#xff08;.&#xff09;表示当前目录本身&#xff1b;此外&#xff0c;两个点 &#xff08;..&#xff…

我有一段很厉害的代码,不外传的那种

文 | 郭忠明知乎最近在知乎上看到一个问题&#xff0c;叫做“程序员有没有很厉害、不外传的代码”。​好像在这个遍地都是开源项目的时代&#xff0c;啥代码都藏不住。但其实&#xff0c;是有的&#xff0c;而且有不少&#xff01;很多算法在没有公开前&#xff0c;普通程序员都…

开源开放 | OpenKG发布cnSchema重构版本

cnSchema网站&#xff1a;http://cnschema.openkg.cn/GitHub地址&#xff1a;https://github.com/cnschema/cnSchema开放许可协议&#xff1a;CC 0摘要cnSchema是由OpenKG管理和维护的面向中文知识图谱的Schema参考标准。结合中文语言特点和中文领域特点需求&#xff0c;cnSche…

Spring Cloud构建微服务架构:分布式服务跟踪(抽样收集)【Dalston版】

通过Trace ID和Span ID已经实现了对分布式系统中的请求跟踪&#xff0c;而这些记录的跟踪信息最终会被分析系统收集起来&#xff0c;并用来实现对分布式系统的监控和分析功能&#xff0c;比如&#xff1a;预警延迟过长的请求链路、查询请求链路的调用明细等。此时&#xff0c;我…