图灵奖大佬+谷歌团队,为通用人工智能背书!CV 任务也能用 LM 建模!

58bc98f27aed5ef995c75c88bba523cc.png

文 | ZenMoore
编 | 小轶

图灵奖大佬 Geoffrey Hinton 的团队和 Google Brain 团队近日发布新工作 Pix2seq,将 CV 经典任务 目标检测 转换为了语言模型的下游任务

这就很有意思了朋友们!因为这是一个很一般化的范式!也就是说,不光是目标检测,我们 可以把语言作为中介接口,尝试将一切视觉上的任务映射为序列任务。这颇有点通用人工智能的意思。

所以,是不是万物皆可 LM 的时代真的要到来了?

论文标题:
Pix2seq: A Language Modeling Framework for Object Detection

论文链接:
https://arxiv.org/abs/2109.10852

b39dce1ba231a6f112fdabdb703a3337.png模型框架cc27f60ea9ff0024d452877d10d1e8d7.png

整个模型由四个部分组成,分别是图像数据增强,序列构造和数据增强,模型结构以及损失函数。

2af69b55acc985bc1bf1849c77f34426.png
▲本文提出的模型

图像数据增强

图像数据增强没什么新奇的,就是为了扩充数据集,可圈可点的是后面几个部分。

序列构造

目标检测的目标一般是通过 Bbox 框和相应的目标类别组成。Bbox 用四个点的坐标组成 , 类别用一个指标变量 来表示。我们希望把这个目标输出转换为像语言一样的离散序列。主要是两个步骤:量化(Quantization)序列化(Serialization)

量化需要把连续的坐标均等地分为离散的坐标值,用 来表示(整数)。 的选取很讲究,可大可小,不同的大小决定了检测目标的大小尺度。例如, 的图像,最大的 可以是 .  实验表明, 就足矣!这样, 就可以表示成离散的 token. 还剩下一个 , 我们不用管,因为它本来就是离散的。

序列化需要把图像中的所有目标整理到一起。在量化中,我们把一个目标用五个离散的 token 来表示了,在这个步骤中,我们把图像中的多个目标的离散 token 表示按照一定的顺序线性地排列起来。实验证明,随机的排列顺序会取得更好的效果。

模型结构

本文采用的是编码器-解码器的结构,例如 Transformer. 通过自回归的方式生成输出序列。

损失函数

训练的目标非常简单,即语言模型中最普通不过的极大对数似然!四两拨千斤,简洁才是美!

其中, 和 分别是输入序列和目标序列(在一般的语言模型中,二者是相同的), 是目标序列长度, 是预先指定的第 个 token 的权重(本文都设置成了 1,当然也可以使用其他方式进行设置), 是给定的图像。

在 inference 阶段,我们根据条件概率对下一时刻的 token 进行采样,可以选择似然最大的 token, 但更好的方式是使用 Nucleus 采样,以提高召回率。最后,当得到 EOS 这个 token 的时候,结束生成,经过量化的逆操作得到 Bbox 和 Class.

序列数据增强

介绍到这里,好像一切都很完美......

d3e5d76438d5c2a5175a14f04a321cc4.png
▲BUG!

问题出在哪儿了呢?实验表明,序列生成往往过早就结束了,导致很多目标都被漏掉了。可能是因为数据标注的噪声以及目标识别或定位的不确定性。所以作者想到的 trick 是:人为降低似然,延迟生成 EOS,提高召回率!然后就被打脸了......这又带来了很多噪声,以及重复的检测结果。

这又是为啥?作者觉得这主要是因为模型不依赖于任务,因为去掉了太多任务的先验知识。所以如果想要在 precision 和 recall 上打好这套太极玩好平衡术,还是得加点先验调一调味儿。于是天降猛料——序列数据增强!即:Altered sequence construction.

9a473553a4a15e8e6a3e20a253f71ec6.png
▲序列数据增强

我们在输入序列 的后面加一些人为制造的噪声 token,可以是已检测出的真实目标的随机缩放平移,也可以是完全随机的 box 和类别。然后在目标序列 上,给噪声 token 设置成 “noise” 这个特殊的类别,相应的坐标都表示为 “N/A”, 损失权重 要设置为零。

因此在 inference 的时候,我们让模型预测最大长度的序列,在重构 box 和 class 的时候,用似然最大的实际类别替换 noise 类别,并将似然作为其打分。

看到这里,不得不说,Hinton 不愧是 Hinton... 这也能搞 work...

cb15161f084bd112b525c4a4b924845d.png实验结果cbf19bb5c43d81fca5a681a42f0aabd5.png

实验结果非常的够看啊!

4389a8cbd13cea9c32c27edc56a78c89.png
▲实验结果

总结一下主要是以下两点:

  1. 对标 Faster R-CNN : 小中型目标差异不大,但在大型目标上,本文的模型表现更好!

  2. 对标 DETR : 大型目标上差异不大(或者略差一点), 但在小中型目标上,本文的模型表现突出!

3caf7012f433521afb7022b09e4bdbef.png结论e84c5fe9dab5f9899437258a58449246.png

Pix2Seq 是一个简单而通用的目标检测框架,简化了目标检测的 pipeline, 消除了大部分先验知识,效果也非常能打!当然,这个架构还可以进行进一步地优化。

作者认为,这个框架不仅适用于目标检测,其他产生低带宽输出的视觉任务(即输出可以用简洁的离散 token 序列表示)也可以尝试用这个框架来解决。因此,作者希望将其做成一个通用统一的接口以解决各种各样的视觉任务。另外,也希望能让模型减少对于人工标注的依赖,多一点无监督学习的能力。

56155bd833359256185ddb36e60295cf.png最后的话6fab5fee72c9cfa3806f846f7905dd00.png

小编认为,这是一个很有开创性意义的工作,或者说学术思想。从哲学的角度讲,如果我们信奉 萨丕尔-沃尔夫假设(语言决定思维) 的话,就很容易坚信自然语言的伟大潜力。人类用语言描述世间万物,下到家常小事,上到天文地理,所有的任务,都可以用自然语言来表示输入和输出,因此我们坚信语言具有非常强大甚至是接近于无限的表达能力:Language is the embedding of everything ! 回到本文,Hinton 成功地将目标检测这一个典型的视觉任务转化成了语言的任务,那么我们是不是可以猜想,一切任务都能用序列来解决:All in Seq ! 如果真的如同萨丕尔和沃尔夫所说,人类的思考过程都是基于语言的(即人类通过心中语言整理和推演自己的思路),那么,我们是不是可以不断地发掘本文的潜力,找到机器推理的密码?Hinton 作为心理学家出身的 AIer,不知道对此究竟是怎么思考的......

所以,是有一个 “宇宙” 蕴含在这篇论文中的!欢迎大家进行思考与讨论,即便是科幻也无妨(比如在知乎上或者评论区等等)。

fb76b580e1024a12aca3142432a2ec86.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

daa7d6089a3b4899b3b6d44a416ba799.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478033.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 异构图 Transformer

笔记整理:许泽众,浙江大学博士在读论文链接:https://arxiv.org/abs/2003.01332本文主要提出一种处理异构图的方法,所谓异构图(Heterogeneous graph)是指在一个图中会出现不同类型的边和节点的图。早期对于图…

LeetCode 1145. 二叉树着色游戏(计算节点个数)

1. 题目 有两位极客玩家参与了一场「二叉树着色」的游戏。游戏中,给出二叉树的根节点 root,树上总共有 n 个节点,且 n 为奇数,其中每个节点上的值从 1 到 n 各不相同。 游戏从「一号」玩家开始(「一号」玩家为红色&a…

常见的时间序列预测模型python实战汇总

最完整的时间序列分析和预测(含实例及代码):https://mp.weixin.qq.com/s/D7v7tfSGnoAqJNvfqGpTQA 1 时间序列与时间序列分析 在生产和科学研究中,对某一个或者一组变量 x(t)x(t) ARIMA 模型对时间序列的要求是平稳型。因此&#x…

简单复读机LR如何成为推荐系统精排之锋?

文 | 水哥源 | 知乎saying1. 众所周知, 人类(划掉)推荐的本质是复读机2. 精排之锋,粗排之柔,召回之厚3. 在推荐里谈“过拟合”很容易给我们造成心理上的松懈,导致我们忽略环境,氛围等多种因素的…

从0到1构建美团压测工具

背景 美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有: 使用一些脚本语言如:Python、Ruby等,读取线上…

论文浅尝 | ERNIE-ViL:从场景图中获取结构化知识来学习视觉语言联合表示

笔记整理:朱珈徵,天津大学硕士链接:https://www.aaai.org/AAAI21Papers/AAAI-6208.YuFei.pdf动机现有的视觉语言预训练方法试图通过在大的图像文本数据集上的视觉基础任务来学习联合表示,包括基于随机掩码子词的掩码语言建模、掩码…

LeetCode 222. 完全二叉树的节点个数(二分查找)

1. 题目 给出一个完全二叉树,求出该树的节点个数。 说明: 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干…

常见的统计分析方法汇总,指标对比分析、时间序列预测

常见的八种统计分析法如下: 指标对比分析法分组分析法时间数列及动态分析法指数分析法平衡分析法综合评价分析景气分析预测分析 1 比较分析法## 一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指…

这三个NLP项目写进简历,网申通过率提高50%

01三大企业级项目项目一京东智能对话系统项目项目简介:智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人&#xff0…

论文浅尝 | MulDE:面向低维知识图嵌入的多教师知识蒸馏

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。Motivation为了更高的精度,现有的KGE方法都会采用较高的embedding维度,但是高维KGE需要巨大的训练成本和存储空间。现…

LeetCode 453. 最小移动次数使数组元素相等(数学)

1. 题目 给定一个长度为 n 的非空整数数组,找到让数组所有元素相等的最小移动次数。每次移动可以使 n - 1 个元素增加 1。 示例: 输入: [1,2,3]输出: 3 解释: 只需要3次移动(注意每次移动会增加两个元素的值):[1,2,3] > [2…

性能优化模式

摘要 性能优化涉及面很广。一般而言,性能优化指降低响应时间和提高系统吞吐量两个方面,但在流量高峰时候,性能问题往往会表现为服务可用性下降,所以性能优化也可以包括提高服务可用性。在某些情况下,降低响应时间、提高…

征稿 | 国际KG大会 IJCKG 2021专辑征文

国际知识图谱联合会议(International Joint Conference on Knowledge Graphs (IJCKG 2021, 与ACM/SIGAI联合办会)今年将于12月6日-8日在线召开。Data Intelligence今年被EI数据库收录后,有幸成为大会推荐期刊,大会优秀论文将推荐在…

200字带你看完一本书,GPT-3已经会给长篇小说写摘要了

文 | 博雯源 | 量子位现在,AI能帮你200字看完一段12万词的长篇小说了!比如这样一段121567词的《傲慢与偏见》原文:▲图源OpenAI官网AI分四个阶段来总结:先把原文总结成276个摘要(24796词),然后进…

LeetCode 1252. 奇数值单元格的数目

1. 题目 给你一个 n 行 m 列的矩阵,最开始的时候,每个单元格中的值都是 0。 另有一个索引数组 indices,indices[i] [ri, ci] 中的 ri 和 ci 分别表示指定的行和列(从 0 开始编号)。 你需要将每对 [ri, ci] 指定的行…

Google Research新成果,让表格理解和检索更上一层楼!

文 | 舞风小兔编 | 智商掉了一地如何更好地理解自然语言查询问题与表格信息?Google Research给出了一个改进版Transformer,一起来看看吧!表格以结构化方式存储信息,广泛地存在于web世界中。表格最为常见的一种用法就是人们查询其中…

论文浅尝 | 用于视觉推理的显式知识集成

论文笔记整理:刘克欣,天津大学硕士链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Explicit_Knowledge_Incorporation_for_Visual_Reasoning_CVPR_2021_paper.pdf动机现有的可解释的和显式的视觉推理方法仅执行基于视觉证…

美团O2O排序解决方案——线下篇

背景 针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征…

LeetCode 401. 二进制手表

1. 题目 二进制手表顶部有 4 个 LED 代表小时(0-11),底部的 6 个 LED 代表分钟(0-59)。 每个 LED 代表一个 0 或 1,最低位在右侧。 例如,上面的二进制手表读取 “3:25”。 给定一个非负整数 …

EMNLP'21 | 让压缩语言模型自动搜索最优结构!

文 | Cheney编 | 智商掉了一地既让模型跑得快又好,又要空间占用少,真的有这样效果爆表的操作存在吗?在当前疫情反复的情况下,大家平时出门用健康宝刷脸的频率变得越来越高。如果每次人脸识别都需要等很久的话,那也太让…