第二十三章 原理篇:Pix2Seq

大夏天我好像二阳了真是要命啊。
现在找到工作了,感觉很快乐,但是也有了压力。
《论你靠吹牛混进公司后该怎么熬过试用期》
希望自己能保持学习的习惯!加油!


参考教程:
https://arxiv.org/pdf/2109.10852.pdf
https://github.com/google-research/pix2seq
https://zhuanlan.zhihu.com/p/421851551
https://github.com/moein-shariatnia/Pix2Seq
感觉自己理解的还是不太到位,主要是decoder相关的部分没有实践上使用过,纯理论不足以支撑完全弄清decoder的作用。

文章目录

  • 背景
  • 方法
    • 从目标描述中构造序列
    • architecture, objective and inference
      • architecture
      • objective
      • inference
    • 增强序列,整合先验
      • altered sequence construction
      • altered inference
  • 代码实现
    • tokenize
      • 对单一坐标的处理
      • 对一组输入的处理
        • encode
        • decode
    • model
      • encoder
      • decoder
        • __init__()
        • forward()

背景

作者提出了一个用于目标检测的新框架Pix2Seq,把目标检测问题作为一个基于像素输入的语言建模任务。目标描述(包围框,类别)等以离散token的形式表示。

作者认为,现在有很多先进的目标检测方法在不同的领域取得显著的成就,但是任务的独特性和复杂性,让这些方法没有办法很好地泛化到更大范围的任务上,这也是这些方法的局限性。它们从先验知识中学习,但是又受限于先验知识。

pix2seq框架基于这种一种直觉:如果一个神经网络知道目标物体的种类和位置,那么我们只需要教会它怎么表达出来。通过学习“描述”对象,模型可以学习将“语言”建立在像素观测的基础上,从而获得有用的对象表示。给一种图像作为输入,pix2seq会产生一系列和目标描述相关的的离散token。

把目标检测任务当作一个基于像素输入的语言建模来作,可以使用比较generic and simple的模型框架和损失函数,而不是那些专门为目标检测任务设计的复杂组件。并且框架也可以轻松地被应用到别的领域上,它能为多种类型的视觉任务提供一个语言接口。

为了使用pix2seq解决目标检测任务,作者主要做了以下工作:

  1. 提出了一个量化序列化机制:将包围框和类别等信息转为离散的token序列。
  2. 利用encoder-decoder架构接受像素输入并生成目标序列。
  3. 目标函数使用基于像素输入和先验token的token的极大似然。
  4. 使用augmentation方法组合先验知识。

方法

在这里插入图片描述
作者提出的pix2seq框架有四个主要的部分:

  • Image Augmentation: 使用数据增强的方法来扩充训练数据,比如说随机缩放和裁剪。
  • Sequence construction&augmentation: 把目标检测任务中常用的包围框和类别标注转换为一组离散的token。
  • Architecture: 使用encoder-decoder模型,encoder获取图像像素输入,decoder生成目标序列。
  • objective/loss function: 模型训练的目的是最大化基于图像输入的token的log似然函数。

【有一说一看完之后还是有点云里雾里的,比如说序列增强的部分,没太明白inference阶段的那个做法】

从目标描述中构造序列

在常见的目标检测数据集中,一个图像中可能有多个目标,用一组包围框和类别标签表示。在pix2seq中则是要转成离散的序列表示。

在包围框和类别两种标签中,类别标签是天然地表示成一个离散的token的形式的。而包围框通常是表示成两个角点(左上角和右下角)或者它的中心点与宽高。要把连续数字离散化后来表示它的坐标。具体来说,一个目标被表示成拥有五个离散token的序列: [ y m i n , x m i n , y m a x , x m a x , c ] [y_{min},x_{min},y_{max},x_{max},c] [ymin,xmin,ymax,xmax,c]。其中每个连续坐标被均匀地离散为介于 [ 1 , n b i n s ] [1,n_{bins}] [1,nbins]之间。所用的token共享一个词库,所以词库的大小等于bins的数量加class的数量。

对于一个600x600的图像,就是用600bins,比一般常用的语言模型的词库要小很多。下图显示了不同的bins带来的效果差异。使用的bins比较大的时候,小图像显示出很高的精度。
在这里插入图片描述

在得到每个目标的离散化的表达后,还需要把多个目标描述进行序列化的组合,来形成一个给定图像的整体描述。在目标检测中,目标的顺序对检测任务并没有什么影响,所以作者使用了随即顺序。作者也探究了别的排序方法,但是认为在网络能力足够的情况下,不同的顺序方法表现将一样好。

因为不同的图像会有不同个数的目标,生成的序列也会有不同的长度,使用一个EOS token来表示序列的结束。

不同顺序的序列表示如下:下图中使用的bins大小为1000,所以类别标签是从1000开始计数的。最后的0表示的是EOS token。
在这里插入图片描述
在论文附录中给出了比较简单的量化和反量化的代码。

  1. Quantization of coordinates

    def quantize(x, bins=1000):return int(x*(bins-1))
    

    这里的x是normalized的坐标,代表它相对原始图像边长的大小,范围在[0,1]之间。

  2. Dequantization of discrete coordinates

    def dequantize(x,bins=1000):return float(x)/(bins-1)
    

    就是将上面的结果复原的方法,两者可以说互为反函数。

architecture, objective and inference

architecture

使用一个encoder-decoder的结构。encoder用来把输入的图像编码成一个隐层表达,常用的可以是卷积网络或者transformer或者它们的组合。生成的部分,也就是decoder的部分,作者选用了transformer的decoder,它在语言模型中被广泛使用。每次可以基于先前生成的token和编码图像表达生成一个新的token。

objective

和一般的语言模型类似,pix2seq被训练来在给定图像和之前的token的情况下预测下一个token,使用极大似然损失:
m a x i m i z e ∑ j = 1 L w j l o g P ( y j ^ ∣ x , y 1 : j − 1 ) maximize\sum_{j=1}^Lw_j logP(\hat{y_j}|x,y_{1:j-1}) maximizej=1LwjlogP(yj^x,y1:j1)

inference

在推理阶段,作者从模型似然中进行token的采样。要么使用极大似然对应的token,要么使用别的随机采样的方法。作者发现使用nucleus采样会比使用最大似然采样取得更高的recall。等EOS序列被生成时,序列就会终止,接下来它会被直接用来转换成目标描述。

增强序列,整合先验

EOS token的存在允许模型去决定什么时候终止生成,但实际上我们发现模型总是在还没有预测完所有物体后就停止了。作者认为可能有以下两个原因:

  1. annoatation noise: 标注不完整,没有包括到所有的目标。
  2. uncertainty in recognizing or localizing: 可能模型的输出不是按照每个物体的置信度,因此对一些难检测的目标的置信度比较低,就会直接输出EOS,后面置信度高的目标就没机会输出了。

输出不完全的问题对精确度的影响不是很大,但是会带来比较大的召回问题。为了提升召回率,一个方案是延迟EOStoken的采样,但这样也会带来重复采样和噪声,从而造成精确率的降低,所以难点在于precision-recall的折衷。

另一个方案是序列增强,可以在task中引入一些先验知识。这一步有点像word2vec的做法,具体来说就是本来我们的token里面全是正样本,这样的话数据很不均衡,所以人为的在里面添加一些noise,帮助我们的模型学习真假标注,这样在延迟EOS到时候,模型可以有效过滤掉那些额外生成的噪声和重复采样。
在这里插入图片描述

具体来说,就是对输入序列进行增强,除了真实的token外(图中蓝色的部分),还使用了合成的噪声token(图中黄色的部分)。同时,作者也对目标序列进行修改,让模型可以学习识别噪声token。

altered sequence construction

作者生成噪声来增强输入学习,使用以下两步:

  1. 在已有的ground-truth上增加噪声,比如随机缩放或平移。
  2. 生成一些完全随机的框(和随机的类别标签)。

一些噪声可能会独立或者和ground-truth有重叠,分别代表了noisy prediction和duplicated predictions。这些生成的假token会被放到原始输入的末尾,组成一个新的输入。

对于目标序列,noise的token会被设置为”nois”类别,对应的坐标被设置为“n/a"。损失权重被设为0。

altered inference

使用序列增强后,我们能够进行EOS token的延迟,从而在不损失精度的情况下提升召回率。因此,我们让这个模型尽可能预测一个最大的长度,产生固定数量的目标。当从生成的序列中提取包围框和类别的时候,会用极大似然的真实标签取代noise标签。

代码实现

官方源码使用的是tensorflow,因为我不太熟悉tensorflow,所以这一部分是参考的基于pytorch的非官方版本。这个版本比较简单,并且readme写的也很清晰。

首先我们回顾一下Pix2Seq的步骤:

  1. 序列增强,构建序列。
  2. encoder编码输入图像,生成隐层序列。
  3. decoder解码,获得目标token。也就是离散化的目标检测结果。
  4. 处理结果。

tokenize

首先来看一下如何构建输入序列。代码作者给出了一个比较详细的流程介绍。

  1. 使用特殊的token标记序列的开始和结尾。(BOS和EOS)
  2. 量化连续坐标值。
  3. 编码label。
  4. 随机排序,作为最终的序列。

具体的实现参考:https://github.com/moein-shariatnia/Pix2Seq/blob/master/tokenizer.py

我们可以分开来看。

对单一坐标的处理

对坐标量化和反量化的部分和论文附录中的简单做法一致。

具体来说,加入输入图像大小是224,那么你的bins至少要有224个,才能实现在每个像素上的划分。所以一般为了预测的准确,bins数量不能太少。

在代码解释中给了个例子,假如现在有一个bbox,坐标为 (12.2, 35.8, 68.1, 120.5),首先你要进行normalize将它归一化到0到1之间,如何直接执行int(x*(self.num_bins-1)),在bins数量是224的情况下,这样得到的结果是(12, 35, 67, 119)。因为int本身是向下取整的。这种情况下我们会丢失一些信息,假如这个时候你使用稍微大一点的bins,丢失的信息就会相对少一些。

但是也不能太大,因为bins达到一定程度后不会再有performance上的提升,反而很冗余。而且大bins也会带来更多的计算量。

def quantize(self, x: np.array):"""x is a real number in [0, 1]"""return (x * (self.num_bins - 1)).astype('int')def dequantize(self, x: np.array):"""x is an integer between [0, num_bins-1]"""return x.astype('float32') / (self.num_bins - 1)

对一组输入的处理

我们分开来看序列的encode和decode。

encode

在encode部分,你输入的是labels和bboxes两个list。

  1. 对于label,label本身就是离散化的,你只需要将它更新成新label即可,举例来说就是加上bins的数量。
  2. 对于bboxes,你要先进去归一化,然后离散化。
  3. 将label和bboxes组合在一起,并且在开头加上BOS,结尾加上EOS。

这部分实现也比较简单。

对于label:

labels = np.array(labels)
labels += self.num_bins  # label直接加上num_bins,形成新label
labels = labels.astype('int')[:self.max_len]

对于bboxes:

bboxes[:, 0] = bboxes[:, 0] / self.width
bboxes[:, 2] = bboxes[:, 2] / self.width
bboxes[:, 1] = bboxes[:, 1] / self.height
bboxes[:, 3] = bboxes[:, 3] / self.heightbboxes = self.quantize(bboxes)[:self.max_len]

对于序列:

 tokenized = [self.BOS_code] # 加上bosfor label, bbox in zip(labels, bboxes):tokens = list(bbox)tokens.append(label)tokenized.extend(list(map(int, tokens))) # label和bbox组合在一起tokenized.append(self.EOS_code) # 加上eos

decode

在decode的部分,你输入的是token。需要使用encode的反向操作来获得结果。
对于序列:

tokens = tokens[1:-1] # 去掉bos和eos
assert len(tokens) % 5 == 0, "invalid tokens"labels = []
bboxes = []
for i in range(4, len(tokens)+1, 5):label = tokens[i] # 拿出labelbbox = tokens[i-4: i] # label前的四个数是bboxlabels.append(int(label))bboxes.append([int(item) for item in bbox])

对于label:

labels = np.array(labels) - self.num_bins

对于bboxes:

bboxes = np.array(bboxes)
bboxes = self.dequantize(bboxes) # 反量化bboxes[:, 0] = bboxes[:, 0] * self.width
bboxes[:, 2] = bboxes[:, 2] * self.width
bboxes[:, 1] = bboxes[:, 1] * self.height
bboxes[:, 3] = bboxes[:, 3] * self.height # 反归一化

model

模型部分由一个encoder和decoder组成。

encoder

encoder的作用是以图像为输入,并输出对应的隐层编码,或者话说就是图像的表达,图像的特征。
在这个版本的代码中,代码作中使用的是DeiT。相对VIT来说,DeiT在训练速度和数据利用上比较有优势。作者认为使用基于VIT类似的backbone,它会把图像分成不同的patch并像处理单词一样,对于每个patch都能获得独特的编码,可以把这些都送给decoder,这样就类似于在做一个语言翻译的工作。

作者直接使用timm中的DeiT作为encoder。

class Encoder(nn.Module):def __init__(self, model_name='deit3_small_patch16_384_in21ft1k', pretrained=False, out_dim=256):super().__init__()self.model = timm.create_model(model_name, num_classes=0, global_pool='', pretrained=pretrained)self.bottleneck = nn.AdaptiveAvgPool1d(out_dim)def forward(self, x):features = self.model(x)return self.bottleneck(features[:, 1:])

DeiT的输出理论上包括了一个cls token和所有的patch token,这个cls token作者没有使用,只使用了输出的patch token。

decoder

decoder的部分以输入图像的patch embbeding作为输入,并进行bboxes和label的预测。代码作者在这里直接使用了pytorch中transformerdecoder。

这里的做法真的很nlp,感觉自己也不是那么理解。具体来说首先还是构建一个词库,这个词库的大小是 n_bins+classes+3,这个3代表的是三个类型的标记符号。词库的维度在这里是256。这里做的主要是个词预测的工作。对于输入的图像特征和上一个token,比如说xmin,那么你要预测的下一个token是ymin。

init()

初始化的部分主要有以下几个重要部件:

  1. 词向量。对我们的输入序列进行编码。
  2. decoder。
  3. 位置编码。代码作者对encoder和decoder都准备了一个位置编码。
def __init__(self, vocab_size, encoder_length, dim, num_heads, num_layers):super().__init__()self.dim = dimself.embedding = nn.Embedding(vocab_size, dim)  # 这个是我们的词库,对每个像素位置都构建了一个embeddingself.decoder_pos_embed = nn.Parameter(torch.randn(1, CFG.max_len-1, dim) * .02) # 位置编码self.decoder_pos_drop = nn.Dropout(p=0.05)decoder_layer = nn.TransformerDecoderLayer(d_model=dim, nhead=num_heads)self.decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_layers) # decoderself.output = nn.Linear(dim, vocab_size) self.encoder_pos_embed = nn.Parameter(torch.randn(1, encoder_length, dim) * .02) # encoder位置编码self.encoder_pos_drop = nn.Dropout(p=0.05)self.init_weights()

forward()

forward()部分直接理解起来就是,我们的输入有两种。
encoder_out,即encoder部分输出的图像的feature,它的大小是(N,L,D),N代表batchsize,L代表patch size,D代表token的维度。
tgt是我们的target token,更具体的说就是已经经过tokenize的目标序列。

理论上来说tgt的token长度和encoder_out的L应该是不一致的。对这个地方表示疑惑?????也有可能L只是个标记,没有别的意义。

首先对于输入的token,这里进行了一个mask。因为对于一个token,它在预测的时候只能看到前面的token,所以在它后面的token相对它都要被mask掉。

我们的token是被当作单词来做的,那么对于单词,我们要获得它的词向量。对于大小为(N,L)的输入,我们会获得(N,L,D)大小的输出的词向量。并加上了位置编码。encoder的输出也加上了位置编码。

将这些结果一起送到decoder中去。

decoder的输出大小应该和输入大小保持一致,也就是(N,L,D)。

最后接一个全连接层,将输出的最后一个维度映射为词库大小,因为在做输出的时候是用交叉熵做的,其实相对于对N*L个东西进行了词库大小维度的分类,每个东西找到对应的类别,也就是bins的index。

def forward(self, encoder_out, tgt):"""encoder_out: shape(N, L, D)tgt: shape(N, L)"""tgt_mask, tgt_padding_mask = create_mask(tgt) # 获得masktgt_embedding = self.embedding(tgt)tgt_embedding = self.decoder_pos_drop(tgt_embedding + self.decoder_pos_embed)encoder_out = self.encoder_pos_drop(encoder_out + self.encoder_pos_embed)encoder_out = encoder_out.transpose(0, 1)tgt_embedding = tgt_embedding.transpose(0, 1)preds = self.decoder(memory=encoder_out, tgt=tgt_embedding,tgt_mask=tgt_mask, tgt_key_padding_mask=tgt_padding_mask)preds = preds.transpose(0, 1)return self.output(preds)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/33350.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高级进阶多线程——多任务处理、线程状态(生命周期)、三种创建多线程的方式

Java多线程 Java中的多线程是一个同时执行多个线程的进程。线程是一个轻量级的子进程,是最小的处理单元。多进程和多线程都用于实现多任务处理。 但是,一般使用多线程而不是多进程,这是因为线程使用共享内存区域。它们不分配单独的内存区域…

Nginx负载均衡以及keepalived高可用实验

Vip 10.1.122 Keepalived-master 10.1.1.132Keepalied-backup 10.1.1.133Realserver_1 10.1.1.136Realserver_2 10.1.1.137 四台机器上安装nginx,编译安装的话需要另外安装pcre包支持,安装在/usr/local/nginx Keepalived-master 和backu…

【网络编程·网络层】IP协议

目录 一、IP协议的概念 二、IP协议的报头 1、四位首部长度 2、16位总长度(解包) 3、8位协议(分用) 4、16位首部校验和 5、8位生存时间 6、32位源IP和32位目的IP 7、4位版本/8位服务类型 8、16位标识 9、3位标志 10、1…

基于kettle实现pg数据定时转存mongodb

mogodb 待创建 基于kettle实现pg数据定时转存mongodb_kettle 实时迁移 mongodb_呆呆的私房菜的博客-CSDN博客

git一次错误merge的回滚

场景:提交到sit的代码,结果解决冲突merge了DEV的代码,所以要回滚到合并之前的代码 (原因是我再网页上处理了冲突,他就自动merge了,如图—所以还是idea处理冲突,可控) 方式二: &…

✅最新!自然指数中国科研机构百强名单,出炉!

【SciencePub学术】8 月 9 日,自然指数官网发布了最新的中国科研机构百强名单。名单根据各大机构2022年在自然科学领域的论文贡献份额进行排名。 其中,中国科学院以2053.76的论文贡献份额,位列榜首;中国科学院大学和中国科学技术…

PAT1044 Shopping in Mars

个人学习记录,代码难免不尽人意。 做了这么多题难得本题不看答案一遍过,很是激动。 Shopping in Mars is quite a different experience. The Mars people pay by chained diamonds. Each diamond has a value (in Mars dollars M$). When making the pa…

06-2_Qt 5.9 C++开发指南_自定义对话框及其调用

本篇介绍到的对话框及其调用实例较为复杂但十分详细,如果做了解可以先参考:QT从入门到实战x篇_13_模态和非模态对话框创建。 文章目录 1. 对话框的不同调用方式2. 对话框QWDialogSize 的创建和使用2.1 创建对话框QWDialogSize2.2 对话框的调用和返回值 …

css内容达到最底部但滚动条没有滚动到底部

也是犯了一个傻狗一样的错误 ,滚动条样式是直接复制的蓝湖的代码,有个高度,然后就出现了这样的bug 看了好久一直以为是布局或者overflow的问题,最后发现是因为我给这个滚动条加了个高度,我也是傻狗一样的,…

Mongodb:业务应用(2)

需求: 1、获取保存到mongodb库中的搜索记录列表 2、实现删除搜索记录接口 保存搜索记录数据参考上篇Mongodb:业务应用(1)_Success___的博客-CSDN博客 获取记录列表 1、创建controller package com.heima.search.controller.v1;…

GD32F103硬件I2C0通讯

GD32F103的I2C模块有I2C0和I2C1;本程序使用I2C0功能模块; I2C0引脚复用和重映射: 当I2C0_REMAP0时,I2C0引脚复用功能,I2C0_SCL映射到PB6引脚,I2C0_SDA映射到PB7引脚; 当I2C0_REMAP1时,I2C0引脚重映射,I2C0_SCL映射到PB8引脚,I2C0_SDA映射到PB9引脚; I2C1引脚只有复用引脚: I2C…

学习笔记-JVM-对象结构及生命周期

申明:文章内容是本人学习极客时间课程所写,文字和图片基本来源于课程资料,在某些地方会插入一点自己的理解,未用于商业用途,侵删。 原资料地址:课程资料 对象的创建流程 常量池检查:检查new指令是否能在常…

【2023最新美团笔试题目分析】“求最多出现数字及次数“、坦克大战在线对战游戏(问题描述 + 示例代码 + 时间复杂度分析)

弃幼少嬉戏堕慢之心,而衎衎于进德修业之志。 🎯作者主页: 追光者♂🔥 🌸个人简介: 💖[1] 计算机专业硕士研究生💖 🌿[2] 2023年城市之星领跑者TOP1(哈尔滨)🌿 🌟[3] 2022年度博客之星人工智能领域TOP4🌟 🏅[4] 阿里云社区特邀专家博主

构建Docker容器监控系统(Cadvisor +InfluxDB+Grafana)

目录 案例概述 Cadvisor InfluxDBGrafana 1.1、 Cadvisor 1.2、InfluxDB 1.3、Grafana 1.4、监控组件架构 1.5、开始部署 安装docker-ce 阿里云镜像加速器 创建自定义网络 创建influxdb容器 案例概述 Docker作为目前十分出色的容器管理技术,得到大量企业…

如何使用webpack打包一个库library,使用webpack打包sdk.

如何使用webpack打包一个库library 如果你需要自己封装一些包给别人使用,那么可以参考以下方法 初始化库 mkdir library cd library npm init -y经过以上步骤后会生成一个library文件夹,里面包含一个package.json文件。然后简单修改为如下所示: {&qu…

MongoDB:Unrecognized option: storage

MongoDB一直显示 Unrecognized option: storage try ‘mongod --help’ for more information 意思是我们配置的config文件出了问题。 说明:MongoDB采用的是YAML格式,所以我们只需要稍微改改就好。 在storage前面:没有空格 下面两行最前面…

docker 安装mongodb 虚拟机安装mongodb

生产环境直接安装比较好,以及使用集群环境,本文仅测试交流使用,我用来写分布式im测试使用: nami-im: 分布式im, 集群 zookeeper netty kafka nacos rpc主要为gate(长连接服务) logic (业务&…

x11 gtk qt gnome kde 之间的区别和联系

Linux 下的图形库介绍 一、Linux 图形领域的基础设施 1.1 X Window X Window从逻辑上分为三层:X Server、X Client和X协议。 最底层的X Server(X服务器)主要处理输入/输出信息并维护相关资源,它接受来自键盘、鼠标的操作并将…

JavaScript版本ES5/ES6及后续版本

JavaScript简史 1995: Brendan Eich在短短10天内创建了JavaScript的第一个版本。它被称为摩卡,但已经具备了现代JavaScript的许多基本特性! 1996: 为了吸引Java开发人员,Mocha先是更改为LiveScript,然后又更改为Ja…

pycharm的Terminal中如何设置打开anaconda3的虚拟环境

在pycharm的File -> Settings -> Tools -> Terminal下面,如下图所示 修改为红框中内容,然后关闭终端在重新打开终端,即可看到anaconda3的虚拟环境就已经会被更新