论文笔记之:RATM: RECURRENT ATTENTIVE TRACKING MODEL

 

RATM: RECURRENT ATTENTIVE TRACKING MODEL

  ICLR 2016

 

 

  本文主要内容是 结合 RNN 和 attention model 用来做目标跟踪。

  其中模型的组成主要是:

  1. an attention model 主要用来从输入图像中提取 patch;

  2. RNN 用来预测 attention 参数,即:下一帧应该 look 的问题。

 

 

  Paper: http://xueshu.baidu.com/s?wd=RATM%3A+RECURRENT+ATTENTIVE+TRACKING+MODEL&rsv_bp=0&tn=SE_baiduxueshu_c1gjeupa&rsv_spt=3&ie=utf-8&f=8&rsv_sug2=1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&rsv_n=2

 

  Code: https://github.com/wangxiao5791509/RATM

 

 

  本文所使用的框架流程图如下所示:

  


 

  1. Attention 

  本文提到, attention model 非常适合跟踪问题,因为他可以通过目标的历史轨迹来缩小 region-of-interst 的区域。

  原本的 attention model 从输入图像中产生 glimpse(一瞥),是通过一个叫做 a grid of 2D Gaussian filters,顺序的执行一系列的 row filter 和 column filter。该 grid 拥有 4个参数,即:

  the grid center $g_X, g_Y$,the isotropic standard deviation, and the stride between grid points.

  对于在 attention patch中的行 i,列 j,平均距离 $\mu_X^i, \mu_Y^j$ 通过下式进行计算:

  动态产生的参数 作为一个向量 h 的线性转换:

  然后对参数进行归一化:

  其中 A 和 B 分别是输入图像的宽和高。

  滤波器通过下面的公式计算得到提取的 patch,即:

  在上式中, a 和 b 代表输入图像的列和行的索引。通过这两个公式就可以得到一个 N*N 的 patch p:

  

  


 

 

   2. RNN

  一个最简单的 RNN 包括一个输入,一个 hidden,一个 输出层。在时间步骤 t,该网络,基于输入帧 $x_t$ 和 之前的 hidden state $h_{t-1}$,计算新的 hidden state:

  本文对 RNN 并未做过多介绍,因为创新点也不在于此,只是说是基于 Theano 框架做的实验。

 

 


 

  3. Recurrent Attentive Tracking Model

  跟踪问题主要是将一系列的输入视频帧 $X = (x_1, x_2, ... , x_T)$ 映射成 一系列的位置 $Y = (y_1, y_2, ... , y_T)$。那么在一个时刻 t 的位置预测 $y_t$,那么其轨迹通常具有非常高的相关内容信息,并且非常适合用 一个隐层状态模型(a hidden state model)来对这个轨迹进行表示。所提出的 RNN 就是结合了 attention model 和 RNN 的优势,并且区别于普通的神经网络。

  每一个时间步骤,RNN的 hidden state vector $h_t$ 通过公式2,3 映射成 window parameters。然后在下一个时刻,由 attention model 输出的image patch 作为 RNN 的输入。并非直接将 原始图像输入给 RNN,而是用预先训练的 CNN model 提出其feature 传给 RNN。具体结构见下图:

  

  

 

 


  实验

  

  

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/458303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【分享】WeX5的正确打开方式(5)——绑定机制

今天继续WeX5的绑定机制。 需求分析 记账本要实现的效果就是可以展示所有账单,还能实时动态编辑每一笔账单,官方案例的效果图如下: 展示页: 编辑页 个人觉得官方案例加入了许多元素,不熟悉的同学每一个点都很难理解&am…

HALCON常用算子(HALCON13.0)

HALCON常用算子(HALCON13.0)Chapter 9--Developdev_clear_window ( : : : )功能:清除活动图形窗口的内容dev_close_window ( : : : )功能:关闭活动图形窗口。dev_display ( Object : : : )功能:在现有图形窗口中显示图…

关于未捕获异常的处理(WPF)

转载自:http://www.cnblogs.com/chenxizhang/p/3280947.html 这一篇文章来谈谈对于WPF应用程序开发中的未捕获异常的处理。 首先,我们当然是要求应用程序开发人员,尽可能地在程序可能出现异常的地方都去捕捉异常,使用try…catch的…

设计模式--23、访问者模式

访问者模式是一种较为复杂的行为型设计模式,它包含访问者和被访问元素两个主要组成部分,这些被访问的元素通常具有不同的类型,且不同的访问者可以对它们进行不同的访问操作。例如处方单中的各种药品信息就是被访问的元素,而划价人…

C#串口SerialPort常用属性方法

SerialPort(): //属性 .BaudRate;获取或设置波特率 .BytesToRead;得到 接收到数据的字节数 .BytesToWrites;得到送往串口的字节数 .DataBits;获取或设置数据位 .IsOpen;获取一个值,判断串口是否打开 .Pariy;获取或设置校验位 .PortName;串口名称 .ReadBufferSize;获…

NTFS文件系统的简述

NTFS文件系统的设计思想基于稳定性、和安全性并支持大容量存储设备的文件系统:1.它提供日志可以增加文件系统的容错率,可以有效的保护系统的安全。NTFS是一个可恢复的文件系统。在NTFS分区上即使强制关机后,一般也不需要运行CHKDSK命令修复磁…

Rxjava基础

现在很多Android App的开发开始使用Rxjava,但是Rxjava以学习曲线陡峭著称,入门有些困难。经过一段时间的学习和使用,这里来介绍一下我对Rxjava的理解。 说到Rxjava首先需要了解的两个东西,一个是Observable(被观察者&a…

『协议』XML-RPC 协议规格说明

为什么80%的码农都做不了架构师?>>> 这篇文章提供所有实现XML-RPC协议所需要的内容。 一览 XML-RPC是一个工作在因特网上的远端程序调用(Remote Procedure Calling)协议。 XML-RPC消息是一个HTTP-POST请求(Request&…

Qt之QLineEdit详解(附源码)

原博客地址:http://blog.csdn.net/liang19890820/article/details/52044639,感谢原作者总结和分享。 简述 QLineEdit是一个单行文本输入框。 QLineEdit允许用户输入和编辑单行纯文本,提供了很多有用的编辑功能,包括:撤…

POJ 1323 Game Prediction#贪心

(&#xff5e;&#xffe3;▽&#xffe3;)&#xff5e;* //既然是求最少能胜几次 //说明对方是要尽可能让我输 //但为了避免浪费&#xff0c;对方会用比我的牌大的牌中的最小pip的牌来击败我 #include<iostream> #include<cstdio> #include<cstring> #inclu…

qt学习之键盘事件( keyPressEvent)

//最近一直忙于做驱动&#xff0c;对底层东西很是好奇&#xff0c;好奇键盘是 怎么区分每个键值的&#xff0c;又是怎么响应的&#xff01;因此&#xff0c;就有了下面这些代码//环境windows 工具qt 语言c//在主窗体类中声明键盘响应函数 void keyPressEvent(QKeyEvent * event…

C#json数据的序列化和反序列化(将数据转换为对象或对象集合)

引用 System.Runtime.Serialization.Json 转载于:https://www.cnblogs.com/a849788087/p/5645828.html

位图(bmp)文件格式分析

from&#xff1a;https://blog.csdn.net/qingchuwudi/article/details/25785307 位图(bmp)文件格式分析 作者&#xff1a;深蓝&#xff08;由博主分享&#xff09; 一、什么是位图 计算机能以位图和矢量图格式显示图像。 1、位图(Bitmap)&#xff1a; 图像又称点阵图或光…

汇付 支付,痛苦的接入过程

有文档&#xff0c;但是&#xff0c;写文档的人明白&#xff0c;看文档的人很有难度。 没有SDK&#xff0c;要自已写。 然后&#xff0c;钱的流入流出都必须经过虚拟钱包&#xff0c;提现还要绑取现卡&#xff0c;这个我也能理解&#xff0c;不能理解的是&#xff0c;订单退款&…

随笔分类 - HALCON学习例程中文详解

from: https://www.cnblogs.com/chita/category/563492.html随笔分类 - HALCON学习例程中文详解HALCON学习例程中文详解跟我学机器视觉-HALCON学习例程中文详解-测量圆环脚宽间距摘要: 跟我学机器视觉-HALCON学习例程中文详解-测量圆环脚宽间距* This example program demonstr…

WinCE6 如何去掉控制面板中的应用?

在WINCE600/PUBLIC/WCESHELLFE/OAK/FILES/wceshellfe.bib把对应的cpl 干掉例如区域设置 好像是2个 ; CESYSGEN IF WCESHELLFE_MODULES_INTLPintlp.cpl $(_FLATRELEASEDIR)/intlp.cpl NK SH ; CESYSGEN ENDIF ; CESYSGEN IF WCESHELLFE_MODULES_INTLLintll.cpl $(_FLATRELEASEDI…

软件自动更新解决方案及QT实现

from&#xff1a;https://blog.csdn.net/hulinhulin/article/details/46839107软件自动更新解决放案及QT实现...11 文件的版本控制-XML.22 更新程序的实现...22.1 界面设置...22.2 程序功能...32.2.1 下载网络数据...32.2.2 XML文件的分析...62.2.3 下载XML文件的DownLoadXML函…

java 基本功 —— 内存相关

2019独角兽企业重金招聘Python工程师标准>>> 首先我们来说说内存&#xff0c;因为从内存的角度来出发来分析一些变量&#xff0c;引用或者对象的生命周期会更好理解一些。 java是一门编程语言&#xff0c;他跟C有什么不同呢&#xff1f;本质上&#xff0c;他们都是一…

DOM事件处理有三个阶段

DOM事件处理有三个阶段&#xff1a; 捕捉阶段&#xff08;capture phase&#xff09;&#xff1a;从最上层元素&#xff0c;直到最下层&#xff08;你点击的那个target&#xff09;元素。路过的所有节点都可以捕捉到该事件。命中阶段&#xff08;target phase&#xff09;&…

客户端程序自动更新(升级)的方式

from&#xff1a;https://blog.csdn.net/woaitingting1985/article/details/72954652一、C/S自动更新原理C/S程序自动升级是一个很重要的功能&#xff0c;原理其实很简单&#xff0c;一般包含两个程序一个是主程序&#xff0c;也就是除了升级功能以外的程序&#xff0c;另一个就…