【SiamFC】《Fully-Convolutional Siamese Networks for Object Tracking》

在这里插入图片描述

ECCV 2016 Workshops


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 The OTB-13 benchmark
    • 5.3 The VOT benchmarks
    • 5.4 Dataset size
  • 6 Conclusion(own)/ Future work


1 Background and Motivation

在这里插入图片描述

单目标跟踪

track any arbitrary object, it is impossible to have already gathered data and trained a specific detector

在线学习方法的缺点(either apply “shallow” methods (e.g. correlation filters) using the network’s internal representation as features or perform SGD (stochastic gradient descent) to fine-tune multiple layers of the network)

a clear deficiency of using data derived exclusively from the current video is that only comparatively simple models can be learnt.

实时性可能也是个问题

作者基于全卷积孪生网络,来实现单目标跟踪,且只要是目标检测的数据集,都可以拿来训练(the fairness of training and testing deep models for tracking using videos from the same domain is a point of controversy)

在这里插入图片描述

2 Related Work

  • train Recurrent Neural Networks (RNNs) for the problem of object tracking
  • track objects with a particle filter that uses a learnt distance metric to compare the current appearance to that of the first frame.
  • feasibility of fine-tuning from pre-trained parameters at test time

3 Advantages / Contributions

  • we equip a basic tracking algorithm with a novel fully-convolutional Siamese network trained end-to-end on the ILSVRC15 dataset for object detection in video

  • frame-rates beyond real-time

  • achieves state-of-the-art performance in multiple benchmarks

4 Method

在这里插入图片描述

f ( z , x ) = g ( φ ( z ) , φ ( x ) ) f(z, x) = g(\varphi(z), \varphi(x)) f(z,x)=g(φ(z),φ(x))

exemplar image z z z

candidate image x x x

在这里插入图片描述

g g g is a simple distance or similarity metric

φ \varphi φ 是孪生网络,结构如下

在这里插入图片描述
x 和 z 获取的细节(来自 pysot 代码)

在这里插入图片描述

更具体的公式如下

在这里插入图片描述

b L b \mathbb{L} bL denotes a signal which takes value b ∈ R b ∈ \mathbb{R} bR in every location

每个空间位置的 b 应该是相等的吧

损失函数

在这里插入图片描述
y 是标签,1 或者 -1

v 是 score map 上的得分(0-1)之间

在这里插入图片描述
u 是空间位置,D 是 score map
在这里插入图片描述
预测的bounding box 中心点位于 ground true bounding box 中心半径小于 R 区域的都属于正样本

c 是 GT bbox 的中心点

stride k of the network

训练的时候用的 SGD 优化

在这里插入图片描述

5 Experiments

50 epochs 50,000 sampled pairs

SiamFC (Siamese Fully Convolutional) and SiamFC-3s, which searches over 3 scales instead of 5.

scale 的细节不太清楚

5.1 Datasets and Metrics

训练集
ImageNet Video for tracking,4500 videos

测试集

  • ALOV
  • OTB-13
  • VOT-14 / VOT-15 / VOT-16

a tracker is successful in a given frame if the intersection over-union (IoU) between its estimate and the ground-truth is above a certain threshold

OTB上常用的3个:TRE、SRE、OPE

  • OPE:单次评估精度,TRE运行一次的结果。
  • TRE: 将序列划分为20个片段,每次是从不同的时间初始化,然后去跟踪目标。
  • SRE: 从12个方向对第一帧的目标位置设置10%的偏移量,然后跟踪目标,判断目标跟踪精度。

通用指标

  • OP(%): overlap precision 重叠率
    重叠率 = 重叠区域面积/(预测矩形的面积+真实矩形的面积-重叠区域的面积)
  • CLE(pixels): center location error 中心位置误差
    中心位置误差 = 真实中心和预测中心的欧式距离
  • DP:distance precision 精确度
  • AUC: area under curve 成功率z图的曲线下面积

VOT当中一些指标

  • Robustness:数值越大,稳定性越差。

5.2 The OTB-13 benchmark

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

5.3 The VOT benchmarks

VOT-14
在这里插入图片描述
VOT-15
在这里插入图片描述
在这里插入图片描述

5.4 Dataset size

在这里插入图片描述

看看实际的效果
在这里插入图片描述
缺点:框的 spatial ratio 是固定的

6 Conclusion(own)/ Future work

参考文章:

  • 视觉目标跟踪SiamFC
  • 单目标跟踪论文综述:SiamFC、Siam系列、GradNet等一览
  • 【目标跟踪线上交流会】第十五期 Pysot实验总结
  • SiamRPN代码解读–proposal selection部分
  • 单目标追踪-SiamFC

仅看文章,许多实现细节我都不够清晰,还是得撸撸代码

Deep Siamese conv-nets have previously been applied to tasks such as face verification, keypoint descriptor learning and one-shot character recognition

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/696094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android系统启动流程

android的启动流程是从底层开始进行的,具体如下所示: Android是基于Linux内核的系统,Android的启动过程主要分为两个阶段,首先是Linux内核的启动,然后是Android框架的启动。 可以将Andorid系统的启动流程分为以下五个…

【QT 5 +Linux下软件桌面快捷方式+qt生成软件创建桌面图标+学习他人文章+第二篇:编写桌面文件.desktop】

【QT 5 Linux下软件桌面快捷方式qt生成软件创建桌面图标学习他人文章第二篇:编写桌面文件.desktop】 1、前言2、实验环境3、自我学习总结-本篇总结1、新手的疑问,做这件事目的2、了解.desktop3、三个关键目录以及文件编写1、目录:/opt/2、目录…

【鸿蒙 HarmonyOS 4.0】开发工具安装

一、准备开发环境 1.1、安装IDE 鸿蒙应用开发需要使用配套的IDE——HUAWEI DevEco Studio。 DevEco Studio基于IntelliJ IDEA Community(IDEA社区版)构建,为鸿蒙应用提供了一站式开发环境,集成了开发、运行、调试以及发布应用的…

Stable Diffusion 模型分享:AstrAnime(Astr动画)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五 下载地址 模型介绍 AstrAnime 是一个动漫模型,画风色彩鲜明,擅长绘制漂亮的小姐姐。 条目内容类型大模型…

fastjson解析自定义get方法导致空指针问题

背景 为了在日志中把出入参打印出来,以便验证链路和排查问题,在日志中将入参用fastjson格式化成字符串输出,结果遇到了NPE。 问题复现 示例代码 public static void main(String[] args) {OrganizationId orgId new OrganizationId();N…

【Java多线程】分析线程加锁导致的死锁问题以及解决方案

目录 1、线程加锁 2、死锁问题的三种经典场景 2.1、一个线程一把锁 2.2、两个线程两把锁 2.3、N个线程M把锁(哲学家就餐问题) 3、解决死锁问题 1、线程加锁 其中 locker 可以是任意对象,进入 synchronized 修饰的代码块, 相当于加锁&…

⭐北邮复试刷题LCR 052. 递增顺序搜索树__DFS (力扣119经典题变种挑战)

LCR 052. 递增顺序搜索树 给你一棵二叉搜索树,请 按中序遍历 将其重新排列为一棵递增顺序搜索树,使树中最左边的节点成为树的根节点,并且每个节点没有左子节点,只有一个右子节点。 示例 1: 输入:root [5,…

DataX - 全量数据同步工具

前言 今天是2024-2-21,农历正月十二,相信今天开始是新的阶段,尽管它不是新的周一、某月一日、某年第一天,尽管我是一个很讲究仪式感的人。新年刚过去 12 天,再过 3 天就开学咯,开学之后我的大学时光就进入了…

TypeScript01:安装TypeScript

一、TypeScript 官方网站:https://www.tslang.cn/docs/index.html 练习场:https://www.typescriptlang.org/zh/play 好处: 强类型语言,对JS弱类型的一个良好补充;TS利于大型项目团队合作,可以一定程度…

ChatGPT实战100例 - (17) 用ChatGPT实现音频长度测量和音量调整

文章目录 ChatGPT实战100例 - (17) 用ChatGPT实现音频长度测量和音量调整获取音频长度pydub获取音频长度获取时长精确到秒格式设定 mutagen获取音频长度 调整音量视频音量调整注意事项 ChatGPT实战100例 - (17) 用ChatGPT实现音频长度测量和音量调整 老王媳妇说上次那个pip挺好…

《VitePress 简易速速上手小册》第7章 高级功能与动态内容(2024 最新版)

文章目录 7.1 动态路由与 API 集成7.1.1 基础知识点解析7.1.2 重点案例:技术博客7.1.3 拓展案例 1:电商网站7.1.4 拓展案例 2:事件管理网站 7.2 状态管理与 Vuex 使用7.2.1 基础知识点解析7.2.2 重点案例:用户认证系统7.2.3 拓展案…

力扣精选算法100道——Z字形变换(模拟专题)

目录 🎈了解题意 🎈算法原理 🚩先处理第一行和最后一行 🚩再处理中间行 🎈实现代码 🎈了解题意 大家看到这个题目的时候肯定是很迷茫的,包括我自己也是搞不清楚题目什么意思,我…

[linux]进程间通信(IPC)———共享内存(shm)(什么是共享内存,共享内存的原理图,共享内存的接口,使用演示)

一、什么是共享内存 共享内存区是最快的(进程间通信)IPC形式。一旦这样的内存映射到共享它的进程的地址空间,这些进程间数据传递不再涉及到内核,换句话说是进程不再通过执行进入内核的系统调用来传递彼此的数据。注意:…

Three.js初学(2)

Three.js初学(2) 三维坐标系的认识1. 辅助坐标系 光源的影响1. 光材质的影响2. 光源介绍点光源环境光平行光 3. 光源衰减/位置 相机控件1. 引入扩展库2. 使用方法 三维坐标系的认识 这一章节的主要作用是加强自我对三维坐标空间的认识。 1. 辅助坐标系…

猫头虎分享已解决Bug || TypeError: Cannot set property ‘innerHTML‘ of null

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

Kafka进阶

文章目录 概要应用场景消息队列两种模式kafka的基础架构分区常见问题小结 概要 kafka的传统定义:kafka是一个分布式的基于发布\订阅模式的消息队列,主要用于大数据实时处理领域。 kafka的最新概念:kafka是一个开源的分布式事件流平台&#x…

10种常见的光伏发电量计算方法

光伏发电是一种将太阳能转化为电能的清洁能源技术。随着环境保护意识的日益增强和能源结构的转型,光伏发电得到了广泛的应用。对于光伏系统来说,发电量的准确计算是评估系统性能、预测长期收益和优化系统运行的关键。以下是常见的光伏发电量计算方法&…

Python3零基础教程之Python解释器与开发环境搭建

大家好,我是千与编程,硕士毕业于北京大学,曾先后就职于字节跳动,京东等互联网大厂,目前在编程导航知识星球担任星球嘉宾,著有《AI算法毕设智囊袋》,《保姆级带你通关秋招教程》两大专栏。 今天开…

从it方面介绍部分好玩的电影

电影推荐 1.《黑客帝国》《The matrix》 仅推荐第一二三部2. 《代码奔腾》《code rush》3 人物传记类 《社交网络》 《硅谷传奇》 《乔布斯》4《模仿游戏》也是传记 但主演是 卷福5 《环形使者》6 《蝴蝶效应》 三部7.《隐私大盗》8.《监视资本主义:智能陷阱》9. 剧…

RMAN备份与恢复

文章目录 一、RMAN介绍二、全量备份三、增量备份0级备份1级增量备份累积性差量备份总结 四、压缩备份压缩备份介绍压缩备份操作压缩备份优缺点 五、异常恢复1、恢复前的准备2、恢复数据库 六、RMAN相关参数 一、RMAN介绍 RMAN(Recovery Manager)是Oracl…