【SiamFC】《Fully-Convolutional Siamese Networks for Object Tracking》

在这里插入图片描述

ECCV 2016 Workshops


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 The OTB-13 benchmark
    • 5.3 The VOT benchmarks
    • 5.4 Dataset size
  • 6 Conclusion(own)/ Future work


1 Background and Motivation

在这里插入图片描述

单目标跟踪

track any arbitrary object, it is impossible to have already gathered data and trained a specific detector

在线学习方法的缺点(either apply “shallow” methods (e.g. correlation filters) using the network’s internal representation as features or perform SGD (stochastic gradient descent) to fine-tune multiple layers of the network)

a clear deficiency of using data derived exclusively from the current video is that only comparatively simple models can be learnt.

实时性可能也是个问题

作者基于全卷积孪生网络,来实现单目标跟踪,且只要是目标检测的数据集,都可以拿来训练(the fairness of training and testing deep models for tracking using videos from the same domain is a point of controversy)

在这里插入图片描述

2 Related Work

  • train Recurrent Neural Networks (RNNs) for the problem of object tracking
  • track objects with a particle filter that uses a learnt distance metric to compare the current appearance to that of the first frame.
  • feasibility of fine-tuning from pre-trained parameters at test time

3 Advantages / Contributions

  • we equip a basic tracking algorithm with a novel fully-convolutional Siamese network trained end-to-end on the ILSVRC15 dataset for object detection in video

  • frame-rates beyond real-time

  • achieves state-of-the-art performance in multiple benchmarks

4 Method

在这里插入图片描述

f ( z , x ) = g ( φ ( z ) , φ ( x ) ) f(z, x) = g(\varphi(z), \varphi(x)) f(z,x)=g(φ(z),φ(x))

exemplar image z z z

candidate image x x x

在这里插入图片描述

g g g is a simple distance or similarity metric

φ \varphi φ 是孪生网络,结构如下

在这里插入图片描述
x 和 z 获取的细节(来自 pysot 代码)

在这里插入图片描述

更具体的公式如下

在这里插入图片描述

b L b \mathbb{L} bL denotes a signal which takes value b ∈ R b ∈ \mathbb{R} bR in every location

每个空间位置的 b 应该是相等的吧

损失函数

在这里插入图片描述
y 是标签,1 或者 -1

v 是 score map 上的得分(0-1)之间

在这里插入图片描述
u 是空间位置,D 是 score map
在这里插入图片描述
预测的bounding box 中心点位于 ground true bounding box 中心半径小于 R 区域的都属于正样本

c 是 GT bbox 的中心点

stride k of the network

训练的时候用的 SGD 优化

在这里插入图片描述

5 Experiments

50 epochs 50,000 sampled pairs

SiamFC (Siamese Fully Convolutional) and SiamFC-3s, which searches over 3 scales instead of 5.

scale 的细节不太清楚

5.1 Datasets and Metrics

训练集
ImageNet Video for tracking,4500 videos

测试集

  • ALOV
  • OTB-13
  • VOT-14 / VOT-15 / VOT-16

a tracker is successful in a given frame if the intersection over-union (IoU) between its estimate and the ground-truth is above a certain threshold

OTB上常用的3个:TRE、SRE、OPE

  • OPE:单次评估精度,TRE运行一次的结果。
  • TRE: 将序列划分为20个片段,每次是从不同的时间初始化,然后去跟踪目标。
  • SRE: 从12个方向对第一帧的目标位置设置10%的偏移量,然后跟踪目标,判断目标跟踪精度。

通用指标

  • OP(%): overlap precision 重叠率
    重叠率 = 重叠区域面积/(预测矩形的面积+真实矩形的面积-重叠区域的面积)
  • CLE(pixels): center location error 中心位置误差
    中心位置误差 = 真实中心和预测中心的欧式距离
  • DP:distance precision 精确度
  • AUC: area under curve 成功率z图的曲线下面积

VOT当中一些指标

  • Robustness:数值越大,稳定性越差。

5.2 The OTB-13 benchmark

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

5.3 The VOT benchmarks

VOT-14
在这里插入图片描述
VOT-15
在这里插入图片描述
在这里插入图片描述

5.4 Dataset size

在这里插入图片描述

看看实际的效果
在这里插入图片描述
缺点:框的 spatial ratio 是固定的

6 Conclusion(own)/ Future work

参考文章:

  • 视觉目标跟踪SiamFC
  • 单目标跟踪论文综述:SiamFC、Siam系列、GradNet等一览
  • 【目标跟踪线上交流会】第十五期 Pysot实验总结
  • SiamRPN代码解读–proposal selection部分
  • 单目标追踪-SiamFC

仅看文章,许多实现细节我都不够清晰,还是得撸撸代码

Deep Siamese conv-nets have previously been applied to tasks such as face verification, keypoint descriptor learning and one-shot character recognition

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/696094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android系统启动流程

android的启动流程是从底层开始进行的,具体如下所示: Android是基于Linux内核的系统,Android的启动过程主要分为两个阶段,首先是Linux内核的启动,然后是Android框架的启动。 可以将Andorid系统的启动流程分为以下五个…

【QT 5 +Linux下软件桌面快捷方式+qt生成软件创建桌面图标+学习他人文章+第二篇:编写桌面文件.desktop】

【QT 5 Linux下软件桌面快捷方式qt生成软件创建桌面图标学习他人文章第二篇:编写桌面文件.desktop】 1、前言2、实验环境3、自我学习总结-本篇总结1、新手的疑问,做这件事目的2、了解.desktop3、三个关键目录以及文件编写1、目录:/opt/2、目录…

【鸿蒙 HarmonyOS 4.0】开发工具安装

一、准备开发环境 1.1、安装IDE 鸿蒙应用开发需要使用配套的IDE——HUAWEI DevEco Studio。 DevEco Studio基于IntelliJ IDEA Community(IDEA社区版)构建,为鸿蒙应用提供了一站式开发环境,集成了开发、运行、调试以及发布应用的…

【leetcode刷题之路】面试经典150题(3)——哈希表+区间

文章目录 5 哈希表5.1 【哈希表】赎金信5.2 【数学】同构字符串5.3 【数学】单词规律5.4 【哈希表】有效的字母异位词5.5 【哈希表】字母异位词分组5.6 【双指针】两数之和5.7 【数学】快乐数5.8 【哈希表】219. 存在重复元素 II5.9 【数学】最长连续序列 6 区间6.1 【数学】汇…

Stable Diffusion 模型分享:AstrAnime(Astr动画)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五 下载地址 模型介绍 AstrAnime 是一个动漫模型,画风色彩鲜明,擅长绘制漂亮的小姐姐。 条目内容类型大模型…

fastjson解析自定义get方法导致空指针问题

背景 为了在日志中把出入参打印出来,以便验证链路和排查问题,在日志中将入参用fastjson格式化成字符串输出,结果遇到了NPE。 问题复现 示例代码 public static void main(String[] args) {OrganizationId orgId new OrganizationId();N…

规模化强化学习 — 多任务强化学习

1 简述 1.1 单任务强化学习(STRL) 在单任务强化学习中,一个无人机的AI系统可能被训练来执行特定的任务,比如自主导航。在这个任务中,无人机需要学习如何有效地从起点飞行到终点,并避开障碍物。 举例&#…

【Java多线程】分析线程加锁导致的死锁问题以及解决方案

目录 1、线程加锁 2、死锁问题的三种经典场景 2.1、一个线程一把锁 2.2、两个线程两把锁 2.3、N个线程M把锁(哲学家就餐问题) 3、解决死锁问题 1、线程加锁 其中 locker 可以是任意对象,进入 synchronized 修饰的代码块, 相当于加锁&…

Java SourceDataLine 播放音频

Java SourceDataLine 播放音频 1 依赖2 接口3 实现4 测试 项目Value音频格式 添加依赖*.wav(JDK 原生支持)*.pcm(JDK 原生支持)*.au(JDK 原生支持)*.aiff(JDK 原生支持)*.mp3mp3spi.jar*.flacjflac-codec.jar 1 依赖 <dependency><groupId>com.googlecode.soundl…

⭐北邮复试刷题LCR 052. 递增顺序搜索树__DFS (力扣119经典题变种挑战)

LCR 052. 递增顺序搜索树 给你一棵二叉搜索树&#xff0c;请 按中序遍历 将其重新排列为一棵递增顺序搜索树&#xff0c;使树中最左边的节点成为树的根节点&#xff0c;并且每个节点没有左子节点&#xff0c;只有一个右子节点。 示例 1&#xff1a; 输入&#xff1a;root [5,…

DataX - 全量数据同步工具

前言 今天是2024-2-21&#xff0c;农历正月十二&#xff0c;相信今天开始是新的阶段&#xff0c;尽管它不是新的周一、某月一日、某年第一天&#xff0c;尽管我是一个很讲究仪式感的人。新年刚过去 12 天&#xff0c;再过 3 天就开学咯&#xff0c;开学之后我的大学时光就进入了…

TypeScript01:安装TypeScript

一、TypeScript 官方网站&#xff1a;https://www.tslang.cn/docs/index.html 练习场&#xff1a;https://www.typescriptlang.org/zh/play 好处&#xff1a; 强类型语言&#xff0c;对JS弱类型的一个良好补充&#xff1b;TS利于大型项目团队合作&#xff0c;可以一定程度…

这五个软件测试工具,测试工程师必备

在软件开发过程中&#xff0c;软件测试是确保软件质量和稳定性的关键环节。为了帮助开发人员和测试团队更好地完成这一任务&#xff0c;市面上涌现出众多软件测试工具。本文将盘点五个备受推崇的软件测试工具&#xff0c;它们各具特色&#xff0c;适用于不同的测试场景。 Test…

ChatGPT实战100例 - (17) 用ChatGPT实现音频长度测量和音量调整

文章目录 ChatGPT实战100例 - (17) 用ChatGPT实现音频长度测量和音量调整获取音频长度pydub获取音频长度获取时长精确到秒格式设定 mutagen获取音频长度 调整音量视频音量调整注意事项 ChatGPT实战100例 - (17) 用ChatGPT实现音频长度测量和音量调整 老王媳妇说上次那个pip挺好…

深度学习的学习笔记帖子2

人脸数据集的介绍&#xff1a; https://zhuanlan.zhihu.com/p/362356480 https://blog.csdn.net/bjbz_cxy/article/details/122210641 CASIAWebFace人脸数据集等的github&#xff1a; https://github.com/deepinsight/insightface/blob/master/recognition/datasets/README.md…

蓝桥杯基础知识点9 stack、queue、priority_queue

蓝桥杯基础知识点9 stack、queue、priority_queue 01 stack的定义和结构 stack是一种后进先出&#xff08;LIFO&#xff09;的数据结构&#xff0c;头文件<stcak>。 template <class T, class Container deque<T>> class stack; T&#xff1a;存储在stack…

《VitePress 简易速速上手小册》第7章 高级功能与动态内容(2024 最新版)

文章目录 7.1 动态路由与 API 集成7.1.1 基础知识点解析7.1.2 重点案例&#xff1a;技术博客7.1.3 拓展案例 1&#xff1a;电商网站7.1.4 拓展案例 2&#xff1a;事件管理网站 7.2 状态管理与 Vuex 使用7.2.1 基础知识点解析7.2.2 重点案例&#xff1a;用户认证系统7.2.3 拓展案…

力扣精选算法100道——Z字形变换(模拟专题)

目录 &#x1f388;了解题意 &#x1f388;算法原理 &#x1f6a9;先处理第一行和最后一行 &#x1f6a9;再处理中间行 &#x1f388;实现代码 &#x1f388;了解题意 大家看到这个题目的时候肯定是很迷茫的&#xff0c;包括我自己也是搞不清楚题目什么意思&#xff0c;我…

memcpy和strcat的区别

memcpy 函数&#xff1a; memcpy 函数用于在内存之间复制一定数量的字节。memcpy 是按字节进行复制的&#xff0c;可以用于复制任意类型的数据&#xff0c;不仅限于字符串。memcpy 不会自动添加字符串结束符号 \0&#xff0c;因此在复制字符串时&#xff0c;需要确保复制的字节…

喝点小酒-胡诌“编程语言学习”

今天&#xff0c; 与一个小哥们儿&#xff08;学习计算机科学与技术专业的&#xff0c;我儿子&#xff0c;这是真的&#xff09;一块儿吃饭&#xff08;这顿饭&#xff0c;在家里吃的&#xff0c;吹个牛哈&#xff0c;我做的&#xff0c;三个荤菜、一个素材、一个汤、主食米饭 …