本文来源公众号“DeepDriving”,仅用于学术分享,侵权删,干货满满。
原文链接:多目标跟踪算法之SORT
1 简介
SORT
是2016
年发表的一篇文章《Simple Online and Realtime Tracking
》中提出的一个经典的多目标跟踪算法,该算法结合常用的卡尔曼滤波器和匈牙利匹配算法实现了一个简单的在线多目标跟踪框架。由于其超简单的设计,SORT
可以以260 Hz
的更新速率实现多目标跟踪,远超当时其它的目标跟踪算法。
论文地址:https://arxiv.org/abs/1602.00763
代码地址:https://github.com/abewley/sort
2 具体实现
2.1 目标检测
SORT
是一种采用Tracking-by-Detection
策略的目标跟踪算法,也就是说算法的输入数据来源于目标检测器,其本身是不参与目标检测过程的。作者在论文里对比了以Faster-RCNN
和ACF
在PASCAL VOC
数据集上的行人检测结果作为MDP
和SORT
跟踪算法的输入,得出的结论是目标检测结果的好坏直接决定了目标跟踪的性能,使用最好的目标检测器会得到最好的跟踪效果。
这也告诉我们一个道理:解决问题要从源头开始。如果不从源头提升目标检测算法的性能,花再多时间去提升目标跟踪的性能可能都是徒劳。
2.2 状态估计模型
如果对卡尔曼滤波器不了解,可以看一下我之前整理的资料,里面有卡尔曼滤波器的详细推导过程:(后续文章介绍)。
2.3 数据关联
给已存在的目标分配当前帧检测到的边界框时,目标在当前帧中的边界框是基于之前的状态预测出来的。所有当前帧检测的边界框与已存在目标做预测得到的边界框通过计算它们之间的IOU
来求代价矩阵,然后用匈牙利算法求解最优匹配结果。如果检测边界框与预测边界框匹配成功且它们之间的IOU
值大于阈值IOU_min
,那么就认为它们是一对有效的匹配对,否则是无效的。匹配成功后,就可以基于检测的边界框对目标状态进行更新了。
作者发现采用IOU
作为距离度量进行匹配可以隐式地解决由于传递目标引起的短期遮挡的问题。具体来说,当一个目标被另一个物体覆盖时,检测器只能检测到这个遮挡物体而检测不到被遮挡物体,因为IOU
距离有利于具有相似比例的检测框。这样的话遮挡物体可以正常被分配检测框去更新状态,而被遮挡物体则不会受误分配带来的影响,因为当前没有检测框会分配给它。
2.4 跟踪标识的创建和删除
当一个目标出现在图像中的时候,我们需要为其创建一个全局唯一的身份标识(ID
);反之,当目标消失的时候就要销毁它的跟踪信息。
3 代码分析
3.1 算法整体流程
SORT
算法的处理流程非常简单,感兴趣的可以去看源码。下图是我整理的算法流程图:
对当前帧的检测结果Detections
和已存在的目标Tracker
使用匈牙利算法进行匹配会出现三种情况:
-
检测结果
Detection
未匹配成功,那么就以该边界框的几何信息为初始状态去创建一个Tracker
; -
检测结果
Detection
与Tracker
匹配成功,那么就以该检测结果为观测值更新Tracker
的状态; -
未匹配的
Tracker
,前面说到T_Lost设置为1
,也就是只要一帧没匹配上该Tracker
就会被删除。
3.2 卡尔曼滤波器
SORT
的代码里创建了一个类KalmanBoxTracker
用于对卡尔曼滤波器的状态进行管理,卡尔曼滤波器使用的是filterpy.kalman
包中的KalmanFilter
,官方文档地址为:https://filterpy.readthedocs.io/en/latest/kalman/KalmanFilter.html。
3.2.1. 滤波器初始化
def __init__(self,bbox):# 创建卡尔曼滤波器时需设置状态向量和观测向量的维度self.kf = KalmanFilter(dim_x=7, dim_z=4) # 状态转移矩阵self.kf.F = np.array([[1, 0, 0, 0, 1, 0, 0],[0, 1, 0, 0, 0, 1, 0],[0, 0, 1, 0, 0, 0, 1],[0, 0, 0, 1, 0, 0, 0],[0, 0, 0, 0, 1, 0, 0],[0, 0, 0, 0, 0, 1, 0],[0, 0, 0, 0, 0, 0, 1]])# 观测矩阵self.kf.H = np.array([[1, 0, 0, 0, 0, 0, 0],[0, 1, 0, 0, 0, 0, 0],[0, 0, 1, 0, 0, 0, 0],[0, 0, 0, 1, 0, 0, 0]])# 测量噪声协方差矩阵self.kf.R[2:,2:] *= 10.# 状态协方差矩阵,变化率不可观测所以设置一个较大值表示其较大的不确定性self.kf.P[4:,4:] *= 1000. self.kf.P *= 10.# 过程噪声协方差矩阵self.kf.Q[-1,-1] *= 0.01self.kf.Q[4:,4:] *= 0.01#状态向量前面四个值用bbox初始化,变化率设置为0self.kf.x[:4] = convert_bbox_to_z(bbox)
3.2.2. 滤波器生命周期管理
滤波器生命周期的管理是通过几个变量来实现的,KalmanBoxTracker
创建的时候会初始化几个变量:
self.time_since_update = 0
self.hits = 0
self.hit_streak = 0
如果Tracker
匹配成功,就会更新这几个变量的状态:
def update(self, bbox):self.time_since_update = 0self.hit_streak += 1
如果Tracker
做了一次预测,同样会更新这几个变量的状态:
def predict(self):if (self.time_since_update > 0):self.hit_streak = 0self.time_since_update += 1
time_since_update
表示距离上一次带观测值更新滤波器状态过去了多久,hit_streak
表示Tracker
连续匹配成功并更新的次数,一旦调用predict()
函数对当前帧做了预测,time_since_update
就加一,表示其已经对当前帧做过一次预测了。
在算法的处理类Sort
中,会对Tracker
的这几个变量做判断:
-
一个匹配成功的
Tracker
,需要判断其是否还在“试用期”,只有连续几帧都匹配成功才能使用它的跟踪信息:
if (trk.time_since_update < 1) and (trk.hit_streak >= self.min_hits or self.frame_count <= self.min_hits):ret.append(np.concatenate((d, [trk.id+1])).reshape(1, -1))
-
如果下一帧
Tracker
未匹配成功,该Tracker
就会被删除:
if (trk.time_since_update > self.max_age):self.trackers.pop(i)
4 总结
SORT
目标跟踪算法仅使用卡尔曼滤波器和匈牙利算法解决帧与帧之间的状态预测和数据关联问题,跟踪的效果高度依赖于目标检测结果的好坏,算法整体设计非常简单,在速度和精度上取得较好的平衡,主要体现一个“快”字。当然,速度提升必然导致精度损失,SORT
的缺点在于仅仅使用物体的边界框进行跟踪而忽略其表面特征,在复杂的场景中效果会比较差。另外,SORT
没有目标重识别过程,一旦目标丢失就需要重新创建跟踪器去更新状态(一帧未匹配成功就需要重新跟踪),导致同一目标的ID
频繁变换。
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。