arXiv 04.17 MOT论文解读

前言

最近MOT相关的论文出来得很多,4.17又出来了三篇,各有各的特点吧,其中最后一篇我觉得很有意思,我这里一起介绍一些各自的创新之处。

1.Siamese Track-RCNN

论文题目:Multiple Object Tracking with Siamese Track-RCNN

作者团队:亚马逊云服务识别实验室

论文链接:https://arxiv.org/abs/2004.07786

image-20200417123800532

这篇论文的思路很直接,其更多的创新还是基于SOT任务中的孪生结构和MOT中的联合检测和跟踪的框架,将SOT、Detection和ReID利用多任务分支的方式合并为一个整体框架。

论文的整体其实通过上图就能猜到:

  • SOT分支,作者借助GOTURN的SOT孪生结构,基于上一帧目标位置在当前帧扩展区域进行搜索,这里与原始SOT任务不同的是:预测的是目标相对位移,而不是响应图,并且预测的分类信息中的前景背景信息,作者解释成目标是否可见,这一点在MOT数据集中存在目标可视度的标注。但是这里依旧是对每个目标做了一次SOT,所以不得不用GOTURN这类效率高的网络;
  • Detection分支,这个很简单,我之前的多篇博客已经介绍过了, 这里作者采用的就是Tractor++的框架
  • ReID分支,这里仅仅是使用了共享特征,通过triplet loss进行训练。

总的来说,论文思路就是让多个任务共享特征。效果如下:

image-20200417124924990

2.ArTIST

论文标题:ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking

作者团队:澳大利亚国立大学机器视觉中心&EPFL CVLab

论文链接:https://arxiv.org/abs/2004.07482

通过我们之前对于联合检测和跟踪的框架的讨论,我们可以知道的是这类框架效果好的本质在于检测器的性能,主要体现在跟踪精度上,进而影响ID Sw.。但是如果不结合运动和表观等其他信息的话,ID Sw.和FP会大大增加,这篇论文就是从运动信息从层面对Tracktor++进行了改进。

image-20200417125552792

上图是对比Tracktor++对于遮挡的鲁棒性,论文框架如下:

image-20200417125744646

image-20200417130015765

从公式我们大致可以理解为对于每个即将加入跟踪轨迹的候选框,通过条件概率模型计算其属于该轨迹的概率。从图中我们能看到的是作者采用的框架式基于LSTM的,并且这里面涉及到了目标位置和形状的回归估计。从论文中作者介绍的来看,作者通过K-means的方式得到了K类运动模式(△x,△y,△w,△h),由此得到近似最优的运动估计。

image-20200417130639293

如上图所示,对于每个目标(假设有n个),都会存在k种运动模型和m种可能的观测框,也就是每一次都要进行nkm次估计,利用概率模型选择最优的估计。这一步作者称之为Tracklet Scoring

然后考虑到目标丢失所造成了轨迹缺失,作者直接采用丢失之前的运动模式进行估计,称之为Tracklet inplainting

当然,最后还是通过匈牙利算法进行了数据关联。所以这篇文章的创新点就在于基于LSTM的离散运动状态估计。效果如下:

image-20200417131340294

这里提一下,上面一栏是不基于图像信息的算法。

3.SQE

论文标题:SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking

作者团队:清华大学&旷视

论文链接:https://arxiv.org/abs/2004.07472

这篇论文我觉得很有意思,作者团队设计了一种不需要GT的MOT评价指标SQE,借此可以实现与原始评价体系相近的结果,这对于现实场景中的算法调优很有帮助。

在看这篇论文之前我们可以自己先思考一下,在计算MOT相关的评价指标时,一般分为跟踪精度和跟踪轨迹一致性,对于跟踪精度而言,如果没有GT,无法估计。而对于跟踪轨迹的一致性,原始方式是通过GT计算跟踪轨迹中的ID变换情况,这一点可以近似估计。这篇论文就是通过分析相同身份目标和不同身份目标之间的特征距离来估计ID的变换情况的,可是问题在于常规MOT任务中也有很多利用ReID来实现这种效果的,但是如何保证这里的估计一定准确呢?我们具体看论文:

image-20200417132842241

作者首先分析了同一条轨迹内部的特征距离,可以看到ID1的轨迹中由于不存在其他身份的轨迹段,所以距离分布单一,而ID2中由于存在其他身份轨迹片段,所以存在了两种距离分布。而对于不同轨迹之间的特征距离,因为ID1和ID2轨迹中目标身份全无交集,所以也只存在一种距离分布,而ID2和ID3中存在轨迹交互,所以存在两种距离分布。

为了度量上面所说的距离分布,作者引入了高斯混合模型,由于描述目标特征,距离度量模式采用欧氏距离:

image-20200417134324574

借助目标特征的高斯混合模型和欧氏距离公式,得到了距离分布模型如上图所示,并且特征距离标准化后服从卡方分布,这一点有点类似于马氏距离,具体可以去看我前面介绍Kalman滤波器相关的文章。当然,作者也说了,由于是采用的统计信息提到了均值和方差,另外ReID特征各个维度并不是独立,所以分布假设也会存在一定误差。

为了验证这种方式的效果,作者做了相关实验:

image-20200417134754626

可以看到,对于同一身份的目标,无论其位于同一条轨迹还是不同轨迹,其大多数的距离分布都偏向于均值较小的部分。而不同身份的轨迹之间则是大多服从均值大的距离分布。

评价指标公式和算法如下:

image-20200417140439699

image-20200417140505296

其中n表示轨迹数量,L表示轨迹平均长度,对于轨迹内部,FP的判定是轨迹长度小于一定阈值和轨迹内距离分布标准差大于一定阈值。对于dif,这里我理解是轨迹内身份变化程度,作者通过计算2-高斯混合模型的均值距离来判定是否存在多个身份。

对于轨迹之间,如果特征距离分布均值存在不同两种分布,则说明两条轨迹存在交叉,即sim误差增加。

在实验环节,作者采用的是ReID领域经典的PCB算法,感觉好像是直接用PCB进行多目标跟踪。

image-20200417142215480

可以看到,随着ReID阈值的调整,IDF1和SQE的值变化情况接近

image-20200417142323555

要注意的是上面的ReID阈值是根据SQE评价指标提前设好的,而不是根据GT结果调整的,可以看到两种度量方式的差异接近。

参考文献

[1]Multiple Object Tracking with Siamese Track-RCNN.

[2]ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking.

[3] SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking.

-------------本文结束感谢您的阅读-------------
坚持原创技术分享,您的支持将鼓励我继续创作!