arXiv 04.17 MOT论文解读

前言

最近MOT相关的论文出来得很多，4.17又出来了三篇，各有各的特点吧，其中最后一篇我觉得很有意思，我这里一起介绍一些各自的创新之处。

1.Siamese Track-RCNN

论文题目：Multiple Object Tracking with Siamese Track-RCNN
作者团队：亚马逊云服务识别实验室
论文链接：https://arxiv.org/abs/2004.07786

这篇论文的思路很直接，其更多的创新还是基于SOT任务中的孪生结构和MOT中的联合检测和跟踪的框架，将SOT、Detection和ReID利用多任务分支的方式合并为一个整体框架。

论文的整体其实通过上图就能猜到：

SOT分支，作者借助GOTURN的SOT孪生结构，基于上一帧目标位置在当前帧扩展区域进行搜索，这里与原始SOT任务不同的是：预测的是目标相对位移，而不是响应图，并且预测的分类信息中的前景背景信息，作者解释成目标是否可见，这一点在MOT数据集中存在目标可视度的标注。但是这里依旧是对每个目标做了一次SOT，所以不得不用GOTURN这类效率高的网络；
Detection分支，这个很简单，我之前的多篇博客已经介绍过了，这里作者采用的就是Tractor++的框架；
ReID分支，这里仅仅是使用了共享特征，通过triplet loss进行训练。

总的来说，论文思路就是让多个任务共享特征。效果如下：

2.ArTIST

论文标题：ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking
作者团队：澳大利亚国立大学机器视觉中心&EPFL CVLab
论文链接：https://arxiv.org/abs/2004.07482

通过我们之前对于联合检测和跟踪的框架的讨论，我们可以知道的是这类框架效果好的本质在于检测器的性能，主要体现在跟踪精度上，进而影响ID Sw.。但是如果不结合运动和表观等其他信息的话，ID Sw.和FP会大大增加，这篇论文就是从运动信息从层面对Tracktor++进行了改进。

上图是对比Tracktor++对于遮挡的鲁棒性，论文框架如下：

从公式我们大致可以理解为对于每个即将加入跟踪轨迹的候选框，通过条件概率模型计算其属于该轨迹的概率。从图中我们能看到的是作者采用的框架式基于LSTM的，并且这里面涉及到了目标位置和形状的回归估计。从论文中作者介绍的来看，作者通过K-means的方式得到了K类运动模式(△x,△y,△w,△h)，由此得到近似最优的运动估计。

如上图所示，对于每个目标（假设有n个），都会存在k种运动模型和m种可能的观测框，也就是每一次都要进行nkm次估计，利用概率模型选择最优的估计。这一步作者称之为Tracklet Scoring。

然后考虑到目标丢失所造成了轨迹缺失，作者直接采用丢失之前的运动模式进行估计，称之为Tracklet inplainting。

当然，最后还是通过匈牙利算法进行了数据关联。所以这篇文章的创新点就在于基于LSTM的离散运动状态估计。效果如下：

这里提一下，上面一栏是不基于图像信息的算法。

3.SQE

论文标题：SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking
作者团队：清华大学&旷视
论文链接：https://arxiv.org/abs/2004.07472

这篇论文我觉得很有意思，作者团队设计了一种不需要GT的MOT评价指标SQE，借此可以实现与原始评价体系相近的结果，这对于现实场景中的算法调优很有帮助。

在看这篇论文之前我们可以自己先思考一下，在计算MOT相关的评价指标时，一般分为跟踪精度和跟踪轨迹一致性，对于跟踪精度而言，如果没有GT，无法估计。而对于跟踪轨迹的一致性，原始方式是通过GT计算跟踪轨迹中的ID变换情况，这一点可以近似估计。这篇论文就是通过分析相同身份目标和不同身份目标之间的特征距离来估计ID的变换情况的，可是问题在于常规MOT任务中也有很多利用ReID来实现这种效果的，但是如何保证这里的估计一定准确呢？我们具体看论文：

作者首先分析了同一条轨迹内部的特征距离，可以看到ID1的轨迹中由于不存在其他身份的轨迹段，所以距离分布单一，而ID2中由于存在其他身份轨迹片段，所以存在了两种距离分布。而对于不同轨迹之间的特征距离，因为ID1和ID2轨迹中目标身份全无交集，所以也只存在一种距离分布，而ID2和ID3中存在轨迹交互，所以存在两种距离分布。

为了度量上面所说的距离分布，作者引入了高斯混合模型，由于描述目标特征，距离度量模式采用欧氏距离：

借助目标特征的高斯混合模型和欧氏距离公式，得到了距离分布模型如上图所示，并且特征距离标准化后服从卡方分布，这一点有点类似于马氏距离，具体可以去看我前面介绍Kalman滤波器相关的文章。当然，作者也说了，由于是采用的统计信息提到了均值和方差，另外ReID特征各个维度并不是独立，所以分布假设也会存在一定误差。

为了验证这种方式的效果，作者做了相关实验：