常识TransCenter- MIT&INRIA开源多目标物体跟踪算法

抖富宝颜料 · 发表于 2024-8-1 09:24:30

近日，来自 MIT 等机构研究者提出了小智同学的相关知识也可以到网站具体了解一下，有专业的客服人员为您全面解读，相信会有一个好的合作！https://xzhi.cc/

TC，这是首个用于预测密集目标点热力图（  ）T MOT
架构。在相同训练策略和同等数据下，TC 在两个标准 MOT 数据集上（MOT17 以及稠密的 MOT20）均超越了 SOTA
方法。

自从引入 T 以来，其在 NLP
任务中就已被证明拥有卓越的性能。计算机视觉也不例外，近些年，T 的使用在计算机视觉领域也变得非常流行。例如，C
  的 DETR 目标检测络提出利用稀疏查询（）的方式来搜索图像中的物体。同期工作也大多从 DETR
出发，保留稀疏查询，将 DETR 简单推广到多目标跟踪（MOT）任务中。

尽管如此，多目标跟踪（MOT）仍表现出与 T 某种程度上的不兼容：即标准的目标框（）表示方法配合稀疏查询对于学习基于 T 的 MOT 任务不是一种比较的方案。

受近期基于锚点（-）MOT 方法的启发，来自 MIT 等机构的研究提出 TC，这是首个用于预测密集目标点热力图（  ）T MOT 架构。

具体而言，该研究提出利用像素级密集多尺度查询（
- - ）配合 T
强大的全局表示能力，全局且充足地检测和跟踪目标中心（）。相同训练策略和同等数据下，TC
在两个标准 MOT 数据集上（MOT17 以及稠密的 MOT20）均超越了 SOTA 方法。特别地，在 MOT20
上，用更少的训练数据，该研究甚至超越了基于锚点的 MOT 以前 SOTA 方法。另外，与从 DETR 到 MOT
的简单推广相比，验研究也证明了所提出的架构表现出明显的性能和架构势。

论文：210345

代码：XUTC

出发点

1
目标框（
）的表示方式，在极度稠密的场景下会带来具有歧义且高度重叠的目标位置表示。解决目标框的歧义，终极的方式是提供稠密的目标标记
（例如分割掩码，）。但是这种标记往往需要消耗大量的人力成本，而且在 MOT
任务上，尚没有此类可用的大规模数据集。近期，基于锚点的 MOT 方法大大地缓解目标框带来的歧义且表现出 SOTA 的性能，如例 1 所示。

例 1：在稠密数据集（MOT20）里，锚点能更好地表示目标的位置。

2
目前多目标跟踪（MOT）大多基于先检测后跟踪的方式。所以，准确却不遗漏的检测出目标是提高 MOT 性能的关键因素之一。DETR
利用单独于图像且随机初始化的稀疏查询（）来检测目标，这往往会带来漏检（）。

3
另外，简单地提高稀疏查询数目（例如从默认的 100
个查询提高到与输出图像像素同等的查询数目）是有风险且不可行的，因为它会带来充满噪声的误检（
)。并且，因为随机初始化的查询不依赖于图像，每一次改变查询数目，都需要重新微调训练（-）络。

4 因为查询（）是单独于图像的，DETR 在训练的每一步，都需要用一对一的匹配算法（例如匈牙利算法，H A）去匹配物体真值位置和络预测位置。匹配算法十分耗时，而且由于目标框带来的歧义，匹配结果往往不是比较。

5 比较后，以往基于锚点的 MOT 方法使用传统的 CNN 络，其局部性导致对于人体点的预测往往不是全局的。换言之，一个目标中心点的预测并没有考虑所有目标中心点位置。这种相对单独的局部预测方式可能会带来漏检或者误检。

创新思路

基于以上问题，该研究重新精心设计了一种基于
T 的 MOT 络架构。具体来说，他们抛弃了以往从稀疏查询输出稀疏目标框的方式，提出采用像素级密集多尺度查询（
- - ）预测密集目标锚（中心）点热力图的方式。这种密集表示方式有多种势：

1 大大缓解了目标框重叠的问题而且多尺度的查询能更好地检测并跟踪不同尺寸的目标。

2 因为该研究的密集查询是从图像特征图获得的，与图像高度相关，所以查询密度自适应于输入图像的大小。换言之，随着输入图像的大小变化，查询数目自动变化。需人工重新调整查询数目并微调。

3
另外，TC 在训练过程中不在需要繁琐的匈牙利匹配（H
A）算法。这是因为一个查询对应一个像素，而一个像素仅有地表示一个物体中心或者背景，所以查询和物体中心真值天然地匹配。在训练过程中，只需要简单地回归中心位置。

4 更重要的是，充足的查询数目能保证充足的检测。同时，依赖于图像的像素级别查询（- - ）表现出更干净的检测和跟踪结果。

5 比较后，因为 T 的全局特征特性，TC 能全局地预测各个目标的中心点并且将它们在时域上关联起来，因而表现出更高的 FP-FN 平衡，输出更充足且更干净的 MOT 结果。

得益于以上的设计点，该研究在两个基准（）中均取得了 SOTA 的结果。

络结构及方法

TC 整体架构

TC
的整体架构如图所示，该研究采用经典的 - 结构。由于密集查询（D
Q）的引入，研究者在编码器（T D）和解码器（T
D）上均采用更高效的 D T （  ）
以解决密集查询带来的训练内存和运行效率的限制。

TC
络的输入为 -1 和  时刻的图像（6401088），它们会预先通过一个 RN-50 提取多尺度特征，然后该多尺度会被输入到
T 编码器。编码器的作用是全局地编码输入特征图，并乘以注意力图，从而得到多尺度带注意力的特征图，称为
，分别标记为M_-1 和M_。值得注意的是，提取 -1 和  时刻图像信息的络是共享权重的。

紧接这，
时刻的多尺度带注意力特征图 M_ 会被用于产生两组不同的多尺度密集查询：多尺度密集检测查询（ -
）以及多尺度密集跟踪查询（ -  ）, 分别标记为
DQ_ 和 TQ_。两种密集查询的产生依赖于查询学习络（QLN），后者由 2 个具有 RLU 激活和跳过连接（
）的全连接层组成。

在解码器端，该研究认为检测和跟踪是两个不同的任务，因此所需的注意力也不同。对于检测任务，络需要根据多尺度密集检测查询
DQ_，在多尺度带注意力特征图 M_ 里检测出所有目标。而对于跟踪，根据从  时刻多尺度密集跟踪查询 TQ_
得到的目标位置和特征，我们则需要在 -1 时刻的多尺度带注意力特征图 M_-1 内找到对应的 -1
时刻目标。出于这一考量以及验验证，该研究采用一种并行的双解码器（）结构,
分别处理检测和跟踪两个任务（T DT
D）。两个并行的解码器分别输出检测特征和跟踪特征，分别记为 DF_ 和 TF_。前者用于估计目标大小 S_ 和目标中心热力图
C_，两者结合 -1 时刻的目标中心热力图一起用于估计跟踪位移 T_。比较后，络训练的损失函数和前期基于锚点的 MOT
方法类似，更多细节，请参考论文。

SOTA 比较

该研究分别在两个基准（MOT7
和 MOT20）上与 SOTA 方法比较。值得注意的是，为了公平地比较，研究者将 SOTA 方法根据公共检测框（
）和自带检测框（
）进行分组，可以看到许多方法只在其中一种条件下进行测试。另外，该研究还根据不同数量的训练数据，将不同方法以不同颜色标记（橘色采用一组额外的训练数据，绿色只是用官方的数据，红色采用
5 组额外数据）。

由结果可以得出，与同期 T
MOT 的工作相比，在同等数据量以及同样的训练策略下，TC 展现出明显的性能势。而对比前期以锚点为基础的 MOT
方法，TC 同样取得更的结果。这也验证了 TC 络设计的有效性。

比较后，对比已发表的 SOTA 方法，该研究以明显的性能势取得了新的 SOTA 结果。

CUDA编程基础——利用CUDA现光线追踪

9月23日20:00-21:30，CUDA编程基础系列分享第二期：利用CUDA现光线追踪。本次分享主要介绍GPU多种存储单元的特点、使用S 的例、使用C 的例、编程例—利用CUDA现光线追踪等内容。

		自动登录	找回密码
密码			立即注册

常识TransCenter- MIT&INRIA开源多目标物体跟踪算法

浏览过的版块