快捷搜索:  汽车  科技

bytebase 管理团队,关联每个检测框的多目标跟踪

bytebase 管理团队,关联每个检测框的多目标跟踪检测跟踪是目前最有效的多目标跟踪范式,由于视频场景复杂,检测器容易做出不完美的预测,最先进的MOT方法需要处理真阳性假阳性权衡以消除低置信度检测框,但是,消除所有低置信度检测框是正确的方法吗?我们的答案是否定的:正如黑格尔所说:“合理的就是真实的;真实的才是合理的。”低置信度检测框有时表示物体的存在,例如被遮挡的物体,过滤掉这些物体会导致MOT的不可逆误差,并带来不可忽略的漏检和碎片化轨迹。1. 简介https://arxiv.org/abs/2110.06864摘要多目标跟踪(MOT)旨在估计视频中目标的边界框和身份,大多数方法通过关联得分高于阈值的检测框来获取身份,检测分数低的物体,如遮挡物体,直接被丢弃,带来不可忽略的真实物体缺失和碎片化轨迹,为了解决这一问题,我们提出了一种简单、有效和通用的关联方法,即对几乎所有检测框进行关联,而不是只关联得分高的检测框,对于低分数检测框,我们利用

bytebase 管理团队,关联每个检测框的多目标跟踪(1)

论文收录于eccv 2022,SORT可以看作是BYTETrack的基线方法,因为这两种方法都只采用卡尔曼滤波来预测物体运动,主要改动是增加了多阶段的低分检测框匹配,用于解决物体遮挡模糊造成检测低分而跟踪失败的问题。

论文题目:

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

论文地址:

https://arxiv.org/abs/2110.06864

摘要

多目标跟踪(MOT)旨在估计视频中目标的边界框和身份,大多数方法通过关联得分高于阈值的检测框来获取身份,检测分数低的物体,如遮挡物体,直接被丢弃,带来不可忽略的真实物体缺失和碎片化轨迹,为了解决这一问题,我们提出了一种简单、有效和通用的关联方法,即对几乎所有检测框进行关联,而不是只关联得分高的检测框,对于低分数检测框,我们利用它们与tracklet的相似性来恢复真实的对象,并过滤掉检测背景,当应用于9种不同的最先进的跟踪器时,我们的方法在IDF1得分上取得了从1到10分的一致提高,为了提高MOT的性能,我们设计了一个简单而强大的跟踪器ByteTrack,在单V100 GPU上,我们首次在运行速度为30 FPs的MOT17测试集上实现了80.3 MOTA 77.3 IDF1和63.1 HOTA,ByteTrack在MOT20、HiEve和BDD100K跟踪基准上也实现了最先进的性能。

1. 简介

检测跟踪是目前最有效的多目标跟踪范式,由于视频场景复杂,检测器容易做出不完美的预测,最先进的MOT方法需要处理真阳性假阳性权衡以消除低置信度检测框,但是,消除所有低置信度检测框是正确的方法吗?我们的答案是否定的:正如黑格尔所说:“合理的就是真实的;真实的才是合理的。”低置信度检测框有时表示物体的存在,例如被遮挡的物体,过滤掉这些物体会导致MOT的不可逆误差,并带来不可忽略的漏检和碎片化轨迹。

图2 (a)和(b)显示了这个问题。在帧t1中,我们初始化三个不同的tracklet,因为它们的分数都高于0.5。而在第t2帧和第t3帧中,当发生遮挡时,红色tracklet对应的检测分数变低,即0.8到0.4,然后0.4到0.1. 阈值机制消除了这些检测框,红色小轨随之消失,然而,如果我们考虑到每一个检测框,则会立即引入更多的假阳性,例如图2 (a)的t3帧中最右边的框,据我们所知,MOT中很少有方法能够处理这种检测困境。

bytebase 管理团队,关联每个检测框的多目标跟踪(2)

在本文中,我们发现在低分数检测框中,与轨迹小波的相似性为区分目标和背景提供了强大的线索。如图2 (c)所示,两个低分检测框通过运动模型的预测框匹配到跟踪轨迹,从而正确恢复对象,同时,背景框被删除,因为它没有匹配的轨迹。

为了充分利用匹配过程中从高分到低分的检测框,我们提出了一种简单有效的关联方法BYTE,以每一个检测框为跟踪轨迹的基本单位命名,在计算机程序中作为字节,我们的跟踪方法对每一个详细的检测框进行赋值,我们首先根据运动相似度或外观相似度将高分检测框与跟踪轨迹进行匹配,我们采用卡尔曼滤波预测轨迹在新帧中的位置,相似性可以通过预测与检测之间的IoU或Re-ID特征距离来计算,图2 (b)正是第一次匹配后的结果,然后,我们在未匹配的tracklet,即红框中的tracklet,和低分数检测框之间使用相同的运动相似度进行第二次匹配,图2 (c)显示了第二次匹配后的结果,检测分数低的被遮挡者被正确地匹配到之前的轨迹,背景(在图像的右侧)被删除。

作为目标检测与关联的综合课题,MOT的理想解决方案绝不是一个检测器和随后的关联;此外,良好的连接区域设计也很重要,BYTE的创新之处在于检测和关联的交界处,低分检测是促进两者的桥梁,得益于这种集成创新,当BYTE应用于9种不同的最先进的跟踪器时,包括基于re-ID的跟踪器、基于动作的跟踪器、基于链的跟踪器和基于注意力的跟踪器,几乎所有的指标都取得了显著的改进,包括MOTA、IDF1评分和ID切换,例如,我们将CenterTrack的MOTA从66.1增加到67.4 IDF1从64.2增加到74.0,并在MOT17的一半验证集上将id从528减少到144。

为了推动MOT最先进的性能,我们提出了一个简单而强大的跟踪器,称为ByteTrack,我们采用最新的高性能检测器YOLOX来获取检测框,并将其与我们提出的BYTE相关联,在MOT挑战中,ByteTrack在MOT17和MOT20上都排名第一,在MOT17 V100 GPU上实现了80.3 MOTA 77.3 IDF1和63.1 HOTA 30 FPS的运行速度,在更拥挤的MOT20上实现了77.8 MOTA 75.2 IDF1和61.3 HOTA,ByteTrack在HiEve和BDD100K跟踪基准上也实现了最先进的性能,我们希望ByteTrack的效率和简单性能够使它在诸如社会计算等实际应用中具有吸引力。

2. 相关工作

2.1. MOT中的目标检测

目标检测是计算机视觉领域最活跃的课题之一,是多目标跟踪的基础,MOT17数据集提供了DPM、Faster R-CNN和SDP等常用检测器获得的检测结果,大量的方法集中在基于这些给定的检测结果改进跟踪性能。

通过检测跟踪 随着目标检测的快速发展,越来越多的方法开始利用更强大的检测器来获得更高的跟踪性能,单级对象检测器RetinaNet开始被几种方法采用,CenterNet是大多数方法中最常用的检测器,其简单高效,YOLO系列检测器也被大量的方法采用,因为它在精度和速度上有很好的平衡,这些方法大多直接使用检测框对单幅图像进行跟踪。

然而,正如视频对象检测方法所指出的,当视频序列中发生遮挡或运动模糊时,缺失检测和极低评分检测的数量开始增加,因此,通常利用前一帧的信息来提高视频检测性能。

通过跟踪检测 也可以采用跟踪的方式来获得更精确的检测框,一些方法利用单目标跟踪(SOT)或卡尔曼滤波预测下一帧中轨迹的位置,并将预测框与检测框融合,以增强检测结果,其他方法利用前一帧中的跟踪框来增强下一帧的特征表示,最近,基于transformer检测器因其在帧间传播的能力强而被多种方法采用,该方法还利用了与轨迹的相似性,增强了检测框的可靠性。

大多数MOT方法在各种检测器获得检测框后,只对高分检测框保留一个阈值,即0.5,并将其作为数据关联的输入,这是由于低分检测框包含很多背景,影响了跟踪性能,然而,我们观察到许多被遮挡的物体可以被正确地检测到,但评分很低,为了减少漏检和保持轨迹的持久性,我们保留了所有的检测框,并在每一个检测框中关联。

2.2. 数据融合

数据关联是多目标跟踪的核心,首先计算tracklet和检测框之间的相似度,根据相似度利用不同的策略进行匹配。

相似性度量 位置、动作和外表都是联想的有用线索,SORT以非常简单的方式组合了位置和运动提示,该算法首先采用卡尔曼滤波来预测新帧中的位置,然后计算检测框与预测框之间的IoU作为相似度,最近的一些方法设计了网络来学习物体运动,并在大摄像机运动或低帧率的情况下获得更健壮的结果,在近距离匹配中,位置和运动相似度是准确的,外观相似性有助于进行远距离匹配。

物体在被遮挡较长时间后,可以通过外观相似性进行重新识别,外观相似度可以通过Re-ID特征的余弦相似度来衡量,DeepSORT采用独立的Re-ID模型从检测框中提取外观特征,近年来,联合检测和Re-ID模型因其简单高效而越来越受欢迎。

匹配策略 通过相似度计算,匹配策略为目标分配身份,这可以通过匈牙利算法或贪婪分来实现,SORT通过一次匹配将检测框匹配到tracklet,DeepSORT提出了一种级联匹配策略,首先将检测框与最近的tracklet匹配,然后将检测框与丢失的tracklet匹配,MOTDT首先利用外观相似度进行匹配,然后利用IoU相似度对未匹配的轨迹条进行匹配,QDTrack通过双向softmax运算将外观相似度转化为概率,采用最近邻搜索完成匹配,注意机制可以直接在帧之间传播并进行隐式关联,最近的方法提出了跟踪查询,以查找跟踪对象在下帧中的位置,在交互过程中隐式进行匹配,不使用匈牙利算法。

所有这些方法都关注于如何设计更好的关联方法,但是,我们认为检测框的使用方式决定了数据关联的上限,我们关注的是如何在匹配过程中从高分到低分充分利用检测框。

3. BYTE

我们提出了一种简单、有效、通用的数据关联方法BYTE,与以往的方法只保留高分检测框不同,我们几乎保留了所有的检测框,并将其分为高分检测框和低分检测框,我们首先将高分检测框与轨迹函数相关联,有些轨迹不匹配是因为它们没有匹配到合适的高分检测框,这通常发生在遮挡、运动模糊或大小变化发生时;然后,我们将低分检测框和这些不匹配的tracklet关联起来,以恢复低分检测框中的对象并同时过滤掉背景,BYTE的伪代码如算法1所示。

bytebase 管理团队,关联每个检测框的多目标跟踪(3)

BYTE的输入是一个视频序列V,以及一个对象检测器Det,我们还设置了一个检测评分阈值τ,BYTE的输出是视频的跟踪T,每个跟踪包含每帧对象的边框和标识。

对于视频中的每一帧,我们使用检测器Det预测检测框和分数,我们根据检测分数阈值τ将所有检测框分为Dhigh和Dlow两个部分,对于分数高于τ的检测框,我们将其放入高分检测框Dhigh中,对于分数低于τ的检测框,我们将它们放入低分数检测框Dlow(算法1中的第3到13行)。

在分离出低分检测框和高分检测框后,我们采用卡尔曼滤波预测T中每条轨迹在当前帧中的新位置(算法1中的第14 ~ 16行)。

第一个关联是在高分检测框Dhigh和所有T(包括丢失的跟踪Tlost)之间执行,相似性#1可以通过IoU或Re-ID特征之间的检测框Dhigh和轨迹T的预测框之间的距离来计算,然后采用匈牙利算法根据相似度完成匹配,我们在Dremain中保留未匹配的检测,在Tremain中保留未匹配的轨迹(算法1中的第17到19行)。

BYTE非常灵活,可以与其他不同的关联方法兼容。例如BYTE与FairMOT结合时,算法1中的* first association *中加入了Re-ID特征,其他均相同,在实验中,我们将BYTE应用于9个不同的最先进的跟踪器,并在几乎所有的指标上取得了显著的改进。

第二次关联是在低分检测框Dlow和第一次关联后的剩余轨迹Tremain之间执行的,我们将不匹配的轨迹保留在Tre−remain中,并删除所有不匹配的低分检测框,因为我们将它们视为背景。

(算法1中的第20到21行),我们发现在第二种关联中单独使用IoU作为相似性#2是很重要的,因为低分检测框通常包含严重的遮挡或运动模糊,外观特征不可靠,因此,当将BYTE应用到其他基于Re-ID的跟踪器时,我们在第二个关联中不采用外观相似性。

关联后,不匹配的轨迹将从tracklet中删除,为了简单起见,我们在算法1中没有列出轨迹再生的过程,实际上,为了保持轨迹的同一性,远程关联是必要的,对于第二次关联后剩余的不匹配轨迹,我们将其放入Tlost中,对于Tlost中的每个轨迹,只有当它存在的帧数超过一定数量时,即30,我们才从轨迹T中删除它,否则,我们保留T中丢失的音轨Tlost(算法1中的第22行)。最后,在第一次关联之后,我们从不匹配的高分检测框Dremain初始化新的轨迹(算法1中的第23 - 27行),每一帧的输出是当前帧中轨迹T的边界框和标识,注意,我们不输出Tlost的框和标识。

为了展现MOT最先进的性能,我们在高性能探测器YOLOX上配置了我们的关联方法BYTE,设计了一个简单而强大的跟踪器ByteTrack。

4. 实验

4.1. 设置

数据集 我们在“私有检测”协议下评估MOT17和MOT20数据集上的BYTE和ByteTrack,两个数据集都包含训练集和测试集,但没有验证集,对于消融研究,我们使用MOT17训练集中每个视频的前半部分进行训练,后半部分进行验证,我们在CrowdHuman数据集和MOT17半训练集的组合上进行训练,在MOT17的测试集上进行测试时,我们添加了Cityperson和ETHZ用于之后的训练,我们还在HiEve和BDD100K数据集上测试了ByteTrack,HiEve是一个以人为中心的大型数据集,专注于拥挤和复杂的事件,BDD100K是最大的驾驶视频数据集,MOT任务的数据集分成1400个视频用于训练,200个视频用于验证,400个视频用于测试,它需要跟踪8类对象,并包含大型相机运动的情况。

指标 我们使用CLEAR指标,包括MOTA FP FN id等,IDF1和HOTA来评估跟踪性能的不同方面,MOTA是根据FP、FN和id计算的。考虑到FP和FN的数量大于id MOTA更关注检测性能,IDF1评估身份保存能力,更关注关联性能,HOTA是最近提出的一个指标,它明确地平衡了执行精确检测、关联和定位的效果,对于BDD100K数据集,有一些多类指标如mMOTA和mIDF1,mMOTA / mIDF1是通过所有类的MOTA / IDF1的平均值来计算的。

实现细节 对于BYTE,缺省检测评分阈值τ为0.6,除非另有指定,对于MOT17、MOT20和HiEve的基准评价,我们只使用IoU作为相似度指标。在线性分配步骤中,如果检测框和轨迹框之间的IoU小于0.2,则拒绝匹配,对于丢失的tracklet,我们保留它30帧以防它再次出现,对于BDD100K,我们使用UniTrack作为Re-ID模型,在消融研究中,我们使用FastReID提取MOT17的Re-ID特征。

对于ByteTrack,检测器是YOLOX, yolox-x作为骨干,coco 预训练的模型作为初始权值,对于MOT17,训练计划是在MOT17、CrowdHuman、Cityperson和ETHZ的组合上80个epoch,对于MOT20和HiEve,我们只添加了CrowdHuman作为额外的训练数据,对于BDD100K,我们不使用额外的训练数据,只训练50个epoch,输入图像大小为1440×800,在多尺度训练时,最短边在576 ~ 1024之间,数据增强包括Mosaic和Mixup。模型在8个NVIDIA Tesla V100 GPU上训练,批处理大小为48个,优化器为SGD,权值衰减为5 × 10−4,动量为0.9,初始学习率为10−3,有1个epoch预热和余弦退火,训练总时间约为12小时,FPS在单个GPU上用fp16精度和批量大小为1进行测试。

4.2. BYTE的消融研究

相似性分析 我们为BYTE的第一个关联和第二个关联选择不同类型的相似度,结果如表1所示,我们可以看到IoU或Re-ID都可以是MOT17上相似度#1的不错选择。IoU获得更好的MOTA和id,而Re-ID获得更高的IDF1,在BDD100K上,Re-ID在第一次关联时取得了比IoU更好的结果,这是因为BDD100K包含较大的摄像机运动,注释帧率低,导致运动提示失败,重要的是在两个数据集的第二次关联中利用IoU作为相似度#2,因为低分检测框通常包含严重的遮挡或运动模糊,因此Re-ID特征是不可靠的,从表1中我们可以发现,使用IoU作为相似度#2比Re-ID增加了约1.0 MOTA,这说明低分检测箱的Re-ID特征并不可靠。

bytebase 管理团队,关联每个检测框的多目标跟踪(4)

与其他关联方法的比较 我们将BYTE与其他流行的关联方法进行了比较,包括SORT、DeepSORT和mott在MOT17和BDD100K的验证集上,结果如表2所示。

bytebase 管理团队,关联每个检测框的多目标跟踪(5)

SORT可以看作是我们的基线方法,因为这两种方法都只采用卡尔曼滤波来预测物体运动,我们可以发现BYTE将SORT的MOTA度量从74.6提高到76.6,将IDF1从76.9提高到79.3,将id从291降低到159,这突出了低分检测框的重要性,并证明了BYTE从低分中恢复对象框的能力。

DeepSORT利用额外的Re-ID模型来增强远程关联,我们惊奇地发现,与DeepSORT相比,BYTE还有额外的增益,这表明,在检测框足够精确的情况下,简单的卡尔曼滤波器可以进行远程关联,并获得较好的IDF1和id,我们注意到,在模糊的情况下,Re-ID特征是脆弱的,可能导致身份切换,相反,运动模型行为更可靠。

MOTDT将运动引导的框与检测结果集成在一起,将不可靠的检测结果与轨迹相关联,虽然使用了同样的动机,MOTDT大大落后于BYTE,我们解释了MOTDT使用传播框作为轨迹框,这可能导致在跟踪中定位漂移,相反,BYTE使用低分检测框重新关联那些不匹配的tracklet,因此,tracklet框更准确。

表2还显示了BDD100K数据集上的结果,BYTE的性能也大大优于其他关联方法,卡尔曼滤波在自动驾驶场景中失效是导致SORT、DeepSORT和MOTDT性能低下的主要原因,因此,我们在BDD100K上不使用卡尔曼滤波,其他现成的ReID模型大大提高了BDD100K上BYTE的性能。

对检测评分阈值的鲁棒性 检测评分阈值τhigh是一个敏感的超参数,在多目标跟踪任务中需要谨慎调整,我们将其从0.2改为0.8,并比较BYTE和SORT的MOTA和IDF1评分,结果如图3所示,从结果可以看出,BYTE比SORT对检测评分阈值的鲁棒性更强,这是因为BYTE中的第二个关联恢复了得分低于τhigh的对象,因此几乎考虑了所有的检测框,而不考虑τhigh的变化。

bytebase 管理团队,关联每个检测框的多目标跟踪(6)

低分检测框分析 为了证明BYTE的有效性,我们收集了BYTE获得的低分框中的tp和FP的数量,我们使用了MOT17的半训练集和CrowdHuman对MOT17的半验证集进行训练和评估,首先,我们保留所有在τlow ~ τhigh范围内的低分检测框,并使用真实注释对tp和FPs进行分类,然后,我们从低分数检测框中选择BYTE获得的跟踪结果,每个序列的结果如图4所示,我们可以看到BYTE获得的tp明显多于FP,即使有些序列(如MOT17-02)在所有的检测框中有更多的FP,得到的tp显著增加MOTA从74.6到76.6,如表2所示。

应用于其他跟踪器,我们将BYTE应用于9种不同的先进跟踪器,包括JDE , CSTrack, FairMOT, TraDes, QDTrack, CenterTrack, Chained-Tracker, TransTrack和MOTR,在这些跟踪器中,JDE、CSTrack、FairMOT、TraDes采用运动和ReID相似度的组合,QDTrack单独采用Re-ID相似度。CenterTrack和TraDes利用学习到的网络预测运动相似度,链式跟踪器采用链式结构,同时输出两个连续帧的结果,并通过IoU将结果关联到同一帧。TransTrack和MOTR采用注意机制在帧之间传播框。它们的结果显示在表3中每个跟踪器的第一行中,为了评估BYTE的有效性,我们设计了两种不同的模式来将BYTE应用于这些跟踪器。

bytebase 管理团队,关联每个检测框的多目标跟踪(7)

•第一种模式是在不同跟踪器的原始关联方法中插入BYTE,如表3中各跟踪器结果的第二行所示。以FairMOT为例,在初始关联完成后,我们选择所有不匹配的tracklet,并将其与算法1中*第二个关联*之后的低分检测框进行关联。注意,对于低分对象,Re-ID特征不可靠,因此我们只采用运动预测后的检测框和轨迹框之间的IoU作为相似度,我们不将BYTE的第一模式应用于链式跟踪器,因为我们发现它很难在链结构中实现。

•第二种模式是直接使用这些跟踪器的检测框,并使用算法1中的整个过程进行关联,如表3中每个跟踪器的结果的第三行所示。

我们可以看到,在这两种模式下,BYTE几乎可以在所有指标(包括MOTA、IDF1和id)上带来稳定的改进。例如,BYTE使CenterTrack增加1.3 MOTA和9.8 IDF1 chain-tracker增加1.9 MOTA和5.8 IDF1 TransTrack增加1.2 MOTA和4.1 IDF1。表3的结果表明,BYTE具有很强的泛化能力,可以很容易地应用到现有的跟踪器上,从而获得性能增益。

4.3. 基准评估

在表4、表5和表6所示的私有检测协议下,我们比较了ByteTrack与最先进的跟踪器在MOT17、MOT20和HiEve测试集上的结果,所有的结果都直接从官方MOT挑战评估服务器获得。

bytebase 管理团队,关联每个检测框的多目标跟踪(8)

bytebase 管理团队,关联每个检测框的多目标跟踪(9)

MOT17 ByteTrack在MOT17排行榜上的所有追踪器中排名第一,它不仅实现了最好的精度(即80.3 MOTA 77.3 IDF1和63.1 HOTA),而且运行速度最高(30 FPS),它的性能大大优于第二性能跟踪器(即 3.3 MOTA, 5.3 IDF1和 3.4 HOTA)。此外,我们使用的训练数据比许多高性能方法更少,值得注意的是,与其他方法相比,我们只在关联步骤中使用了最简单的相似度计算方法卡尔曼滤波(Kalman filter),其他方法也采用了Re-ID相似度或注意机制,所有这些都表明ByteTrack是一个简单而强大的跟踪器。

MOT20 与MOT17相比,MOT20的拥挤场景和遮挡情况要多得多,在MOT20的测试集中,图像中行人的平均数量为170,ByteTrack也在所有追踪器中排名第一,并在几乎所有指标上都远超其他追踪器,例如MOTA从68.6增加到77.8 IDF1从71.4增加到75.2 id从4209减少到1223,减少了71%,值得注意的是,ByteTrack实现了极低的标识值切换,这进一步表明,在遮挡情况下,关联每个检测框是非常有效的。

人类活动 与MOT17和MOT20相比,HiEve包含了更复杂的事件和更多样化的镜头视角,我们在CrowdHuman数据集和HiEve训练集上训练ByteTrack。ByteTrack也在HiEve的所有追踪器排行榜上排名第一,并在很大程度上超越了其他最先进的追踪器,例如,MOTA从40.9增加到61.3 IDF1从45.1增加到62.9。结果表明,ByteTrack对复杂场景具有较强的鲁棒性。

BDD100K BDD100K是自动驾驶场景下的多类别跟踪数据集,挑战包括低帧率和大的相机运动,我们利用来自UniTrack的简单ResNet-50 ImageNet分类模型提取Re-ID特征并计算外观相似性,ByteTrack在BDD100K排行榜上排名第一,它将验证集的mMOTA从36.6提高到45.5,将测试集的mMOTA从35.5提高到40.1,这表明ByteTrack也可以应对自动驾驶场景中的挑战。

5. 结论

针对多目标跟踪,提出了一种简单有效的数据关联方法BYTE,BYTE可以很容易地应用于现有的跟踪器,并实现一致的改进。我们还提出了一个强大的跟踪器ByteTrack,在MOT17测试集上实现了80.3 MOTA 77.3 IDF1和63.1 HOTA,帧数为30帧,在所有跟踪器排行榜上排名第一。ByteTrack对遮挡的鲁棒性很强,它具有准确的检测性能和关联低分检测框的帮助,同时也说明了如何更好地利用检测结果来增强多目标跟踪,我们希望ByteTrack的高精度、快速性和简洁性能使其在实际应用中具有吸引力。

猜您喜欢: