全球计算机视觉顶会CVPR(ConferenceonComputerVisionandPatternRecognition,即IEEE国际计算机视觉与模式识别会议)将于6月18日至22日在美国盐湖城举行。作为大会钻石赞助商,旷视科技Face++研究院也将在孙剑博士的带领下重磅出席此次盛会,本次旷视共有1篇spotlight论文,7篇poster论文,在雷锋网旗下学术频道AI科技评论旗下数据库项目「AI影响因子」中有突出表现。而在盛会召开之前,旷视将针对CVPR收录论文集中进行系列解读。本次第3篇主题是可优化解决人群密集遮挡问题的RepLoss。
论文链接:
目录
导语RepLoss设计思想密集遮挡的影响RepLoss计算方法吸引项排斥项(RepGT)排斥项(RepBox)RepLoss实验结果结论参考文献
导语
人群检测是计算机视觉技术发展不可绕过的关键一环,其中密集遮挡(crowdocclusion)问题是最具挑战性的问题之一。旷视科技Face++从技术底层的层面提出一种全新的人群检测定位模型RepulsionLoss(RepLoss),在相当程度上优化解决了这一难题。底层技术创新的适用范围异常广泛,这意味着绝大多数与人群检测相关的产品应用皆可实现不同程度的提升,从根本上推动安防监控、自动驾驶、无人零售、智慧城市的落地和发展。此外,人群定位技术RepLoss的检测对象并不仅限于人,还可迁移泛化至一般物体检测,其底层创新驱动力的波及范围十分广泛,有助于机器之眼打造一个人、物、字、车的检测矩阵,进一步看清楚、看明白这个世界。
RepLoss设计思想
检测人群之中的行人依然是一个充满挑战性的问题,因为在现实场景中行人经常聚集成群,相互遮挡。一般而言,物体遮挡问题可以分为类内遮挡和类间遮挡两种情况。类间遮挡产生于扎堆的同类物体,也被称为密集遮挡(crowdocclusion)。在行人检测中,密集遮挡在所有遮挡问题中占比最大,严重影响着行人检测器的性能。
密集遮挡的主要影响表现在显著增加了行人定位的难度。比如,当目标行人T被行人B遮挡之时,由于两者外观特征相似,检测器很可能无法进行定位。从而本应该框定T的边界框转而框定B,导致定位不准确。更糟糕的是,由于非极大值抑制(non-maximumsuppression/NMS)需要进一步处理主要的检测结果,从T移走的边界框可能会被B的预测框抑制,进而造成T漏检。即,人群遮挡使得检测器对NMS阈值很敏感:较高的阈值会带来更多的误检(falsepositives),较低的阈值则造成更多的漏检(misseddetection)。这会让大多数实例分割框架失效,因为它们也需要精确的检测结果。因此,如何精确地定位人群之中的每个行人是检测器最为关键的问题之一。
图1:RepLoss图示。
在当前最优的检测框架中,边界框回归技术常用来定位物体,其中回归器被训练用来缩小proposal和groundtruthbox之间的差距(通过一些距离度量进行测量,比如Smooth_L1或者IoU)。尽管如此,现有方法只需要proposal接近其指定目标,并不考虑周遭的物体。如图1所示,在标准的边界框回归损失中,当预测框移向周遭物体时,对其并没有额外的惩罚。这不免使人设想:如果要检测人群之中的一个目标,是否应该考虑其周遭物体的定位?
在磁极相互排斥吸引的启发下,本文提出一种全新的定位技术,称之为RepulsionLoss(RepLoss),通过它,每一个proposal不仅会靠近其指定目标T,还会远离其他groundtruth物体以及指定目标不是T的其他proposal。如图1所示,由于与周遭的非目标物体重叠,红色边界框移向B将受到额外的惩罚。因此,RepLoss可以有效防止预测边界框移向相邻的重叠物体,提升检测器在人群场景中的鲁棒性。
密集遮挡的影响
本节将借助实验探讨当前最优的行人检测器如何受到密集遮挡(crowdocclusion)的影响,更加深入地理解密集遮挡问题。密集遮挡主要会造成两个方面的问题,漏检和误检,下面会通过两个图示分别作出解释,其中基线检测器是针对行人检测优化的FasterR-CNN,并使用新型行人检测数据集CityPersons。
图3:基线与RepGT的错误检测分析。
图3(a)是不同检测分值下在reasonable-crowd子集上的漏检数量,红线表示基线的groundtruth行人漏检数量。在现实应用中,只考虑带有高置信度的预测边界框,曲线左端的高漏检量意味着离实际应用还很远。图3(b)表示由密集遮挡导致的误检占全部误检的比例,红线表明基线的这一比例大概在20%左右。如图3红、蓝线对比所示,RepGT损失分别有效降低了由密集遮挡造成的漏检和误检数量。
图4:错误检测的可视化实例。红框表示由密集遮挡引起的误检。
如图4所示,绿框是正确的预测边界框,而红框是由密集遮挡造成的误检,并给出了检测器的置信值。如果预测框轻微或显著移向相邻的非目标groundtruth物体(比如右上图),或者框定若干个彼此遮挡物体的重叠部分(比如右下图),则经常出现检测错误。此外,密集遮挡引起的检测错误通常有着较高的置信度,从而造成高排名的误检。这表明为提高检测器在密集场景中的鲁棒性,需要在执行边界框回归时有更具判别力的损失。下面是另一个可视化实例:
图9:基线与RepLoss的对比。蓝框表示误检,红框表示漏检。灰色虚线上、下两部分的第一行是基线的预测结果;第二行是添加RepLoss之后的预测结果。
通过分析错误检测表明,密集遮挡对行人检测器的影响令人吃惊,不仅是漏检的主要来源,还在增加定位难度的同时造成了更多的误检。正是为解决上述问题,提升行人检测器在密集场景中的鲁棒性,RepLoss被提了出来。
RepLoss计算方法
本节将详述如何计算RepLoss。受到磁石属性的启发,RepLoss包括3个组件,表示为:
其中L_Attr是吸引项,需要预测框靠近其指定目标;L_RepGT和L_RepBox是排斥项,分别需要预测框远离周遭其他的groundtruth物体和其他指定目标不同的预测框。系数α和β充当权重以平衡辅助损失。
为简明起见,下面仅考虑两类检测,假定所有的groundtruth物体属于同一类别。分别使P=(l_P,t_P,w_P,h_P)和G=(l_G,t_G,w_G,h_G)为proposal边界框和groundtruth边界框,并分别由它们的左上点坐标及其高度、宽度表示。P_+={P}是所有positiveproposal的集合(那些和至少一个groundtruthbox有高IoU的被视为正样本,反之为负样本);G={G}是一张图片中所有groudtruthbox的集合。
吸引项
本文沿用Smooth_L1构造吸引项。给定一个proposalP∈P_+,把具有极大值IoU的groundtruthbox作为其指定目标:G^P_Attr=argmax_G∈GIoU(G,P)。B^P是回归自proposalP的预测框。由此吸引损失可计算为:
排斥项(RepGT)
RepGT损失旨在使proposal受到相邻的非目标groundtruth物体的排斥。给定一个proposalP∈P_+,它的排斥groundtruth物体被定义为除了其指定目标之外带有最大IoU区域的groundtruth物体。受IoU损失的启发,RepGT损失被计算以惩罚B^P和G^P_Rep之间的重叠(由IoG定义)。IoG(B,G)∈[0,1],从而RepGT损失可写为:
其中Smooth_ln是一个在区间(0,1)连续可微分的平滑ln函数,σ∈[0,1)是调节RepLoss对异常值的敏感度的平滑参数。由此可见,proposal越倾向于与非目标groundtruth物体重叠,RepGT损失对边界框回归器的惩罚就越大,从而有效防止边界框移向相邻的非目标物体。
排斥项(RepBox)
NMS是绝大多数检测框架中不可或缺的后处理步骤,为降低检测器对NMS的敏感度,作者接着提出RepBox损失,意在排斥来自不同指定目标的proposal。RepBox损失可计算为:
从上式可以看到,为最小化RepBox损失,指定目标不同的两个预测框之间的IoU区域需要较小。这意味着RepBox损失可以降低NMS之后不同回归目标的边界框合并为一的概率,使得检测器在密集场景中更鲁棒。
RepLoss实验结果
本节将直接给出RepLoss在数据集CityPersons和Caltech-USA上的评估结果,包括在CityPersons上分别评估和分析RepGT损失和RepBox损失;在CityPersons和Caltech-USA上把RepLoss与当前最优的方法相对比。实验设置和实现细节从略,了解更多请参见原论文。
表3:在CityPersons上评估的RepLoss行人检测结果。模型在训练集上训练,并在验证集上测试。ResNet-50是backbone。最佳的3个结果分别标为红、蓝、绿色。
表4:在新注释中评估的Calech-USA测试集(reasonable)结果。在0.5IoU阈值下,作者进一步在强基线上把当前最优推进到显著的4.0MR^2。当把IoU阈值增至0.75,持续的涨点证明了RepLoss的有效性。
图7:在基线和RepBox的NMS之前的预测框可视化对比。RepBox结果中两个相邻的groundtruth之间的预测较少,模型输出的边界框的分布更加明晰。
图10:更多的CityPersons数据集检测实例。绿框中是预测的行人,其分值([0,1.0])大于0.8。
结论
RepLoss专为行人检测精心设计,尤其提升了密集场景的检测性能,其主要想法在于目标物体的吸引损失并不足以训练最优的检测器,来自周遭物体的排斥损失同样至关重要。
为充分发挥排斥损失的潜能,本文提出RepGT和RepBox,并在流行数据集CityPersons和Caltech-USA上取得了当前最优水平。特别是,本文结果在未使用像素注释的情况下优于使用像素注释的先前最佳结果大约2%。详细的实验结果对比证实了RepLoss在大幅提升遮挡场景下检测精度方面的价值,并且一般的物体检测(PASCALVOC)结果进一步表明了其有效性。作者希望RepLoss在诸多其他物体检测任务中也有更为广泛的应用。
参考文献
[1]Dollar,C.Wojek,B.Schiele,andP.Perona.Pedestriandetection:Abenchmark.InIEEEComputerVisionandPatternRecognition,.
[2]K.He,X.Zhang,S.Ren,andJ.Sun.Deepresiduallearningforimagerecognition.InIEEEConferenceonComputerVisionandPatternRecognition,.
[3]J.Mao,T.Xiao,Y.Jiang,andZ.Cao.Whatcanhelppedestriandetection?InIEEEConferenceonComputerVisionandPatternRecognition,.
[4]S.Ren,K.He,R.Girshick,andJ.Sun.Fasterr-cnn
owardsreal-timeobjectdetectionwithregionproposalnetworks.InNIPS,.
[5]J.Yu,Y.Jiang,Z.Wang,Z.Cao,andT.Huang.Unitbox:Anadvancedobjectdetectionnetwork.InProceedingsoftheACMonMultimediaConference.
[6]S.Zhang,R.Benenson,andB.Schiele.Citypersons:Adiversedatasetforpedestriandetection.InIEEEConferenceonComputerVisionandPatternRecognition,.