地址:https://arxiv.org/abs/1711.05282
主要思想:引入每一类的目标计数信息来辅助弱监督定位。提出了一个基于计数的区域选择算法,并且作者把这个算法嵌入到两个检测器训练方法中,一个是离线的交替训练,一个是在线训练。
出发点:现在弱监督目标定位的方法都存在一个未解决的问题:检测结果倾向于包含多个目标。所以作者引入每一类目标计数信息来监督检测器的训练。并且目标计数也是图像级的监督信息。
1方法:方法部分主要就是作者提出的基于计数的区域选择算法(CRS)。
1.1基于计数的区域选择算法

可以从图2中看出,没有计数信息,我们一般都倾向于选择最大分框作为正训练样本调节网络。
先给出公式吧。
其中是一个框的集合
中的元素,
是对应的打分,
是每一类的目标计数。可以从公式中看出
是
的子集,并且
中的框的个数等于
。
是子集
中框的限制条件。
既然存在子图,那肯定有原有图呀,作者把中每一个框当作一个节点,根据他们之间空间交叠情况(根据公式可以看出是小于阈值
)来判断是否连接。
下面给出算法流程图

可以看出公式中的
是先选到子图中的,那么根据阈值
的限制,算法就不会把包含在
中的框选取出来。
1.2 把CRS嵌入到两种检测器训练方式中

可以看出检测器的训练方式有两种:(1)交替训练:用检测器选取pseudo-gt,然后再训练自身(2)在线调节:网络有多个输出流,每一个流由前一个提供pseudo-gt
1.2.1 检测器的交替训练方法(ADR)
这里作者使用Fast R-CNN作为检测器,初始化阶段作者通过一个预训练好的弱监督检测器来生成pseudo-gt,然后交替训练Fast R-CNN,先训练然后由网络本身生成pseduo-gt。
1.2.2 在线训练(ODR)
交替训练存在两点:(1)交替训练比较费时间(2)这样把选取pseudo-gt和网络训练分开会阻碍图像特征的共享
所以就有了这种在线的方式。其实看图应该很好理解,就不多说了。
2实验
还是认真分析一下。
C-WSL:WSLPDA/OICR + ADR表示WSLPDA/OICR作为预训练弱监督检测器
C-WSL:ODR+FRCNN表示使用C-WSL:ODR训练好的网络然后选择最高分框作为pseudo-gt重新训练。
C-WSL*表示模型训练有计数信息
下面作者分析了标注时间和检测精度
这里作者以VOC2007为例,说明了每张图中每一类中的没一个目标的注释时间是0.9s。每张图中每个类别注释时间是1.5s1.9s(这是图像级的类别标签),然后每张图中每一类的目标计数需要1.48s,相当于比类别标签多了1.48/1.51.48/1.9(78%~99%)的时间。
可是由于图像中的目标数量太多,那么标注时间就会相应增加。可是在复杂场景下标注所有目标是不太有帮助的,因为目标遮挡或者太小。所以作者就做实验分析最多标注多少个目标性能最好呢?

如图可以看出当K=3时后面性能就开始下降了,此时每一张图片每一类标注时间是1.2s。
并且作者也给出了其他标注信息对应的时间和性能。

可以看出其他注释是需要给注释者进行训练并且对他们的注释结果进行检查的,而计数是不需要定位信息的,所以并不需要对注释者训练的。
与state-of-the-art比较这里就不做说明了。
下面主要说明一下:作者在目标计数上对定位多个目标的分析。
作者通过分析每一类中包含超过一个目标的图像比例。

比如在测试集中站比高的那几类(sheep,person,...,bottle)然后对比这几类性能的增长。然后给出一下结果图。
并且作者也在消融实验的时候,把测试集按目标数量分开,然后在没一个子集合上测试。

可以发现数量越多,作者的方法性能越高。