C-WSL: Count-guided Weakly Supervised Localization讲解

地址：https://arxiv.org/abs/1711.05282
主要思想：引入每一类的目标计数信息来辅助弱监督定位。提出了一个基于计数的区域选择算法，并且作者把这个算法嵌入到两个检测器训练方法中，一个是离线的交替训练，一个是在线训练。

出发点：现在弱监督目标定位的方法都存在一个未解决的问题：检测结果倾向于包含多个目标。所以作者引入每一类目标计数信息来监督检测器的训练。并且目标计数也是图像级的监督信息。

1方法：方法部分主要就是作者提出的基于计数的区域选择算法（CRS）。

1.1基于计数的区域选择算法

可以从图2中看出，没有计数信息，我们一般都倾向于选择最大分框作为正训练样本调节网络。

先给出公式吧。
$\mathbf{G}^*=arg\underset{\mathbf{G}}{max}\sum_{b_k \in \mathbf{G}}p_k, s.t. \; |\mathbf{G}|=C, a_o(b_i,b_j)<T \; \forall b_i,b_j \in \mathbf{G},i\neq j.$
其中 $b_i,bj$ 是一个框的集合 $B={b_1,...,b_N}$ 中的元素， $P={p_1,...,p_N}$ 是对应的打分， $C$ 是每一类的目标计数。可以从公式中看出 $\mathbf{G}$ 是 $B$ 的子集，并且 $\mathbf{G}$ 中的框的个数等于 $C$ 。
$a_o(b_i,b_j)=\frac{area(b_i\bigcap b_j)}{area(b_j)}$ 是子集 $\mathbf{G}$ 中框的限制条件。

既然存在子图，那肯定有原有图呀，作者把 $B$ 中每一个框当作一个节点，根据他们之间空间交叠情况（根据公式可以看出是小于阈值 $T$ ）来判断是否连接。

下面给出算法流程图

可以看出公式 $a_o$ 中的 $b_i$ 是先选到子图中的，那么根据阈值 $T$ 的限制，算法就不会把包含在 $b_i$ 中的框选取出来。

1.2 把CRS嵌入到两种检测器训练方式中

可以看出检测器的训练方式有两种：(1)交替训练：用检测器选取pseudo-gt，然后再训练自身(2)在线调节：网络有多个输出流，每一个流由前一个提供pseudo-gt

1.2.1 检测器的交替训练方法（ADR）

这里作者使用Fast R-CNN作为检测器，初始化阶段作者通过一个预训练好的弱监督检测器来生成pseudo-gt，然后交替训练Fast R-CNN，先训练然后由网络本身生成pseduo-gt。

1.2.2 在线训练（ODR）

交替训练存在两点：(1)交替训练比较费时间(2)这样把选取pseudo-gt和网络训练分开会阻碍图像特征的共享

所以就有了这种在线的方式。其实看图应该很好理解，就不多说了。

2实验

还是认真分析一下。
C-WSL：WSLPDA/OICR + ADR表示WSLPDA/OICR作为预训练弱监督检测器
C-WSL:ODR+FRCNN表示使用C-WSL:ODR训练好的网络然后选择最高分框作为pseudo-gt重新训练。
C-WSL*表示模型训练有计数信息

下面作者分析了标注时间和检测精度
这里作者以VOC2007为例，说明了每张图中每一类中的没一个目标的注释时间是0.9s。每张图中每个类别注释时间是1.5s_{1.9s(这是图像级的类别标签)，然后每张图中每一类的目标计数需要1.48s，相当于比类别标签多了1.48/1.5}1.48/1.9（78%~99%）的时间。

可是由于图像中的目标数量太多，那么标注时间就会相应增加。可是在复杂场景下标注所有目标是不太有帮助的，因为目标遮挡或者太小。所以作者就做实验分析最多标注多少个目标性能最好呢？