YOLOv2

YOLO9000

paper
code

摘要

Better

​ YOLO有很多缺点,比如定位错误很严重;比如和region-besed的方法相比,召回率很低。因此,本文着重于在保证分类准确率的前提下,提高召回率和定位准确性。

​ 本文做出的一些改进见table2:

Batch Normalization

  1. 在每个卷积层后面加了BN层之后,模型收敛速度有了很大提升,就不需要别的正则化方法了;可以regularize 模型;
  2. 可以去掉了YOLO1中使用的dropout方法,模型也不会过拟合。

效果:mAP提升了2%

High Resolution Classifier

​ YOLO1训练的时候图片尺寸是$224\times 224$,测试时是$448\times 448$, YOLOv2中,我们在前10epoch中使用$448\times 448$的图片在ImageNet上fine tune,以便使得网络能够适应更高分辨率的输入。

效果:mAP提升了4%.

Convolutional With Anchor Boxes

​ YOLO直接使用卷积网络顶层的全连接层直接预测bounding box的坐标。

​ Faster RCNN使用手选的先验来预测bounding box。RPN中全部是卷积层,预测anchor box的偏移和置信度。因为预测层是卷积层,因此RPN预测了特征图中每个位置的offset.预测offset也使网络比直接预测坐标更容易学习。

​ YOLOv2中,移除了全连接层并且使用anchor box来预测边界框。

  1. 首先,去掉了一个池化层来使得网络卷积层的输出具有更高的分辨率。

  2. 其次,调整网络输入为$416\times 416$,使得最后的feature map的宽高都为奇数,这样就只会产生一个center cell。原因是:大的物体一般都会占据图像的中心,这样在预测时就可以只使用中心cell,而不用周围的四个cell来预测,提高了效率。使用卷积层降采样,factor为32,这样最终得到($13\times 13$)的输出特征图。

  3. 另外,使用anchor box之后,可以解耦类别预测和空间定位,由anchor box同时预测类别和坐标。

如下图,YOLOv1中输出的$7\times 7\times 30$的特征,每个cell对于$1\times1\times30$,前10个是2个bounding box的坐标和confidence,后20个是表示假设该cell包含物体的情况下属于20个类别概率。

YOLOv2中,对每个anchor box都预测类别概率,也就是解耦合。

效果

​ YOLOv1预测的box数目:$7\times7\times2=98$个,YOLOv2预测的box数目:$13\times13\times9>1000$个。准确率略微下降,当时召回率提升很多,说明还有很大改进空间。


使用anchor box会有两个问题,一个是anchor box 的维度需要手动选择,另一个是模型的不稳定性。下面分别叙述解决方法。


Dimension Cluster

源起:使用anchor时,需要手动选择box的维度(个数,宽,高)。设想能否一开始就选择了更好的、更有代表性的先验boxes维度,那么网络就应该更容易学到准确的预测位置。

解决办法:就是统计学习中的K-means聚类方法,通过对数据集中的ground truth box做聚类,找到ground truth box的统计规律。以聚类个数k为anchor boxs个数,以k个聚类中心box的宽高维度为anchor box的维度。

距离度量: 没有使用欧几里得距离,因为这样会使得大的box产生更多的error。我们的目的是使得先验获得绝佳的IOU分数,也就是不依赖于box的尺寸。
$$
d(box,centroid) = 1-IOU(box,centroid)
$$

​ 随着k增大,IOU也增大,(高召回率),但是模型复杂度也在增大,最后这种取了$k=5$,上面右图中,$k=5$的聚类中心与手动选取的boxes是完全不一样的,扁长的框少,瘦高的框多.

效果:

Direct Location Prediction

bounding box regression

​ 首先,我们回顾一下RCNN中介绍的Bounding box regression的方法。DPM中首先引入了边界框回归,但是他是基于几何特征,而RCNN是基于CNN特征。

​ 输入是一组数据${(P^i,G^i)}_{i=1,……,N}$,其中$P^i=(P^i_x,P^i_y,P^i_w,P^i_h)$,表示$P^i$ proposal边界框的中心坐标和宽高。$G$表示ground truth的边界框,$G=(G_x,G_y,G_w,G_h)$,现在需要求得一个变换将proposal box $P$映射到groundtruth $G$.

我们将这个变换参数化成四个函数:$d_x(P),d_y(P),d_w(P),d_h(P)$,前两个表示bouding box $P$中心坐标的尺寸不变的平移变换。后两个是bounding box的宽高的对数域的变换。通过学习这些变换,可以将一个输入的proposal变换成一个预测的groundtruth box $\hat{G}$:
$$
\hat{G}_x = P_wd_x(P)+P_x \qquad(1)\\hat{G}_y=P_hd_y(P)+P_y\qquad(2)\\hat{G}_w=P_wexp(d_w(P))\qquad(3)\\hat{G}_h=P_hexp(d_h(P))\qquad(4)
$$
假设$d(P)$这四个变换都是由proposal $P$的第五个池化层特征得到的线性函数,标记为$\phi _5(P)$,因此我们有$d(P)=\textbf{w}^T\phi_5(P)$,其中$\textbf{w}_T$表示学习的参数向量。

优化方法使用加入正则项的最小平方损失。
$$
\textbf{w}*=argmin{\hat{\textbf{w}*}}\sum_i^N=(t^i-\hat{\textbf{w}}_^T\phi_5(P^i))^2+\lambda ||\hat{\textbf{w}}||^2\qquad(5)
$$
回归的目标$t_*$定义如下:
$$
t_x=(G_x-P_x)/P_w\qquad(6)\t_y=(G_y-P_Y)/P_h\qquad(7)\t_w=log(G_w/P_w)\qquad(8)\t_h=log(G_h/P_h)\qquad(9)
$$
回归过程有两点需要注意:

  1. 正则化项很重要,$\lambda=1000$.
  2. $P$必须在$G$附近才有意义。因此我们把与$G$有着最大IOU值的proposal当成是其附近的proposal,并且小于0.6IOU的都被丢弃了。

YOLOv2的bounding box 回归

源起:在网络迭代初期,模型不稳定,主要来源于预测boxd的$(x,y)$位置时。Faster rcnn在预测anchor时使用的公式如下:

其中:$x$表示坐标预测值,$x_a$表示anchor坐标(预设的固定值),$x^*$表示真实坐标。

即预测的中心坐标$(x,y)$计算如下:
$$
x=(t_xw_a)-x_a\y=(t_yh_a)-y_a
$$
(注意,应该是加号)

当预测$t_x=1$时,就会把box王右边移动(具体为anchor box的宽度);当$t_x=-1$时,就会往左边移动。因此,论文中说,这个公式没有任何限制,无论在什么位置预测,预测的anchor box都可以在图像中任意位置(由于$t_x$没有数值限制,可能会出现anchor检测到很远的目标box的情况,效率低下)。模型初期初始化后,需要很长的时间才能稳定预测敏感的物体位置。

​ 因此,作者没有直接使用offset方法,而是预测了相对于grid cell的坐标位置的方法,且把ground truth限制在0-1之间,利用sigmod函数实现这一限制。网络在输出特征图上的0每个cell处预测了5个bounding box,每个bounding box有5个参数:$t_x,t_y,t_w,t_h,t_o$.假设该cell离图片左上角的cell相差$(c_x,c_y)$,并且bounding box的先验宽高为$(p_w,p_h)$,那么对应的预测如下图:

​ $t_x,t_y$经过sigmod函数被约束到了0-1之间,实际意义就是使得anchor负责其周围的box,约束了位置预测的范围后,参数更容易学习,模型也更稳定。

效果:结合dimension cluster和direct location,mAP提升了5%。

Fine-Grained Features

修改了的YOLO在$13\times13$的特征图上做预测,对大目标检测足够,对小目标不够。因此仿照SSD在多个特征图上得到不同的分辨率,我们也加上一个旁路,把之前$26\times26$分辨率的特征图引入,把$26\times26\times512$特征图变成$13\times13\times2048$的,拼接特征到不同的通道,而不是不同的空间位置上,就像ResNet的identity mapping一样。

效果:mAP提升了1%

Multi-Scale Training

网络只用到了卷积和池化层,因此可以检测任意大小的图片。不同于固定输入网络的图片尺寸的方法,每经过10次训练(10 epoch),就会随机选择新的图片尺寸。YOLO网络使用的降采样参数为32,那么就使用32的倍数进行尺度池化{320,352,…,608}。最终最小的尺寸为320 * 320,最大的尺寸为608 * 608。接着按照输入尺寸调整网络进行训练。

​ 这种机制使得网络可以更好地预测不同尺寸的图片,意味着同一个网络可以进行不同分辨率的检测任务,在小尺寸图片上YOLOv2运行更快,在速度和精度上达到了平衡。

Faster

Darknet19

VGG16对于$224\times224$输入的图片需要30.69billion的浮点数运算,而YOLOv1框架只需要8.52billion次浮点数运算,且在ImageNet上的分类精度只下降了一点点(88.0%vs90.0%)。

  1. 主要使用$3\times3$的滤波器,在池化步骤之后加倍滤波器的通道数。
  2. 使用全局平均池化来预测,并且在$3\times3$的滤波器之间使用$1\times1$的滤波器来压缩特征表达。
  3. 使用BN层来使训练稳定,加速收敛,正则化模型。

最后的DarkNet19有19个卷积层,5个最大池化层。Darknet-19运算次数为55.8亿次,imagenet图片分类top-1准确率72.9%,top-5准确率91.2%。

训练:

Stronger