DenseASPP for Semantic Segmentation in Street Scenes

05 December 2018

Authors: Maoke Yang, Kun Yu, Chi Zhang, Zhiwei Li, Kuiyuan Yang. DeepMotion

Abstrack: Semantic image segmentation is a basic street scene understanding task in autonomous driving, where each pixel in a high resolution image is categorized into a set of semantic labels. Unlike other scenarios, objects in autonomous driving scene exhibit very large scale changes, which poses great challenges for high-level feature representation in a sence that multi-scale information must be correctly encoded. To remedy this problem, atrous convolution was introduced to generate features with larger receptive fields without sacrificing spatial resolution. Built upon atrous convolution, Atrous Spatial Pyramid Pooling (ASPP) was proposed to concatenate multiple atrous-convolved features using different dilation rates into a final feature representation. Although ASPP is able to generate multi-scale features, we argue the feature resolution in the scale-axis is not enough for the autonomous driving scenario. To this end, we propose Densely connected Atrous Spatial Pyramid Pooling(DenseASPP), which connects a set of atrous convolution layers in a dense way, such that it generates multi-scale features that not only cover a larger scale range, but also cover that scale range densely, without significantly increasing the model size. We evaluate DenseASPP on the street scene benchmark Cityscapes and achieve state-of-the-art performance.

摘要: 语义图像分割是自动驾驶中基本的道路场景理解任务,将高分辨率中的每个像素归类为一组语义标签。不同于其他场景,自动驾驶场景中的对象呈现出非常大规模的变化,这给多尺度信息必须正确编码的场景中的高层特征表示带来了巨大的挑战。为了解决这个问题,引入了空洞卷积来生成具有较大感受野的特征,而不牺牲空间分辨率。基于空洞卷积,提出了空洞空间金字塔池化,它使用不同的dilation rates将多个空洞卷积的特征连接成最终的特征表示。虽然ASPP能够生成多尺度特征,但我们认为尺度-轴的图像分辨率对于自动驾驶是不够的。为此,我们提出了Densely connected Atrous Spatial Pyramid Pooling(DenseASPP),它以一种密集的方式连接了一组空洞卷积,使得它能够生成多尺度特征,不仅覆盖更多的尺度范围,而且密集地覆盖这个尺度范围,而不会显著地增加模型大小。我们在街景基准CityScapes上评估DenseASPP,实现了最先进的性能。

高级语义信息对分割网络实现好的性能至关重要。为了提取高级信息,FCN使用很多pooling layers来增加输出神经元感受野的大小。然而pooling层数量的增加导致了特征图尺寸的减小,这将给分割输出上采样回全分辨率带来了严重的挑战。

空洞卷积被提出来解决更大的feature map分辨率和更大的感受野之间的矛盾。相比于传统的卷积,空洞卷积能够获得相同尺寸的输出,而同时实现一个更大的感受野。

空洞卷积只能利用一个尺度的特征来产生feature map。然而,经验表明,多尺度信息有助于解决模棱两可(模糊)的情况,并产生更稳健的分类。为此,ASPP提出以不同rate空洞卷积产生的feature maps连接起来,使得输出feature map中的神经元可以包含多个感受野大小,从而编码多尺度信息,并最终提高性能。

但是当空洞卷积中的rate > 24时, 卷积卷积效果越来越不明显。为了解决更大尺度的特征提取问题,提出了Dense Atrous Spatial Pyramid Pooling(DenseASPP)。

DenseASPP包括一个基本网络和级联的Atrous卷积层。It uses dense connections to feed the output of each atrous convolution layer to all unvisited atrous convolution layers ahead, See Fig.2. 根据图来理解,大意应该是每个空洞卷积层的输出与之后的每个空洞卷积层相连接。

这篇论文的主要贡献有以下两点:

  • DenseASPP能够产生更大尺度范围的特征(从感受野大小的角度考虑)
  • DenseASPP能够以一种更密集的方式来产生覆盖(cover)上述范围的特征。

下面主要分析DenseASPP能够发挥这么大作用的原因。

  • Larger receptive field

    ASPP模型中最大的感受野

    Rmax = max[R3,3, R3,6, R3,12, R3,18, R3,24]

    = R3,24

    = 49

    DenseASPP模型中最大的感受野

    Rmax = R3,3 + R3,6 + R3,12 + R3,18 + R3,24 - 4

    = 7 + 13 + 25 + 37 + 49 - 4

    = 82 + 49 - 4

    = 131 - 4

    = 127

  • Denser feature pyramid

    这里的”denser”指的是不仅包含更多尺度的特征,而且包含更多的像素点。

    • Denser scale samping

      对于 dilation rate =d,kernel size = K 的空洞卷积层,感受野为

      R = (d - 1) * (K - 1) + K

      将两个卷积层叠加在一起可以得到更大的感受野。假设两个卷积层,卷积核大小分别为K1和K2,新的感受野是

      K = K1 + K2

      因此,由DenseASPP我们可以得到特征金字塔,如Fig.3.

      因此,我们可以得到更多尺度的feature map。

    • Denser pixel samping

      这里通过一个图来理解,如Figure 4.

      传统的 K = 3,d = 6 的空洞卷积,只有9个像素参与贡献卷积;DenseASPP模型中的K = 3, d = 6D 的空洞卷积将有49个像素参与贡献卷积。

为了控制模型的大小,防止模型的feature map太多,我们在DenseASPP中的每一个dilated layer添加一个1*1的卷积,把feature map的depth减半。

输入的feature map大小为c0每一个空洞卷积的feature map数减半为c0 / 2,1 * 1卷积后变为 n = c0 / 8.

每一层的输入为

cl = c0 + (l - 1)*c0

所以共需要参数