在前一篇文章中,我们讨论了使用基于区域的目标检测,如Faster R-CNN来检测目标。图像分割不是创建边界框,而是将属于同一对象的像素分组。在本文中,我们将讨论如何容易地进行高精度的图像分割,主要是建立在Faster R-CNN之上。 Faster R-CNN 我们快速回顾下Faster R-CNN Faster R-CNN使用CNN特征提取器来提取图像特征.然后利用CNN区域提案网络创建感兴趣区域(ROIS)。我们应用ROI pool 将它们转化成固定的维度。然后将其输入到fully connected layers 中,进行分类和边界框预测。
Mask R-CNN Faster R-CNN为特征提取和ROI提案构建了所有的基础。执行图像分割可能需要更详细的分析,以使图像片段着色。惊喜的是,我们不仅可以依靠这种模式,所需的额外工作也相当简单。在ROI pool 之后,我们再增加2个卷积层来构建mask。 两个卷积层,以建立mask Mask R-CNN的文件提供了另外一个变体(在右边),在建立这样的Mask。但这个想法很简单。 ROI Align MASKR-CNN的另一个主要贡献是改进ROI pool .在ROI中,变现是数字化的(下面的左上角图):目标特征映射的单元格边界被迫与输入特征映射的边界重新对齐。因此,每个目标单元格的大小可能不相同(左下角图)。Mask R-CNN使用ROI对齐,它不会数字化单元格的边界(右上),并使每个目标单元格具有相同的大小(右下角)。它还采用插值方法,更好地计算了单元内的特征映射值。例如,通过应用插值,左上角的最大特征值现在从0.8更改为0.88。 ROI Align 在精度上有很大的提高。 MASK R-CNN可视化 让我们想象一下Mask R-CNN/Faster R-CNN的一些主要步骤。利用 region proposal 网络,提出ROI方案。下面的虚线矩形是那些建议,但为了演示的目的,我们决定只显示那些有较高的最终scores ROIS(改进前) 这里是边界框细化后的框,当我们进行最终的分类和定位预测时。边界框更好地覆盖地面真实物体。 改进后的边框。 就像Faster R-CNN一样,它根据RPN中的Rois(虚线)进行对象分类.在最后的预测中,实线是边界框的精化。 用ROIS分类(虚线)。最终改进(实线)。 非极大值抑制(nms) 它对同一类的高度重叠的框进行分组,并仅选择最可靠的预测。这样就避免了同一对象的重复。 在NMS之后。实线是精致的边框。 这里是我们的最高最终分类和边界框预测,从Faster R-CNN部分。 顶部边界盒预测 以下是RPN使用的输入图片和一些特征映射。第一个特征图显示了汽车排队的高度activations 。 RPN的一些特征映射 一些边框的角点: 以及锚的偏移量的分布: 这是Mask R-CNN的最后预测。 |