基于MaskR-CNN的图像分割

lijingle 目标检测 2021-10-25 19:23 1630人围观

在前一篇文章中，我们讨论了使用基于区域的目标检测，如Faster R-CNN来检测目标。图像分割不是创建边界框，而是将属于同一对象的像素分组。在本文中，我们将讨论如何容易地进行高精度的图像分割，主要是建立在Faster R-CNN之上。

Faster R-CNN
我们快速回顾下Faster R-CNN

Faster R-CNN使用CNN特征提取器来提取图像特征.然后利用CNN区域提案网络创建感兴趣区域(ROIS)。我们应用ROI pool 将它们转化成固定的维度。然后将其输入到fully connected layers 中，进行分类和边界框预测。

feature_maps = process(image)

ROIs = region_proposal(feature_maps)

for ROI in ROIs

        patch = roi_pooling(feature_maps, ROI)

        results = detector2(patch)

如果您需要进一步的介绍，请参考本文。

Mask R-CNN
Faster R-CNN为特征提取和ROI提案构建了所有的基础。执行图像分割可能需要更详细的分析，以使图像片段着色。惊喜的是，我们不仅可以依靠这种模式，所需的额外工作也相当简单。在ROI pool 之后，我们再增加2个卷积层来构建mask。

两个卷积层，以建立mask

Mask R-CNN的文件提供了另外一个变体(在右边)，在建立这样的Mask。但这个想法很简单。

ROI Align
MASKR-CNN的另一个主要贡献是改进ROI pool .在ROI中，变现是数字化的(下面的左上角图)：目标特征映射的单元格边界被迫与输入特征映射的边界重新对齐。因此，每个目标单元格的大小可能不相同(左下角图)。Mask R-CNN使用ROI对齐，它不会数字化单元格的边界(右上)，并使每个目标单元格具有相同的大小(右下角)。它还采用插值方法，更好地计算了单元内的特征映射值。例如，通过应用插值，左上角的最大特征值现在从0.8更改为0.88。