．用 TensorFlow 實現物體檢測的像素級分類

TensorFlow in 5 Minutes

康橋科技 —— 白光攝影機專業廠商！

leiphone 作者：图普科技

本文由「圖普科技」編譯自Using Tensorflow Object Detection to Do Pixel Wise Classification。

最近，TensorFlow 的「物體檢測 API」有了一個新功能，它能根據目標對象的像素位置，來確定該對象的像素。換句話來說，TensorFlow 的物體檢測，從原來的圖像級別，成功上升到了像素級別。

使用 TensorFlow 的「物體檢測 API」圖片中的物體進行辨識，最後的結果是圖片中一個個，將不同物體框起來的方框。最近，這個「物體檢測 API」有了一個新功能，它能根據目標對象的像素位置，確定該對象的像素，實現物體的像素分類。

TensorFlow 的物體檢測 API 模型——Mask-RCNN

分割

「實例分割」是物體檢測的延伸，它能讓我們在普通的物體檢測的基礎上，獲取關於該對象更加精確、全面的資訊。

在什麼情況下，我們才需要這樣精確的資訊呢？

無人駕駛汽車為了確保安全，無人駕駛汽車需要精確定位，道路上其他車輛和行人。

機器人系統機器人在連接兩個部件時，如果知道這兩個部件的確切位置，那麼機器人的操作就會更加高效、準確。

「實例分割」的方法有很多，TensorFlow 進行「實例分割」使用的是 Mask RCNN 算法。

Mask R-CNN 算法概述

Mask RCNN 算法架構

在介紹 Mask RCNN 之前，我們先來認識一下 Faster R-CNN。

Faster-RCNN 是一個用於物體檢測的算法，它被分為兩個階段：第一階段被稱為「候選區域生成網路」（RPN），即生成候選物體的邊框；第二階段本質上是 Fast R-CNN 算法，即利用 RolPool 從每個候選邊框獲取對象特徵，並執行分類和邊框回歸。這兩個階段所使用的特徵可以共享，以更快地獲得圖像推算結果。

Faster R-CNN 對每個候選對象都有兩個輸出，一個是分類標籤，另一個是對象邊框。而 Mask-RCNN 就是在 Faster R-CNN 的兩個輸出的基礎上，添加一個掩碼的輸出，該掩碼是一個表示，對象在邊框中像素的二元掩碼。

但是這個新添加的掩碼輸出，與原來的分類和邊框輸出不同，它需要物體更加精細的空間佈局和位置資訊。因此，Mask R-CNN 需要使用「全卷積神經網路」（FCN）。