Laser Detection in a Radar Detector?

Nx Witness v3.0 - 雲端影像平台解決方案 —

leiphone 作者：周彦武

按：本文為作者系佐思產研研究總監周彥武。

一直以來，蘋果都以其追求完美的文化，和極度保密的風格著稱。雖然外界一直努力捕風捉影，但蘋果很少對外披露自動駕駛研發的進展或動態。

不過在去年11月，蘋果發表了一篇名為VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection 的論文。

在這篇論文中，蘋果將神經網路命名為 VoxelNet，蘋果透過雷射雷達點雲，訓練它執行目標辨識任務。論文表明：蘋果正在打造一種自動駕駛新方法，透過一個名為「VoxelNet」的全新系統，幫助電腦更準確地辨識三維物體。

其透過雷射雷達傳感器讀取數據，讓自動駕駛汽車理解，其他汽車、自行車和行人的精確地理位置。該項研究不僅表明，蘋果的自動駕駛汽車研究的確屬實，也顯示了蘋果正在與雷射雷達相關公司進行合作。

透過雷射雷達研究物體辨識的並不只有蘋果。

2016年，百度發表了一篇名為 Vehicle Detection from 3D Lidar Using Fully Convolutional Network 的論文。在更早的2015年，百度發表過一篇3D Fully Convolutional Network for Vehicle Detection in Point Cloud 的論文。此外，清華與百度還有一篇論文：Multi-View 3D Object Detection Network for Autonomous Driving。

2015年9月，卡梅隆大學機器人學院的Daniel Maturana 和Sebastian Scherer發表了VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition 一文。

2017年10月德國弗賴堡大學機器視覺系發表了Orientation-boosted Voxel Nets for 3D Object Recognition。歐洲機器視覺權威瑞士蘇黎世理工學院則有SEMANTIC3D.NET: A NEW LARGE-SCALE POINT CLOUD CLASSIFICATION BENCHMARK。

上述論文都是對雷射雷達物體辨識的研究。

雷射雷達物體辨識最大的優點，是可以完全排除光線的干擾，無論白天還是黑夜，無論是樹影斑駁的林蔭道，還是光線急劇變化的隧道出口，都沒有問題。

其次，雷射雷達可以輕易獲得深度訊息，而對攝影機系統來說這非常困難。再次，雷射雷達的有效距離遠在攝影機之上，更遠的有效距離，等於加大了安全係數。最後，雷射雷達也可以辨識顏色和車道線。

實際上，雷射雷達與攝影機沒有本質區別，其最大區別除了雷射雷達是主動發射雷射，是主動傳感器外，只是光電接收二極管不同，攝影機可以做到的，雷射雷達都能夠做到，只是目前雷射雷達的點雲密集度，還不能和300萬像素級攝影機比。

對與固態雷射雷達來說，絕大部分固態雷射雷達，都是提供3D圖像的，與其說是雷射雷達，不如說是3D圖像傳感器更為合適。

在清華大學與百度的論文 Multi-View 3D Object Detection Network for Autonomous Driving（2016年11月）中，使用的便是攝影機和雷射雷達數據融合，做物體探測與辨識。

但蘋果認為這種做法沒有提升，反而帶來很多麻煩。因為攝影機需要時間同步，和與雷射雷達做聯合空間標定，攝影機有效距離有限，性能與距離關聯密切。兩者在中遠距離上難以融合，在近距離效果會略好。

與攝影機用像素（Pixel）這個詞一樣，雷射雷達是3D的，因此有Voxel（體素）這個詞。Pixel是二維電腦圖像的最小單位，Voxel則是三維數據在三維空間分割上的最小單位，很早就應用於三維成像、醫學影像（比如CT）等領域。

對物體辨識是機器理解人類社會環境的基本能力，人類文明主要是用文字和語言承載的，這是一種完全社會化的概念，因此不得不採用人類的學習方式，也就是深度學習。

雷射雷達可以用回波寬度，或反射強度訊息，輕易辨識某一類物體，如車道線，草地，建築物，道路，樹木，並且是物理辨識，而不是攝影機那樣的，根據數學機率算法得出的辨識，物理辨識的準確度遠高於機率推算。

但要具體辨識，比如物理方式，雷射雷達只能辨識出行人，具體是成年人、老人、小孩還是嬰兒就無能為力。再比如，路邊的交通標識，雷射雷達只能知道是一塊金屬牌或塑料牌，但是是牌子什麼內容就不知道了，這時深度學習就可以派上用場。

深度學習通俗的理解，就像人類訓練動物，比如教狗與你握手（爪），狗做對了，就給一點食物獎勵或者撫摸獎勵，這就是一種強化學習的機制。假如狗沒做對，就會挨批。這就像神經網路的訓練過程，辨識正確就增加這部分的權重值（食物獎勵），辨識錯誤就減少權重值（挨批）。

如此不斷地強化，最終你一伸手，狗也伸手（爪）跟你握手。

*蘋果Voxel Net架構

目標檢測與辨識領域早期為DPM，2013年11月，目標檢測領域公認的大神Ross Girshick推出R-CNN，2015年4月進化為Fast R-CNN，2015年6月進化為Faster R-CNN，成為今日目標檢測與辨識領域，公認最好的方法，也是可以完全端對端地實現。

雷射雷達的目標檢測與辨識，自然也是要用Faster R-CNN。Faster R-CNN 從2015年底至今已經有接近兩年了，但依舊還是物體探測（Object Detection）領域的主流框架之一，雖然推出了後續 R-FCN，Mask R-CNN 等改進框架，但基本結構變化不大。同時不乏有SSD，YOLO等骨骼清奇的新作，但精度上依然以Faster R-CNN為最好。

從RCNN到fast RCNN，再到本文的faster RCNN，目標檢測的四個基本步驟（候選區域生成，特徵提取，分類，位置精修）終於被統一到一個深度網路框架之內。所有計算沒有重複，完全在GPU中完成，大大提高了運行速度。

faster RCNN可以簡單地看做「區域生成網路+fast RCNN「的系統，用區域生成網路RPN(Region Proposal Networks)代替fast RCNN中的Selective Search方法。

不過RPN只能針對密集化的具備張量結構的數據，而雷射雷達的雲點是稀疏的，因此雷射雷達深度學習辨識物體的關鍵，就是如何把點雲數據，轉換成具備張量結構的密集的影像或圖像數據。

蘋果就提出了一種叫VFE（Voxel Feature Encoding）的方案（如上圖）。

首先將點雲數據轉換為體素數據，基本上點雲的三維數據就是體素的三維數據。根據體素所在的位置對點（點雲）進行分組，把這些分組數據全部一層層堆疊起來，然後透過全卷積神經網路（FCN）形成有4（速度向量、X、Y、Z）張量的數據結構。

接下來看FCN，FCN將傳統CNN中的全連接層轉化成卷積層，對應CNN網路FCN把最後三層，全連接層轉換成為三層卷積層。

在傳統的CNN結構中，前5層是卷積層，第6層和第7層分別是一個長度為4096的一維向量，第8層是長度為1000的一維向量，分別對應1000個不同類別的概率。

FCN將這3層表示為卷積層，卷積核的大小 (通道數，寬，高) 分別為 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去數字上，並沒有什麼差別，但是卷積跟全連接是不一樣的概念和計算過程，使用的是之前CNN已經訓練好的權值和偏置，但是不一樣的在於權值和偏置是有自己的範圍，屬於自己的一個卷積核。

因此FCN網路中所有的層都是卷積層，故稱為全卷積網路。