cookieOptions = {...}; .蘋果槓上百度,雷射雷達物體辨識成績大對比 - 3S Market「全球智慧科技應用」市場資訊網

3S MARKET

3S MARKET
2018年1月12日 星期五

Laser Detection in a Radar Detector?







leiphone 作者:周彦武


专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比

按:本文為作者系佐思產研研究總監周彥武。

一直以來,蘋果都以其追求完美的文化,和極度保密的風格著稱。雖然外界一直努力捕風捉影,但蘋果很少對外披露自動駕駛研發的進展或動態。

不過在去年11月,蘋果發表了一篇名為VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection 的論文。

在這篇論文中,蘋果將神經網路命名為 VoxelNet,蘋果透過雷射雷達點雲,訓練它執行目標辨識任務。論文表明:蘋果正在打造一種自動駕駛新方法,透過一個名為「VoxelNet」的全新系統,幫助電腦更準確地辨識三維物體。

其透過雷射雷達傳感器讀取數據,讓自動駕駛汽車理解,其他汽車、自行車和行人的精確地理位置。該項研究不僅表明,蘋果的自動駕駛汽車研究的確屬實,也顯示了蘋果正在與雷射雷達相關公司進行合作。

透過雷射雷達研究物體辨識的並不只有蘋果。

2016年,百度發表了一篇名為 Vehicle Detection from 3D Lidar Using Fully Convolutional Network 的論文。在更早的2015年,百度發表過一篇3D Fully Convolutional Network for Vehicle Detection in Point Cloud 的論文。此外,清華與百度還有一篇論文:Multi-View 3D Object Detection Network for Autonomous Driving。

2015年9月,卡梅隆大學機器人學院的Daniel Maturana 和Sebastian Scherer發表了VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition 一文。

2017年10月德國弗賴堡大學機器視覺系發表了Orientation-boosted Voxel Nets for 3D Object Recognition。歐洲機器視覺權威瑞士蘇黎世理工學院則有SEMANTIC3D.NET: A NEW LARGE-SCALE POINT CLOUD CLASSIFICATION BENCHMARK。

上述論文都是對雷射雷達物體辨識的研究。

雷射雷達物體辨識最大的優點,是可以完全排除光線的干擾,無論白天還是黑夜,無論是樹影斑駁的林蔭道,還是光線急劇變化的隧道出口,都沒有問題。

其次,雷射雷達可以輕易獲得深度訊息,而對攝影機系統來說這非常困難。再次,雷射雷達的有效距離遠在攝影機之上,更遠的有效距離,等於加大了安全係數。最後,雷射雷達也可以辨識顏色和車道線。

實際上,雷射雷達與攝影機沒有本質區別,其最大區別除了雷射雷達是主動發射雷射,是主動傳感器外,只是光電接收二極管不同,攝影機可以做到的,雷射雷達都能夠做到,只是目前雷射雷達的點雲密集度,還不能和300萬像素級攝影機比。

對與固態雷射雷達來說,絕大部分固態雷射雷達,都是提供3D圖像的,與其說是雷射雷達,不如說是3D圖像傳感器更為合適。

在清華大學與百度的論文 Multi-View 3D Object Detection Network for Autonomous Driving(2016年11月)中,使用的便是攝影機和雷射雷達數據融合,做物體探測與辨識。

但蘋果認為這種做法沒有提升,反而帶來很多麻煩。因為攝影機需要時間同步,和與雷射雷達做聯合空間標定,攝影機有效距離有限,性能與距離關聯密切。兩者在中遠距離上難以融合,在近距離效果會略好。

與攝影機用像素(Pixel)這個詞一樣,雷射雷達是3D的,因此有Voxel(體素)這個詞。Pixel是二維電腦圖像的最小單位,Voxel則是三維數據在三維空間分割上的最小單位,很早就應用於三維成像、醫學影像(比如CT)等領域。

對物體辨識是機器理解人類社會環境的基本能力,人類文明主要是用文字和語言承載的,這是一種完全社會化的概念,因此不得不採用人類的學習方式,也就是深度學習。

雷射雷達可以用回波寬度,或反射強度訊息,輕易辨識某一類物體,如車道線,草地,建築物,道路,樹木,並且是物理辨識,而不是攝影機那樣的,根據數學機率算法得出的辨識,物理辨識的準確度遠高於機率推算。

但要具體辨識,比如物理方式,雷射雷達只能辨識出行人,具體是成年人、老人、小孩還是嬰兒就無能為力。再比如,路邊的交通標識,雷射雷達只能知道是一塊金屬牌或塑料牌,但是是牌子什麼內容就不知道了,這時深度學習就可以派上用場。

深度學習通俗的理解,就像人類訓練動物,比如教狗與你握手(爪),狗做對了,就給一點食物獎勵或者撫摸獎勵,這就是一種強化學習的機制。假如狗沒做對,就會挨批。這就像神經網路的訓練過程,辨識正確就增加這部分的權重值(食物獎勵),辨識錯誤就減少權重值(挨批)。

如此不斷地強化,最終你一伸手,狗也伸手(爪)跟你握手。

专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比
*蘋果Voxel Net架構

目標檢測與辨識領域早期為DPM,2013年11月,目標檢測領域公認的大神Ross Girshick推出R-CNN,2015年4月進化為Fast R-CNN,2015年6月進化為Faster R-CNN,成為今日目標檢測與辨識領域,公認最好的方法,也是可以完全端對端地實現。

雷射雷達的目標檢測與辨識,自然也是要用Faster R-CNN。Faster R-CNN 從2015年底至今已經有接近兩年了,但依舊還是物體探測(Object Detection)領域的主流框架之一,雖然推出了後續 R-FCN,Mask R-CNN 等改進框架,但基本結構變化不大。同時不乏有SSD,YOLO等骨骼清奇的新作,但精度上依然以Faster R-CNN為最好。

從RCNN到fast RCNN,再到本文的faster RCNN,目標檢測的四個基本步驟(候選區域生成,特徵提取,分類,位置精修)終於被統一到一個深度網路框架之內。所有計算沒有重複,完全在GPU中完成,大大提高了運行速度。 

专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比

faster RCNN可以簡單地看做「區域生成網路+fast RCNN「的系統,用區域生成網路RPN(Region Proposal Networks)代替fast RCNN中的Selective Search方法。

不過RPN只能針對密集化的具備張量結構的數據,而雷射雷達的雲點是稀疏的,因此雷射雷達深度學習辨識物體的關鍵,就是如何把點雲數據,轉換成具備張量結構的密集的影像或圖像數據。

专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比

蘋果就提出了一種叫VFE(Voxel Feature Encoding)的方案(如上圖)。

首先將點雲數據轉換為體素數據,基本上點雲的三維數據就是體素的三維數據。根據體素所在的位置對點(點雲)進行分組,把這些分組數據全部一層層堆疊起來,然後透過全卷積神經網路(FCN)形成有4(速度向量、X、Y、Z)張量的數據結構。

接下來看FCN,FCN將傳統CNN中的全連接層轉化成卷積層,對應CNN網路FCN把最後三層,全連接層轉換成為三層卷積層。

在傳統的CNN結構中,前5層是卷積層,第6層和第7層分別是一個長度為4096的一維向量,第8層是長度為1000的一維向量,分別對應1000個不同類別的概率。

FCN將這3層表示為卷積層,卷積核的大小 (通道數,寬,高) 分別為 (4096,1,1)、(4096,1,1)、(1000,1,1)。看上去數字上,並沒有什麼差別,但是卷積跟全連接是不一樣的概念和計算過程,使用的是之前CNN已經訓練好的權值和偏置,但是不一樣的在於權值和偏置是有自己的範圍,屬於自己的一個卷積核。

因此FCN網路中所有的層都是卷積層,故稱為全卷積網路。

专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比

經過多次卷積後,得到的圖像越來越小,分辨率越來越低。其中圖像到 H/32W/32 的時候圖片是最小的一層時,所產生圖叫做熱圖(heatmap),熱圖就是我們最重要的高維特徵圖。

得到高維特徵的熱圖之後就是最重要的一步也是最後的一步對原圖像進行採樣(upsampling),把圖像進行放大、放大、放大,到原圖像的大小。這就可以看做是RPN。 

专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比*百度的云点转换FCN步骤图
专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比
*蘋果的RPN架構圖,可以看出與百度相差無幾

专栏 | 苹果杠上百度,激光雷达物体识别成绩大对比

最後不能免俗,蘋果也得上KITTI上測試一番,也不忘打擊百度。

其中22號方案是百度早期的方案,效果確一般。5號方案就是百度和清華合作的方案,BV代表鳥瞰圖,FV代表前視圖,RGB代表攝影機。HC-baseline的方案,也是清華和百度聯合提出的。在鳥瞰檢測方面,蘋果與百度幾乎沒太多差別,在3D檢測方面,蘋果領先不少。

而蘋果使用的是一個1.7GHz的CPU,和頂級顯卡TitanX來運行上述算法,Voxel輸入特徵計算費時大約5毫秒,特徵學習網路費時大約20毫秒,卷積中間層費時170毫秒,RPN網路費時30毫秒,合計225毫秒。

但蘋果沒有說這是一幀的推理(Inference)時間還是30幀的推理時間。如果是一幀的話,那就離實用還差很遠,若是做到每幀25毫秒才算比較接近實用。



                                                                                                                                                                                                                 

0 comments: