3S Market「全球智慧科技應用」市場資訊網: ．AI 深度（續）

After Effects 3D Camera Techniques

全世界最小的 PoE 模組

https://tw.mitscomponent.com/news_detail_211.htm

AI智道文/纽豪斯作者：房叔话安防

一文看盡雙目攝影、結構光、ToF 和雷射雷達技術；一文深入瞭解小覓智能、奧比中光、華捷艾米、的盧深視、Pico和鐳神智能；AI賦能2大趨勢、4大核心技術。

Sony Boosts Production of 3D Camera Sensors - Bloomberg

前言

小編剛剛完成《3D 人臉辨識攝影機和結構光 (上) —— AI 安控應用深度報導》，發表到媒體上受到了廣泛的關注，讀者的反饋很多，有的讀者評價說「技術理論部分講的很清楚、趨勢判斷也很準確」，有的讀者評論關於雙目攝影機的典型代表選用的不正確，原因是「雙目攝影機現在都是要求有瞳間距，而且兩個攝影機之間是越遠越準確。」

好吧，小編承認，在 AI 深度攝影機的學習道路上，我剛剛上路7天，現學現賣。有一位郭姓讀者留言道「第一個視派爾的模組似乎沒有雙目測距，看圖片只是一個 IR 和一個 RGB 而已」，看來小編是碰到專業讀者了。

於是小編趕快咨詢了專業人士，也找到了專業論文，在「3D 人臉辨識攝影機和結構光 (上) —— AI 安控應用深度報導」、「非人臉辨識和 ToF 技術 (下) -– AI 安控應用」完成之後趕快補一篇「AI深度（續）」，這讓小編想到了「狗尾續貂」這個成語，前兩篇文章不一定是「狗尾」，但這一篇一定是貂皮大衣。

MADSHOT 3D CAMERA – Reality Technologies

專業人士

小編找到的專業人士名叫 Leo，美國史丹佛大學機械工程博士和電腦碩士雙學位，向小編提供了一篇專業的論文《IMU Integrated Structured-Light Stereo Depth Camera for Mobile Robot Navigation and Obstacle Detection》（為機器人導航和避障而打造的的小覓雙目結構光慣導深度攝影機），當然作者正是Leo本人，讓我們一起來領略一下雙目結構光慣導技術。

Leo認為傳統的雙目屬於被動的雙目，而另外一種是主動雙目。被動雙目如果同時打兩個結構光的斑點的話，會發生干涉和光污染的問題，但主動雙目就沒有這樣的問題。這篇文章主要是基於 Leo 的論文完成的，感謝 Leo。

Sipeed-MAIX-Binocular-Camera- for-Dock-Go-Bit - Seeed Studio

AI 深度雙目技術背景

在動物世界中，人類從肉體上來說並不是最強大的物種，如果赤手空拳，相信最強大的人也很難和猛獸進行搏擊，絲毫不佔優勢，但在地球的生活環境中看，現實中還不存在人類無法戰勝的獸類，因為人和其它動物的最大區別，在於人有智慧，語言是人類最強大的工具，因為語言是有能力的，在西方國家很多人都相信，世界是由話語（Word）創造的。

人和動物的最大區別主要在於語言，那麼人和機器之間最大的區別是什麼？這正是人工智慧（AI）所要研究的核心問題。人的眼睛能夠獲得 3D 的資訊，可以準確的認識這個世界，沒有複雜的算法、延遲、解析度，而機器認識這個世界，只能透過感測器來認識，用攝影機（相機）模仿人的眼睛，是最好的一種方式，這種技術被稱之為電腦視覺，也被稱之為人工智慧。

Digital Camera Goes 3-D | Sci-tech | Trends in Japan | Web Japan

人工智慧的字面含義，就是模仿人感知世界的能力，主要就包括電腦視覺、語音（辨識）和文字（OCR）電腦三種。

目前市面上大多數的電腦視覺技術，主要應用於人臉辨識、車牌辨識，由於影像監控的發展趨勢和基礎，50多年的發展都是基於 RGB 監控攝影機的（用專業術語來講就是 2D 攝影機），也就是說大家常見的攝影機所拍攝到的影像（實際上是每秒 25-30 幀的畫面）是平面圖像的，沒有深度，從而造成機器理解世界產生了巨大的限制。

而每個健全的人擁有兩個眼睛（雙目），故而市面上出現了深度攝影機（相機）採用雙目架構，使得機器（姑且稱之為電腦）獲得 3D 視覺能力（深度圖像），由此影像監控系統進入 3D 人臉辨識世界，而這是大多數人臉辨識獨角獸不具備的能力。

深度攝影機大行其道，必定會成為一種趨勢。

3D Camera Market By Type & Application|Technology & Size|Global ...

立體視覺

立體視覺又稱距離知覺或立體知覺。是個體對同一物體的凹凸或對不同物體的遠近的反映。視網膜是一個 2D 的平面，人不僅能感知平面物體，還能感知 3D 空間中的物體。深度知覺是透過雙目視覺實現的。

電腦立體視覺和人眼有類似之處，一般而言，電腦立體視覺，尤其和以仿生學為基礎的雙目立體視覺，由如下幾部分組成：

(1) 圖像獲取。包括場景領域、計時、時間（照明和陰影）、成像形態（包括特殊的遮蓋）、解析度、視野 (field of view, FOV)、攝影機的相對位置。場景的複雜程度，受如下因素的影響：遮掩、人工物體（直的邊界，平的表面) 、均勻的紋理區域、含有重複結構的區域。

(2) 攝影機模型。就是對立體攝影機組的重要的幾何，與物理特徵的表示形式，它作為一個計算模型，根據對應點的視差資訊，用於計算對應點所代表的空間點的位置。攝影機模型除了提供圖像上，對應點空間與實際場景空間，之間的映射關係外，還可以用於約束尋找對應點時的搜索空間，從而降低匹配算法的複雜性，減小誤匹配率。

(3) 特徵抽取。

(4) 圖像匹配。

(5) 深度計算。立體視覺的關鍵，在於左右眼圖像中相同特徵的匹配，一旦精確的對應點建立起來，距離的計算相對而言，只是一個簡單的三角計算而已。

總之，提高深度計算精度的途徑有三條，各自涉及了一些附加的計算量：半像素精度估計、加長基線長、內插。

http://www.arcran.com/tw/

深度檢測主要技術方法

在《3D 人臉辨識攝影機和結構光 (上) —— AI 安控應用深度報導》中，小編就提到深度攝影機分為雙目、ToF、結構光和雷射雷達四種。雙目跟結構光一樣，都是使用三角測量法，根據物體匹配點的視差反算物體距離，只是雙目是用自然光，而結構光是用主動光發射特定圖案的條紋或散斑。

ToF 是透過給目標連續發送光脈衝，然後用感測器接收從物體返回的光，透過探測光脈衝的飛行（往返）時間，來得到目標物距離。

小覓雙目結構光深度慣導攝影機

接下來就是小編要補充完善的雙目攝影機的代表產品：小覓智能雙目結構光深度慣導攝影機。

小覓雙目結構光深度慣導相機

雙目 + 結構光 + 慣導的，三項融合而成的新型深度攝影機。從前文對三類視覺深度攝影機的分析可以看出，ToF 和結構光都屬於主動光，容易受可見光和物體表面干擾，所以更適合室內和短距離的應用場景。

而純雙目適合室內外，測量距離範圍大，相差計算方法精度更高強健性更好，缺點是在無紋理的物體（像是白牆）和在全黑情況下不可行。

基於此，小覓智能將雙目和結構光的優點結合起來，用雙目的相差計算方法，加上紅外線的結構光，對黑暗和無紋理的情況作輔助，提出了「視覺 + 結構光 + 慣性導航」融合的雙目結構光深度慣導攝影機方案。

(a). 左目的圖像， (b). 右目的圖像， (c). 計算出來的深度圖

（用偽彩色表示深度，由近到遠的顏色是從紅到藍）

採用雙目結構光，是考慮到傳統的單目結構光，容易受光照的影響，在室外環境下，如果是晴天，雷射器發出的編碼光斑，容易太陽光淹沒掉，只有在陰天情況下勉強能用。

而雙目在室內外的情況下，都可以使用，使用結構光可以在黑暗情況下，和室內缺乏紋理的情況下，用紅外線結構光照明物體，並且在物體的表面投射出人造的紋理，同時還是使用雙目的匹配方法，因為雙目的匹配方法強健性更高，而且可以做到亞像素，這樣其抗環境干擾能力、可靠性更強，深度圖像品質有更大提升空間。

純雙目（左）和雙目結構光（右）@黑暗環境

純雙目（左）和雙目結構光（右）@無紋理環境

此外，結構光方案中的雷射器壽命較短，難以滿足 7×24 小時的長時間工作要求，其長時間連續工作很容易損壞。因為單目鏡頭和雷射器需要進行精確的標定，一旦損壞，替換雷射器時重新進行兩者的標定是非常困難的，所以往往導致整個模組都要一起被換掉。而使用雙目結構光的方式，其標定與雷射器無關，替換起來就比較簡單。

關於雙目的算法複雜度和計算量，隨著半導體的發展這也得到瞭解決。小覓對雙目的算法進行了硬體加速，可以利用 GPU 的大規模並行計算來實施，也有用 FPGA 將算法硬體化，同時還和晶片設計廠商進行合作，將雙目匹配的算法做到專有晶片ASIC 中，這樣可以實現高解析度（720P）、高幀率（30fps、甚至 60fps）的深度計算。

在此基礎上，小覓還在雙目結構光深度攝影機的基礎上，再加上了位移加速度感測器（IMU），並將其信號和雙目的影像信號做了同步，以滿足雙目視覺慣導（SLAM）的需求。

普及一下，SLAM (Simultaneous Localization and Mapping)，也稱為 CML (Concurrent Mapping and Localization)，即時定位與地圖建構，或併發建圖與定位。

問題可以描述為：將一個機器人放入未知環境中的未知位置，是否有辦法讓機器人，一邊移動一邊逐步描繪出，此環境完全的地圖，所謂完全的地圖（a consistent map）是指不受障礙行進到房間可進入的每個角落。

MITS 旭捷網路時間管理解決方案

https://tw.mitscomponent.com/products_237_59.htm

雙目視覺慣導SLAM

雙目視覺慣導里程計（Stereo VIO）和之前 SLAM 最大的不同在於兩點：首先，VIO 在硬體上需要感測器的融合，包括攝影機和六軸陀螺儀，相機產生圖片，六軸陀螺儀產生加速度和角速度。攝影機相對準、但相對慢，六軸陀螺儀的原始加速度，如果拿來直接積分會在很短的時間飄走（zero-drift），但六軸陀螺儀的頻率很高，至少有200Hz。

六軸陀螺儀

使用 IMU 對攝影機在快門動作期間內，估計攝影機的運動，但是由於 CMOS 相機的快門時間戳，和 IMU 的時間戳的同步比較困難，且攝影機的時間戳不太準確（自動曝光時間每幀都可能變化，時間戳是在曝光前，曝光中，還是曝光後）。

感測器融合是一個趨勢，也或者說是一個妥協的結果。主要的原因還是由於單一的感測器，不能適用所有的場景，所以透過多個感測器的融合，達到理想的定位效果。

雙目視覺 + IMU 的融合方案

視覺感測器在大多數紋理豐富的場景中效果很好，但是對旋轉不敏感，IMU 長時間使用有非常大的累積誤差，但是在短時間內，其相對位移數據，又有很高的精度，所以當視覺感測器失效時，融合 IMU 數據，能夠提高定位的精度。

對於短時間內的快速運動，IMU 能夠提供一些較好的估計。這正是相機的弱點。當運動過快時，（捲簾快門的）攝影機會出現運動模糊（小覓的雙目採用全局快門），或者兩幀之間重疊區域太少，以至於無法進行特徵匹配，所以純視覺 SLAM ，需要加大視角以應對快速的運動。而有了IMU，即使在攝影機數據無效的那段時間內，也能保持一個較好的位姿估計，這是純視覺 SLAM 無法做到的。

相比於 IMU，攝影機數據基本不會有漂移。如果攝影機放在原地固定不動，那麼（在靜態場景下）視覺 SLAM 的位姿估計也是固定不動的。所以，攝影機數據可以有效地估計，並修正 IMU 讀數中的漂移，使得在慢速運動後的位姿估計依然有效。

當圖像發生變化時，本質上沒法知道是攝影機自身發生了運動，還是外界條件發生了變化，所以純視覺 SLAM 難以處理動態的障礙物。而 IMU 能夠感受到自己的運動資訊，從某種程度上，減輕動態物體的影響。

作為基於視覺辨識技術的 3D 感測器，雙目結構光深度慣導攝影機，適用於室內外雙重環境，可以應對室外強光環境，辨識距離可達 30 到 50 米，完全黑暗的室內環境亦可工作。

此外，紅外線主動結構光，可以讓雙目攝影機完美解決了室內白牆和無紋理物體的難題。「雙目 + IMU」的慣性導航方案，可為 VSLAM 的應用提供精準的互補數據，並且相較其他單一方案擁有更高精度和強健性。

基於「視覺 + 結構光 + 慣性導航」方案，在陌生環境中，搭載了雙目結構光深度慣導攝影機的移動機器人，就可以在自主行走的過程中，即時 3D 重建現場環境的地圖，也可實現 3D 立體避障，充分認知所處環境，讓每一移動機器人，擁有了一雙超人的眼睛。

MITS 智慧網卡 NIC 解決方案

https://tw.mitscomponent.com/products_detail_385.htm

總結

最後再對三種深度技術進行一個總結，作為下篇總結的補充。

TOF 原理是，感測器發出經調制的近紅外光，遇物體後反射，透過計算光線發射和反射時間差，或相位差，來換算被拍攝物體的距離。

結構光（Structured Light）技術，則要相對複雜一些，該技術將編碼的光柵或光線光源等，投射到被測物上，根據它們產生的畸變，來解調出被測物的 3D 資訊。

雙目視覺則是和人眼一樣，用兩個普通攝影機，以視差的方式，來計算被測物距離。三種方式各有優缺點，在現有技術條件下各有應用場景。

孰優孰劣，尚待時間檢驗，還有技術的發展。但，深度攝影機大行其道，必定會成為一種趨勢。

台灣區電信工程工業同業公會

按此回今日3S Market新聞首頁

AKD 寰楚專業級全系列監控設備

3S Market「全球智慧科技應用」市場資訊網

2019年7月1日星期一

．AI 深度（續）– 3D 人臉辨識和雙目結構光慣導

沒有留言:

張貼留言

2019年7月1日 星期一

．AI 深度（續）– 3D 人臉辨識和雙目結構光慣導

沒有留言:

張貼留言

2019年7月1日星期一