Machine Vision for Industry Professionals: What are 2D and 3D vision technologies?

有關行業專業人士的機器視覺：什麼是 2D 和 3D 視覺技術？

來源：億歐網

所謂 3D 機器視覺，是指在一般的機器視覺技術的基礎上，加入對立體空間中三維模型的理解。這項技術不僅涉及 AI，而是一門機器視覺、圖形學與數據感知技術的交叉學科。

想想也知道，讓機器認識 3D 畫面是非常有價值的。畢竟人的視覺理解就是 3D 的，想要讓 AI 盡量貼近真人的感知方式，3D 是必須攻克的難題。

在產業場景上，3D 機器視覺是無人駕駛和高精地圖的重要技術條件，在 VR/AR 上應用也非常廣泛，而無人機航拍與測繪也離不開這門技術。

在蘋果把 3D 結構光技術炒火了之後，手機中的 3D 機器視覺也已經成為兵家必爭之地 —— 假如說，這些厲害的技術都是賽車，那麼 3D 機器視覺就是他們在路上都會遇到的收費站……

今天在機器視覺頂會中，差不多會有半壁江山那麼多的論文，都是跟 3D 有關。前沿探索可謂瘋狂進行，然而重點來了，關於這一領域，似乎大部分吃瓜群眾還是只知道一個結構光而已。

有哪些三維圖像＋機器視覺的新技術趨勢，今天正隱藏在未知迷霧中眺望這個世界？今天我們來說幾種很有科幻感的技術突破點。說不定這些能力，明年就會出現在你的手機、VR 設備和無人機中，又或許即將成為某個被資本瘋狂親吻的創業熱潮。

超大場景的 3D 數據感知

3D 機器視覺包括很多方面，既有讓智慧體去理解 3D 數據，也包括如何透過機器視覺的解決方案，去獲取 3D 模型數據。

傳統意義上的 3D 數據獲取，或者稱其為 3D 感知技術，一般來說可以利用多角度拍照，或者深度感測器的方式，實現 3D 數據收集。這種技術的局限在於，收集的 3D 數據不能太大。

然而在 3D 資料要求不斷升級的今天，對於超大場景的 3D 數據感知，正在成為一個熱門議題。比如無人駕駛中，使用的城市高精地圖，就可以看做一個個超大 3D 場景的拼接。

智慧城市領域運用到的很多城市數據推演，也要根植於對城市 3D 場景的收集。

機器視覺正在為超大場景的 3D 數據感知，提供很多新的方法。比如自動化的成像方法，像視覺 SLAM 在網路線上處理連續幀的圖像，實現實時重建巨大 3D 場景。再比如說對航拍數據進行點雲分割，和點雲數據的語義理解，幫助快速低成本獲取城市 3D 數據。

總體來看，今天超大場景的 3D 數據感知，有三個主要應用方向，很可能分別成為各自技術領域中，新的投資和創業熱點：

1、建築物的 3D 高精度模型，運用在工程監理、智慧設計、物流和智慧城市領域。

2、高精地圖與 3D 數據感知的結合，這是無人駕駛的重要一環。

3、室內外一體的 3D 建模，這對於智慧家庭設計、環境監控、VR/AR 體驗來說都有重要幫助。

手機與 3D 視覺進入蜜月期

3D 結構光，今天已經當之無愧成為了高端手機的標配，成為了繼雙攝、三攝與屏下指紋之後，又一個手機行業爭搶的熱點。

然而手機上的 3D 視覺技術，遠不止於結構光，從算法、感測硬體，到影像系統解決方案，都可能成為手機與 3D 視覺，進一步耦合的關鍵因素。

今天來看，有 3 個相關趨勢，非常可能成為明年的熱點。一個是基於晶片端，進行的 3D 視覺算法加速，這很可能成為手機 AI 的下一個進化方向。

第二個是高糾錯能力的 3D 視覺算法，將會普及，在終端實現 3D 數據收集和本地建模，將會成為新的熱點。

第三個是後置攝影機，加入 3D 視覺解決方案指日可待。

從晶片端，到開發平台，再到數據集、感測系統，3D 機器視覺正在多個領域，影響手機戰場的走向，在這些領域儲備技術武器，也很可能成為明年手機戰場廝殺的關鍵節點。

AR/VR 中的位姿估計技術

為什麼我們在玩 AR 體驗的時候，經常會覺得手機裡的東西，放在攝影機視野中並不真實，像是漂浮在地板上一樣。

這就是因為位姿估計算法不夠精準，無法正確定位物體的空間關係。在機器視覺技術的進化下，今天很多位姿估計技術正在同步進化。比如基於動態特徵提取算法，達成的動作定位今天已經比較成熟。

這東西聽起來挺玄乎，到底是幹啥用的呢？它的最大應用場景，就是在 VR/AR 正確處理場景中，動態物體的空間關係和運動軌跡。比如你在 VR 裡玩踢球遊戲，球應該在什麼位置挨踢，以什麼軌跡撞牆，都有賴於位姿估計算法來校準。

在機器視覺算法的幫助下，更精細的位姿估計正在到來，而這也加速了成熟 MR 體驗的到來。另一方面，在 VR 設備或者手機當中，基於攝影機與感測器協同運作，來完成位姿估計，也是沈浸技術中，即將發生的一個亮點。

透過散亂數據達成三維建模

3D 機器視覺的最重要任何，肯定是基於數據，來實現 3D 建模。這個應用在產業端十分重要，地理資訊系統、勘探、工程，以及無人駕駛，都需要大量的 3D 建模工作來參與。

而消費者級的 3D 建模，今天也在到來，我們已經可以看到在手機端，透過 3D 結構光來完成數據收集，從而達成 3D 建模的玩法。

跟 3D 感知一樣，3D 建模也是利用攝影機或者感測器，來收集數據，最終透過不同的解決方案完成建模。

然而這個領域，還是有很多問題等待解決。比如說，今天我們進行 3D 建模時，還需要非常痛苦的，一點點來收集數據，必須保證數據的對齊和精準排列。否則出來的 3D 模型就是雜亂無章的。這顯然讓大眾完 3D 建模的熱情減退，並且給很多工程級項目，增添了非常多難度。

AI 的到來，正在幫助這種情況有所改變。在深度學習算法的幫助下，機器視覺領域正在研究如何在散亂、不規則、巨大數量的數據中完成 3D 建模。這需要對抗生成，以及先驗表示等非常多的方案，但帶來的效果非常值得期待。

比如說今天已經有 3D 建模方案，在深度學習的幫助下，實現對密林的重建。然而其用來進行點雲建模的圖像數據中，有很多被樹葉遮擋的部分。這時候就可以用 AI 來增強 3D 建模的先驗知識，主動「腦補」出遮擋物背後的真實樣子。

不僅是修復遮擋模型和瑕疵數據，機器視覺技術與 3D 建模的融合，還可以讓很多無人設備具有更雪亮的「眼睛」。比如無人駕駛汽車，或許可以基於「大腦」中的 3D 建模算法，來腦補智慧攝影機尚未發現的環境。這點在複雜立交橋和停車場中格外有用。

在消費者端，3D 建模與機器視覺的結合，也將帶來新的想像力，比如消費者可以根據照片，來重建精準的 3D 模型，或者傻瓜式完成建模要用的數據收集。讓不那麼專業的人也能建設出專業的 3D 模型，這個改變背後的想象力驚人。

禾企 SHANY 紅外線熱顯像儀熱成像熱顯測溫 100% 台灣製造

更好的深度感測器解決方案

還有一個機器視覺技術和 3D 的交匯，主要發生在無人機領域。

無人機今天進行測繪和航拍時，必須附帶對空間的理解能力，否則拍照不準事小，撞了南牆事大。而這個能力，主要來自於攝影機和感測器，進行空間閱讀。

隨著消費級無人機的不斷升級，人們對無人機拍攝效果要求也不斷升高。無人機必須不斷在更遠的距離、更極端的天氣、更複雜的運動中拍攝畫面。然而傳統的感測系統解決方案，已經快要跟不上使用者的期許。

今天的消費級無人機，一般採取兩種感知解決方案，一種是雙目視覺技術，比如大疆的某些產品；一種是結構光感測器，比如微軟的 Kinect。而這兩種主流方案都是有一定局限的，比如感知範圍都有限，難以完成遠距離作業。再比如雙目視覺技術，在黑夜中會失靈，所以無人機夜拍一直是個大坑，然而結構光技術應對不來強光，一到中午無人機就石樂志也是很心塞的。

更好的解決方案，在於將感測器與智慧攝影機結合起來，達成可以適應不同天候與天氣，並且可以長距離感知的新型感測系統解決方案。

今天，用機器視覺技術中的很多算法，協調不同的感測設備工作，讓無人機變成「多眼無人機」，正在成為流行的解決方案。機器視覺算法大量加入無人機感測器，還可能帶來軌跡拍攝能力提升，讓無人機獲得拍攝整體環境，或者精準捕捉動態物體，比如說運動中的動物和車輛的能力。

以上幾個技術趨勢，都可能成為機器視覺和圖形學應用的下一步熱點。這個領域看似偏門，事實上卻能影響今天科技市場中的風吹草動。

讓機器看到立體世界的遊戲才剛剛開始，機器與人類在某一天可以用同樣的視角相互凝視，或許才是這個故事的終點。