．沒錯，AR 其實也是 AI

AR+AI: The Coming Convergence

康橋科技 —— 白光攝影機專業廠商！

leiphone 作者：李诗亮風台

AR/VR常作為孿生兄弟被相提並論，被普遍認為為應用層新技術，或者說是「智慧可穿戴設備」，相比人工智慧相對的「算法」標籤，顯得不夠有深度有內涵高大上，那AR和人工智慧之間到底是什麼關係？

AR屬不屬於當下我們認知中的人工智慧？

先來簡單梳理下AR的核心技術

AR（Augmented Reality），是在現實世界中疊加虛擬資訊，也即給現實做「增強」，這種增強可以是來自視覺、聽覺乃至觸覺，主要的目的均是在感官上，讓現實的世界和虛擬的世界融合在一起。

其中，對現實世界的認知，主要體現在視覺上，這需要透過攝影機來幫助獲取資訊，以圖像和影像的形式回饋。透過影像分析，實現對三維世界環境的感知理解，比如場景的3D結構，裡面有什麼物體，在空間中的什麼地方。而3D交互理解的目的，是告知系統要「增強」的內容。

圖.典型AR流程

這其中有幾個關鍵點：

首先是3D環境理解。要理解看到的東西，主要依靠物體/場景的辨識和定位技術。辨識主要是用來觸發AR響應，而定位則是知道在什麼地方，疊加AR內容。

定位根據精度的不同，也可以分為粗定位和細定位，粗定位就是給出一個大致的方位，比如區域和趨勢。而細定位可能需要精確到點，比如3D坐標系下的XYZ坐標、物體的角度。

根據應用環境的不同，兩種維度的定位，在AR中都有應用需求。在AR領域，常見的檢測和辨識任務，有人臉檢測、行人檢測、車輛檢測、手勢辨識、生物辨識、情感辨識、自然場景辨識等。

在感知現實3D世界，並和虛擬內容融合後，需要以一定方式，將這種虛實融合資訊呈現出來，這裡面需要的，就是AR中的第二個關鍵技術：顯示技術，目前大多數的AR系統，採用透視式頭盔顯示器，這其中又分為影像透視和光學透視，其他的代表有光場技術（主要因Magic Leap而顯名）、全像（Holography）投影（在科幻影視劇作品中常出現）等。

最新的!! 鄧麗君新一次復話與市川由紀乃合唱 201708

AR中的第三個關鍵技術在於人機交互，用以讓人和疊加後的虛擬資訊互動，AR追求在觸摸按鍵之外，自然的人機交互方式，比如語音、手勢、姿態、人臉等，用的比較多的語音跟手勢。

人工智慧和AR的技術關聯

在人工智慧領域有幾個概念常被提及，如深度學習（Deep Learning）、機器學習（Machine Learning），在學術領域包括人工智慧（Artficial Intelligent）在內，幾大領域均有自己的研究界限，而在普遍意義上，我們常說的是泛意的人工智慧，涵括所有「讓機器像人一樣」的技術的應用方向。

從這張圖也可以簡單一窺三者的關係，深度學習是實現機器學習的一種技術方式，而機器學習是為了讓機器變得智慧，去達到人工智慧。

可以說人工智慧是最終目標，而機器學習是為了實現這個目標，延伸出的一個技術方向。在這其中，還有另一個重要概念為電腦視覺（Computer Vision），主要來研究如何讓機器像人去「看」，是目前人工智慧概念中的一個重要分支，這也是因為人類獲取資訊，最主要的方式之一就是視覺。

目前電腦視覺已經在商業市場發揮價值，比如人臉辨識；自動駕駛中，讀取交通信號和注意行人以導航；工業機器人用來檢測問題控制過程；三維環境的重建圖像的處理等等。這些概念既有區分，也有一定範圍的重疊。

其中，2006年開始，Hinton引發的深度學習熱潮開始蔓延，在一定程度上，帶動了AI的又一次崛起，十年中，在包括語音辨識、電腦視覺、自然語言處理在內的多個領域，取得重大突破，並向應用領域延伸，正發展的如火如荼。

在AR的核心技術中，3D環境理解、3D交互理解和電腦視覺、深度學習都有著緊密的聯繫。

3D環境理解在學術界裡，主要對應的是電腦視覺領域，而近年來深度學習在電腦視覺中，得到廣泛應用。

交互方面，更趨自然的交互方式，如手勢和語音，在硬體終端的使用，得益於近幾年深度學習，在相關領域的突破。也可以說，深度學習在AR中，應用主要在視覺關鍵技術。

目前，AR最常見的形式的2D圖片掃描辨識，如騰訊QQ-AR火炬活動、支付寶五福等多數AR行銷中所見，用手機掃描辨識圖出現疊加的內容，但主要的研發方向，還在3D物體辨識和3D場景建模。

現實的物體是以3D形態存在的，有不同的角度和空間方位。所以一個自然的擴展，就是從2D圖片辨識到3D物體辨識，辨識物體的類別和姿態，深度學習可以用在這裡。以水果辨識為例，辨識不同類別的水果，並且給出定位區域，即整合了物體辨識與檢測的功能。

3D場景建模，從辨識3D物體擴大到，更大更複雜的3D區域。比如辨識場景裡面有哪些東西、它們的空間位置和相互關係等等，這就是3D場景建模，是AR比較核心的技術。這其中涉及目前熱門的SLAM（即時定位與地圖構建，或同步定位與地圖構建，Simultaneous localization and mapping）。

Monocular SLAM

透過掃描某個場景，然後在上面疊加虛擬戰場等，三維虛擬內容。如果只是基於普通2D圖像辨識，就需要有特定的圖片，而在圖片不可見時，會辨識失敗。

而在SLAM技術裡面，即使特定平面不存在，但是空間定位依然非常精確，就是因為有周圍3D環境的幫助。

這裡想探討下深度學習和SLAM技術的融合，電腦視覺大體上可以分兩個流派，一種基於學習的思路，例如特徵提取-特徵分析-分類，目前深度學習技術，在這一路線上取得了主導性的地位。

另外一種路線是基於幾何的視覺，從線條、邊緣、3D形狀推出物體的空間結構資訊，代表性的技術就是SFM/SLAM。

基於學習的方向上，深度學習基本上一統天下，但是在基於幾何視覺的領域，目前相關的進展還很少。從學術界而言，深度學習技術的研究進展，可以說日新月異，而SLAM技術最新十年的進展相對較少。

在國際視覺頂級會議，ICCV 2015年度組織的SLAM技術專題研討會上，基於近年深度學習，在視覺其它領域的快速發展，有與會專家曾提出，SLAM中採用深度學習的可能性，但是目前還沒有成熟的思路。

總體而言，短期內將深度學習和SLAM融合，是一個值得研究的方向，長遠來看聯合語義和幾何資訊，是一個非常有價值的趨勢。因此，SLAM + Deep Learning 值得期待。

在交互方式，主要的包括語音辨識和手勢辨識，語音辨識在目前已經取得了較大進展，中國如百度、科大訊飛、雲知聲等都是其中的佼佼者，AR公司更想突破的，是手勢辨識的成熟商業化。

比如亮風台展示過的一款，基於深度學習的手勢辨識系統，主要定義了上下左右、順時針、逆時針六種手勢，首先實現人手的檢測和定位，然後透過辨識相應的手勢軌跡，來實現對人手勢的辨識。

而人臉辨識等其他人工智慧熱門領域，在AR中也有使用，但不是AR公司重要的研發方向。

以上不難看出，AR的底層技術，或者說基礎部分是電腦視覺以及關聯領域的融合，而當下熱門的深度學習和AR的結合，也是算法工程師們的努力方向。這也是AR為電腦視覺與人機交互的交叉學科，AR的基礎是人工智慧和電腦視覺等說法的依據。

圖：電腦視覺與AR流程關聯

在去年今日頭條發佈的《人工智能影响力报告》中，也簡單統計了人工智慧科學家的分布情況，這其中包括人臉辨識、語音辨識、機器人、AR、晶片等領域的公司與大型研發機構，高端研發人員的分布，也說明AI領域的細分方向。

那AR究竟是不是人工智慧？

對AR從業者來說，理想的狀態是，用更智慧的AR終端，去取代智慧手機，所以對於使用者來說，接觸使用AR首先受影響的是內容，其次是終端，AR產業鏈如果粗暴劃分，包括了技術提供商、智慧終端研發公司，以及AR內容提供商。

在這其中，AR設備提供商不可避免關注硬體技術，如底層的晶片、電池、光學鏡片等，以及硬體本身的性能優化，而內容提供商更傾向於，在現有技術基礎上，優化內容及表現。所以我們可以說AR技術提供商，或者說在底層算法研發上，有一定成績的AR公司，是人工智慧公司。

對公司來說，特別是創企會把底層技術，轉化為成熟的產品或服務，這可能是如無人機、AR智慧終端、機器人等，也可能是行業解決方案，以達到商業目的，並且這已經成為在沸騰聲音之後，媒體、企業，以及大眾對AI企業的期待和要求。

近期，人工智慧產業發展聯盟（AIIA）出版的圖書《人工智能浪潮：科技改变生活的100个前沿AI应用》將對外發佈，以及涵括了目前巨頭公司以及新創公司，在商業化上的領先成果，也直接反映了AI目前的主要商業化方向。

作為技術驅動的商業領域，無論是AR還是人工智慧的其他多數方向，技術距離完全成熟，還有很長的路程要走，在整個產業鏈逐漸繁榮，關注商業化實現的同時，也需要有更多公司機構，去不斷拓展技術邊界，建立核心競爭力，讓行業爆發更大的價值與潛力。

今年的智慧城市展，有什麼看頭……

按此回今日3S Market新聞首頁

北美第一網通品牌升級10Gb網路

由Netgear開始！

3S MARKET

．沒錯，AR 其實也是 AI

1 comments:

Recent Comments

Arsip Blog