2016年4月25日 星期一

‧ 機器視覺離消費市場有多遠?

leiphone 金紅

机器视觉离消费市场有多远?

作為人工智慧的兩個分支,電腦視覺與機器視覺在近年都取得了長足的進步。前者自2010年以來,隨著深度學習再度流行並用於目標辨識,在人臉辨識等方面已經超過了人類;而後者在工業應用方面,也有不少突破性的應用。

但是,在消費級市場方面,電腦視覺與機器視覺的進展並不大。不少人對於電腦視覺與機器視覺在消費級市場能有多大實質性地應用,存在深深地擔憂。

電腦視覺與機器視覺
首先,我們有必要理清楚機器視覺與電腦視覺之間的關係。從學科分類上, 二者都被認為是 Artificial Intelligence 下屬科目,不過電腦視覺偏軟體,通過演算法對圖像進行辨識分析,而機器視覺軟硬體都包括(採集設備,光源,鏡頭,控制,機構,演算法等),指的是系統,更偏實際應用。簡單的說,我們可以認為電腦視覺是研究“讓機器怎麼看”的科學,而機器視覺是研究“看了之後怎麼用”的科學

机器视觉离消费市场有多远?

電腦視覺與機器視覺的問題是,前者太學術,後者太工業,因而一直以來在消費級市場缺乏好的產品。圖漾創始人費浙平向記者說,機器視覺的很多核心技術和原理多年前就比較成熟了,近年來的進展主要集中在工程化,比如GPU和視覺計算加速器的出現解決了計算量問題。但與此同時,要想把視覺技術實現真正產品落地,中間還有不少其他問題,他們也在摸索中。

視覺技術在消費級市場最早的嘗試是微軟的Kinect2010年,微軟聯合深度攝影機技術方案提供方PrimeSense正式對外推出Kinect,利用骨骼捕捉技術,Kinect可以捕捉遊戲玩家的骨骼動作,從而讓遊戲玩家可以不接觸螢幕即可玩遊戲。在Kinect之後,華碩、Intel歌以及蘋果,也相繼在深度攝影機的應用場景上跟進,一切都看起來往好的方向發展。

但深度攝影機作為獨立產品,市場化難度頗大。例如Intel13年在開發者會議上宣佈,將推出自己的微型深度感知模組,華碩、戴爾、惠普、聯想等多家 PC廠家,都將從2014年下半年開始,在產品線中部署這款深度感知模組。而兩年多過去了,曾經預言的整合深度攝影機的產品遲遲未見。

那麼,處於電腦視覺和機器視覺交叉部分的深度攝影機,應該如何打開消費級市場?

深度攝影的瓶頸
深度攝影機也稱RGBD攝影機。我們常用的攝影機是RGB攝影機,單一個攝影機便能感知彩色可見光資訊(RedGreenBlue),而RGBD攝影機是在我們常見的RGB攝影機基礎上,增加了深度資訊。


深度攝影機獲取圖像方式,分為主動式獲取和被動式獲取。二者的主要區別集中在觀測感測器是否主動向環境發出探測光。如大疆精靈4上的雙目視覺便是被動式獲取深度圖像,其技術特點是攝影機不主動向環境中發射能量,而通過兩個以上攝影機計算特徵點的座標差,得出感知環境中現有能力得到資訊,這一方式與人類雙眼獲得時差的方式最為相近,但最大的弊端在於限於目前的技術,目前的辨識精度還不高,過於依賴光線,而且無法處理特徵不明顯的場景,所以強光暗光都會導致深度計算的失效。


主動式獲取所採用的方式,則是從蝙蝠等生物上尋找靈感,通過主動發射探測光通過計算獲取深度圖像。這當中又分為三類:“RF-modulated light sources with phase detector”、“Range gated imagers”、“Direct Time-of-Flight imagers”,如Kinect一代所採用的PrimeSense就屬於第二類,隨著蘋果收購PrimeSense,微軟也在Kinect二代中改為微軟自有技術,一般認為二代採用的是直接TOF的技術。


Kinect的深度攝影機為例,它包含了一個紅外線投射器、一個RGB攝影機和一個紅外感應器,由於深度攝影機自帶光源,而且是不可見的紅外光,對我們的生活無任何影響。似乎深度攝影機獲取景深資訊就已經完美了,但也有他的弊端。由於是主動方式,兩個同波段紅外光會出現干涉,導致兩台一樣的深度攝影機沒有辦法一起使用,而且受發射功率的影響,檢測距離也會受到很大影響。

市面上常見的深度攝影機,Kinect距離最遠,但也需要最高達到12W的用電供給,拖一根供電線很是累贅。同時,深度攝影機還難以應用於戶外,因為陽光中也有紅外成分,會對主動紅外光部分造成干擾。紅外光對於玻璃情景,也無計可施,出現無法探測距離的情況。

机器视觉离消费市场有多远?
Kinect獲取的深度圖像

艱難中的嘗試
Kinect一代售罄一空之後,對Kinect二代的綁定更加嚴厲,這更加抑制了銷售量;Leap Motion兩年前由於銷售情況不如預期,不得不解雇了 10% 的員工,切入虛擬實境

蘋果收購了Primesense之後也不知道在盤算什麼小九九,有分析稱蘋果打算放在iPhone上,這樣我們拍照時就能拍出3D效果的了;另一邊Intel則將目標對準了機器人無人機,比如小米的機器人Segway Robot,以及昊翔的無人機Typhooon H

機器人和無人機正是這兩年的大熱產品,看起來Intel可能會成為贏家,但因為Segway RobotTyphooon H都還未正式上市,因此效果如何還有待驗證。也就是說,在消費級市場還沒有一個特別成功的案例。

机器视觉离消费市场有多远?
Intel CEO 科再奇展示應用了RealSense模組的的Typhooon H

而在對岸中國,IntelRealSense出來之後,給了中國一些創業者的信心,因此催生了一批相關的創業企業,但目前成規模的應用也寥寥無幾。

奧比中光是其中最早實現量產的,其深度攝影機與Kinect一樣,主要應用在一些電視遊戲上;與奧比中光有直接競爭的是華捷艾米,只不過在產品量產上,華捷艾米的進度慢了一步;圖漾的產品則正在準備量產階段中,瞄準的方向都是些行業應用,似乎對消費應用還在觀望階段;格靈深瞳正在做應用在自動駕駛汽車上的深度攝影機;速感看好機器人;

機器人是目前熱門的應用領域,目前機器人的路徑規劃大多使用雷達,雷達雖然只能建立平面的深度圖像,但市場上已經有公開產品,而且雷達的導航所用到的SLAM方案已經比較成熟,而視覺導航的SLAM方案則還很少見,iRobot是較早開始在其掃地機器人上使用SLAM方案,不過也不到1年時間,因此想要在機器人上使用視覺避障與導航,看起來還需要一段時間。

要解決的問題有哪些
那麼,深度攝影機消費級應用的春天何時才會到來?通過與相關從業人員的交流,我們感覺到深度攝影機只是一個產業鏈中的一環,當他們在做深度攝影機的時候,相關的產業鏈上的工作還有很多,比如晶片,比如後續的圖像、影像分析等等。以下是他們的回答:

格靈深瞳技術人員:
CV在消費領域落實的其中一個障礙,還是支持高性能運算的低功耗低價位晶片選擇太少,有限的幾個也很難用。所以目前只能在工業領域,機器視覺本身是工業術語。在大消費領域我們傾向於叫 embedded vision(嵌入式視覺)。這一類產品都是光、機、電、軟體、演算法一體,跨多個專業領域,對系統整合的難度要求更高。”

uArm機械臂創始人鄧世韜:
“主要是晶片的處理能力、紅外投影模組的解析度提升。我自己更關注批量生產的穩定性,因為這些零配件裝在一起,需要校正、標定等,這是一個挺大的挑戰,特別是對創業公司。”

速感科技創始人陳震:
“單從機器人領域來看,機器視覺有很大一塊兒需要解決的問題是,目前在產業上游的核心感測器和下游的機器人落地應用中間存在一定的斷檔。也就是我們看到的有廠商專門做攝影機,雷達這樣的元器件,專門有廠商做機器人整機,但是幾乎沒有一個成熟的視覺技術方案,可以把不同的感測器串聯起來,做成一個可以商用的統一的方案。

機器人是個複雜的系統,機器視覺也是機器人上一個複雜的部件,通過現有的技術,已經證明單純的依靠單一的感測器,是無法在現有機器人上,較好的實現各種功能的。

也就是說,在機器人上,需要有雷達、超聲波、攝影機、3D感測器配合在一起,才可能實現各種複雜的功能和任務。

而目前的機器人產業的現狀是,大家各自低頭研發自己的核心元件,使得下游的機器人廠商變成了機械式的集成商,從訊飛拿語音,從視頻門戶拿內容,從深圳拿行動底盤公模等等,視覺上面,也呈現出零星的發展態勢。

我們認為,機器人在接下來的發展中,必然會出現一兩套整體的標準集成方案,類似PC時代的windows作業系統和手機時代的IOS作業系統一樣。”

圖漾創始人費浙平:
“視覺計算處理器:由於視覺計算資料量和演算法複雜度很高,通用的CPUGPUDSP處理器晶片都不夠強大,而專用ASIC又不夠靈活,最好需要有一個像GPUGraphics進行加速一樣,出現一種能為Vision提供強大計算能力的VPU晶片。

3D攝影機作為一種計算視覺用的光學產品,從演示到工程樣機、再從工程樣機到量產需要跨過的工程技術鴻溝比一般的拍攝類光學產品要大很多。比如光學器件的一致性篩選和光學參數的標定校正,就是一個單獨的研究方向。

產品的多樣性:作為一種光學產品,天然存在產品規格多樣性的問題,比如就最基礎的檢測距離指標來說,就很難做到遠近兼顧,必須在最大距離和最近盲區之間作出組合折衷。不同的應用場景需要不同規格的產品,進行適配和優化,因此對產品和技術方案的可伸縮性要求就很高,需要有多種不同規格的產品去滿足不同的應用需求。

人工智慧:基於3D視覺資料,一般都是為了實現更高級的辨識和分析能力,也就是對3D視覺資料使用的能力要求也很高,需要更聰明的大腦來使用更全面的視覺資料。”

AICRobo智慧型機器人系統架構師佘元博:
“機器視覺在消費市場實現,技術上是人工智慧技術和機器人硬體有效融合的問題,有兩條路:

1. 自上而下。以人工智慧技術應用為主,要求機器人硬體盡可能符合人工智慧技術工程化的條件。這意味著,產品得增加感測器,以保障智慧演算法資料供給,得提高成本,有良好的計算資源讓複雜的智慧演算法“跑”起來。還意味著產品具有不穩定性,人工智慧技術以概率為主,產品功能依賴人工智慧技術的比例越大,產品功能越不穩定。機器視覺應用裡面,人臉檢測是很穩定的,但遇到黑人也難打包票。

2. 自下而上。以機器人硬體為主,在功能上應用人工智慧技術輔助。這意味著,產品比較可靠,但同時也失去了一些智慧化的特性。當產品需要某些智慧化的功能時,要花費大量人力針對某個“智慧演算法”做移植,將本來在不穩定環境中運行的演算法應用在可控、高效而且低成本的嵌入式環境中,這點讓很多專注理論演算法的工程師頭疼。


機器視覺技術落實在產品上,有時候是自下而上做產品的過程中,給了“智慧演算法”太多的束縛,大家總是優先考慮成本和穩定性,而不是技術應用本身。我們從人工智慧領域出來做機器人,希望兩者做個折衷,以自上而下的願景給智慧技術找一個市場立足點。市場對智慧產品需求的不明晰,也是機器視覺難落地市場的一大因素。”


可以看出,晶片的運算能力以及成本是大家認為機器視覺在消費級市場落地的主要影響因素,其次是集成方案以及人工智慧技術。但由於消費電子對於量和價格以及技術成熟度均有著較高要求,可能要到這些配合的產業鏈環節都成熟之後,消費應用的春天才會到來,記本資訊網者也會進一步關注這方面的進展。

                                                                                                                                                                                                                            

沒有留言:

張貼留言