Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision
來源:VR陀螺
交互一直是VR/AR體驗中,最為重要也是最難實現的一塊,手柄、力反饋、能模擬冷熱痛感的裝置、體感、手勢……交互的紛繁複雜,也給內容開發者增添了更多的工作量和開發難度。
其中手勢被稱為最自然的交互方式,但截止到目前,幾乎所有的手勢,都是依靠雙目紅外線和深度相機,實現的三維骨骼辨識,成本相對較高,對性能要求也更高。
如何基於單目RGB攝影機實現更精準的手勢辨識,成為了諸多企業努力的方向。
總部位於對岸中國杭州的 uSens 凌感科技,一直致力於手勢辨識的研發,其提供的手勢辨識技術在AR、VR業界已經有一定知名度。但前幾年凌感的手勢辨識,主要是使用雙目紅外線和深度相機上,實現的三維骨骼辨識,應用在頭顯和汽車等一些智能硬體上。
最近凌感公司發佈了,可以運行在單目彩色攝影機上的 3D 骨骼手勢跟蹤辨識,可辨識手部全部 22 個關節點的 26 DOF( 26 自由度)資訊,關節點包括 3D 位置資訊和 3D 旋轉資訊。
這一技術的亮點在哪裡呢?本文將對此一一介紹。
相機(攝影機模組)的種類很多, 雙目紅外線相機( uSens Fingo, Leap Motion )、雙目彩色、TOF 相機(廠家很多)、結構光相機、單目紅外線相機、普通 RGB 彩色相機等。其中,普通彩色相機是成本最低、使用最廣泛的一種,已經內置於所有的手機、絕大部分 AR&MR Glass 裡以及一部分 VR HMD 中。
可惜彩色相機的手勢算法最難實現,因為複雜的背景混淆,各種光照條件,不同的膚色等等,單個彩色 RGB 相機只獲取 2D 圖像,提取 3D 資訊非常困難,無法直接提供深度資訊,所以很難做出 3D 的辨識和跟蹤。
目前有些手機上,不是已經有了簡單手勢的自拍功能嗎?是的。目前市場上有的,被部分手機和 AR 眼鏡,使用的只是基於單目 RGB 相機的簡單二維手型,簡單固定手勢辨識。
用戶做一個大概的手型,像一個 Yes 或握拳等,透過一個簡單形狀來表示某個意思。但不能用手在遊戲或其他 APP 裡做任何帶深度的、自然的操作,不能做到和物體交互,因為二維的手型辨識沒有骨骼跟蹤,更沒有深度資訊。
為什麼需要手的骨骼跟蹤辨識呢?因為人體最靈活的就是雙手了。我們的手因為有手指和關節,可以做各種自由度的運動,所以手上可以做出千變萬化的動作,讓我們有可能去操作各種儀器,以及用各種手勢來表達自己。
手的動作很多,很複雜、很快。如果不是跟蹤每一個關節,所有自由度的運動,就無法真的跟蹤辨識出所有手的動作,也很容易丟失。
所以在電腦視覺領域,最好最有意義的,就是手的三維骨骼跟蹤辨識。能做到這個層次的只有 Leap Motion 和 uSens 凌感,但以前只能在雙目和深度相機上實現,且成本一直比較高。
最近幾年來,uSens 凌感在不斷研發的過程中,結合領先的深度學習技術,取得了突破性的進展,實現了在最簡單的單目 RGB 相機的 3D 手勢骨骼辨識技術。
科寶電子官網 www.cop-security.com
這個技術可以用於各種帶有普通 RGB 相機的場景,從所有智慧手機內置的相機,到 AR、MR、VR HMD 到工業控制、IOT 等多個領域,已經達到了產品級的性能,並應用在多個工業客戶的產品裡。
凌感基於 RGB 相機的 3D 手勢骨骼技術,可辨識手部全部 22 個關節點的 26 DOF(26 自由度)資訊,關節點包括 3D 位置資訊和 3D 旋轉資訊。
26 個自由度,對手部 3D 狀態實現最全面的解析,對用戶所有自然手部運動都有良好辨識,對上百萬個連續交互狀態進行跟蹤。從簡單固定的幾個手勢,到連續自然狀態的全面識別跟蹤,該技術的實現是一個巨大飛躍。
凌感的手勢算法適應日常各種光照、環境、各類人群和所有的自然手部運動,無需初始化,只要有一個攝影機,任何人立刻上手使用,系統立刻開始辨識,可以跟蹤快速運動,包括移動、轉動、各種快速手指狀態變化。
另外手勢辨識領域的另一個難點,對遮擋部分的跟蹤辨識,也透過最先進的人工智慧算法得到突破。
視覺算法會需要很高的晶片計算能力,以前對運行平台要求較高,uSens 凌感公司在性能上做了大量優化,適配於各種中、高、低端行動平台,即便在中低端手機也能運行良好。
對於我們今年最關注的 AR Glass 來說,用自帶的 RGB 相機,加上自然的 3D 手勢骨骼交互,可以實現最好的交互體驗,隨心所欲得用雙手操作。
沒有留言:
張貼留言