NVIDIA DEVELOPER


上敦 AXXON 台灣總代理


為了使機器人能夠在複雜環境中有效工作,NVIDIA 的機器人研究人員,開發了一種基於深度學習的新型系統,該系統使機器人能夠感知其環境中的家居物品,從而抓取並與其進行互動。

借助這項技術,機器人能夠對已知的家居物品,執行簡單的拾取和放置操作,例如將物品遞給人,或從人手中抓取物品。

這項研究,最初在瑞士蘇黎世舉行的機器人學習會議 (CoRL) 上發布。2018 年 12 月初,該成果將在加拿大蒙特婁舉行的神經資訊處理系統會議 (NeurIPS) 上展出。



這項研究以 NVIDIA 研究人員先前的研究成果為基礎,使機器人能夠透過標準 RGB 攝影機,精確推斷周圍物體的姿態。了解場景中物體的 3D 位置和方向(通常稱為 6-DoF(自由度)姿態)非常重要,因為它允許機器人,即使物體並非始終位於同一位置也能進行操控。

「我們希望機器人能夠以安全且熟練的方式,與環境互動,」NVIDIA 首席研究科學家 Stan Birchfield 說道。 「借助我們的演算法和單幅影像,機器人可以推斷物體的 3D 姿態,以便抓取和操控它,」他解釋道。

該演算法的性能比領先方法更穩健,目的在解決電腦視覺和機器人技術之間的脫節,即大多數機器人目前缺乏處理環境干擾所需的感知能力。這項工作意義重大,因為它是電腦視覺領域,首次出現僅使用合成資料(由電腦生成)訓練的演算法,在對多個標準基準物體進行姿態估計時,能夠擊敗使用真實影像訓練的最先進的網路。合成資料相較於真實資料的優點在於,它能夠為深度神經網路產生幾乎無限量的標籤訓練資料。



目前市面上大多數工業機器人,都缺乏感知能力,它們無法真正感知周圍的世界,」Birchfield 解釋道。 「我們正在為下一代機器人奠定基礎,透過這項研究,我們距離協作機器人更近了一步。」

研究人員使用 DGX Station 上的 NVIDIA Tesla V100 GPU,並結合 cuDNN 加速的 PyTorch 深度學習框架,利用 NVIDIA 為 Unreal Engine 開發的自訂插件,產生的合成資料訓練深度神經網路。該插件已公開發布,供其他研究人員使用。

研究人員在論文中指出:「具體來說,我們結合使用非真實感域隨機化 (DR) 數據和真實感數據,以充分利用兩者的優勢。」「這兩種類型的數據相輔相成,產生的結果遠勝於單獨使用其中任何一種。合成數據還有一個額外的優勢,那就是它避免了過度擬合的數據集數據集,從而對一體式變化。


用於訓練的域隨機資料集(左)和照片級真實感資料集(右)的範例影像


推理是在 NVIDIA TITAN X GPU 上進行的。推理代碼也已公開。

「我們已經證明,與使用真實數據訓練的網路相比,僅使用合成數據訓練的網路可以達到最佳性能,並且生成的姿態精度,足以滿足機器人操控的需求。」

NVIDIA 團隊由 Jonathan Tremblay、Thang To、Balakumar Sundaralingam、Yu Xiang、Dieter Fox 和 Stan Birchfield 等研究人員組成。