cookieOptions = {...}; ★ 使用 NVIDIA Isaac ROS 產生用於深度物體姿態估計訓練的合成數據 - 3S Market「全球智慧科技應用」市場資訊網

3S MARKET

3S MARKET
2025年8月27日 星期三

An image of the inside of an industrial manufacturing building.

NVIDIA DEVELOPER



為了使機器人代理能夠與環境中的物體進行交互,它們必須了解周圍物體的位置和方向。這些資訊描述了剛體在 3D 空間中的六自由度 (DOF) 姿態,詳細闡述了平移和旋轉狀態。

準確的姿態估計,對於確定如何定向機械手臂,以特定方式抓取或放置物體非常重要。其用例包括機器人的拾放操作,尤其適用於倉庫場景中的裝箱、零件裝載和食品包裝等任務。了解物體的姿態對於機器人與人之間的交接也非常重要,並且在醫療保健、零售和家居場景中非常有用。

NVIDIA 開發了深度物體姿勢估計 (DOPE) ,來定位物體的六自由度姿勢。在本報導中,我們將展示如何產生合成資料,來訓練針對物體的 DOPE 模型。

深度物體姿勢估計

圖 1. DOPE 從 RGB 影像估計物體的六個 DOF 姿勢


DOPE 是由 NVIDIA 開發的單次深度神經網路 (DNN),它能夠根據 RGB 影像,估計目標物體的六個自由度 (DOF) 姿態,從而支援機器人在環境中操控物體。它僅使用合成資料進行訓練,並且需要帶有紋理的 3D 模型。它能夠提供足夠的精度,以應對現實世界的抓取和夾持操作,誤差為 2 公分。

DOPE 是一個實例級模型,這意味著必須針對同一類別中的每種物件類型,專門訓練 DOPE 模型。例如,我們無法訓練一個 DOPE 模型,來偵測所有類型的椅子,而必須為每種椅子類型訓練一個模型。

再舉一個例子,如果某個應用程式要偵測四個幾何形狀相似,且顏色各異的盒子,則需要四個 DOPE 模型實例進行推理 —— 每個顏色的盒子分別專門訓練一個。


Klacci life unlocked

 Klacci 凱樂奇 智慧門鎖

DOPE 的好處

  • 它可以完全以合成資料進行訓練,從而降低資料收集和註釋成本。
  • 能夠處理物體遮蔽。
  • 透過結合領域隨機化資料,和逼真的合成資料進行訓練,降低了現實差距挑戰。
  • 它透過使用 Perspective-n-point (PnP) 演算法,無需重新訓練,即可處理不同的攝影機固有參數。
  • NVIDIA Isaac ROS 支援 DOPE,可提供 GPU 加速的物體姿勢估計。

現實差距挑戰

僅使用合成資料訓練的網路,通常在處理真實資料時表現不佳。微調或領域隨機化等技術,有助於提升效能。

領域隨機化是一種在模擬環境中,改變場景光線、比例、姿態、顏色和物件紋理等參數的方法。這樣做是為了為神經網路,提供足夠多樣的領域參數,從而提高其在真實環境中的泛化能力。這樣,真實數據對網路來說,只不過是另一種變體。

DOPE 透過將領域隨機資料,與逼真的合成資料相結合進行訓練,彌補了現實差距,並能很好地推廣到現實世界的用例。

 圖2. DOPE 網路架構概覽



DOPE 是一個一次性全卷積神經網絡,其靈感源自卷積姿態機 (CPM) 和多人姿態估計器。該架構由標準 CNN(例如 VGG19 或 RESNET)和附加卷積層組成。

如需全面了解 DOPE 架構和資料產生流程,請參閱《用於語意機器人抓取家居物品的深度物件姿態估計》。

數據集

NVIDIA 提供以 NVIDIA 家居物品姿態估計 (HOPE) 資料集,訓練的預訓練 DOPE 模型。該資料集包含 28 個不同環境下的玩具雜貨物品,是 6D 物件姿態估計基準的一部分。

由於 DOPE 是實例級的,因此必須使用與應用相關的目標物件資料集進行訓練。要產生用於訓練 DOPE 的資料集,需要該物件的 3D 模型。可以使用 BundleSDF 產生 3D 物件模型。該方法由 NVIDIA 開發,使用單目 RGBD 攝影機,無需昂貴的 3D 感測器。

數據生成

可以使用 NVIDIA Isaac Sim 為 DOPE 產生合成數據,以實現域隨機化。我們專注於兩個資料集 —— MESH 和 DOME —— 並實現了與 NViSII 論文中,針對這些資料集所展示的類似的隨機化技術。

這些資料集在場景中,圍繞目標物件添加了飛行干擾物,並隨機化了光照條件、干擾物的顏色和材質。DOME 使用的干擾物比 MESH 更少,並提供更逼真的背景。


圖 3. DOME 資料(左)和 MESH 資料(右)的範例


有關如何使用 Isaac Sim 建立 DOPE 訓練資料的資訊,請參閱 NVIDIA 文件。

你可以指定要產生的每種類型(MESH 和 DOME)影像數量。理想的 MESH / DOME 比例取決於特定應用案例。請進行實驗,找出適合你模型的啟發式方法(例如,MESH / DOME 的比例為 25/75)。如果你要產生資料,並針對單一物件訓練 DOPE,則大約 2 萬張影像的訓練資料集通常就足夠了。

產生的資料集,包含圖像和帶註釋的 JSON 檔案。每個 JSON 檔案都包含有關物件的資訊,包括物件類別、位置、方向,以及在對應影像中的可見性。可見性表示物件可見的部分(在遮蔽的情況下),可用於篩選訓練影像。

這種使用 Isaac Sim 的資料產生方法,還可以用類似於 YCB 影像資料集的格式寫入數據,然後可用於訓練其他 6D 姿態估計模型。

物件對稱性

DOPE 在包圍目標物體的長方體角點上進行訓練。該物體的旋轉對稱性,可能導致多個幀在像素級上相同,但由不同的長方體角點標記。

觀看 GitHub 上的 Deep Object Pose 影片以了解更多資訊。

Isaac Sim 資料產生方法目前尚未明確處理旋轉對稱性。不過,NVIDIA 也提供了使用 NViSII 的合成資料產生腳本,可以處理對稱性。

訓練 DOPE

產生訓練資料集後,NVIDIA 提供了一個用於訓練 DOPE 的腳本。你可以將該腳本指向你的訓練數據,並指定要用於訓練模型的批次大小和週期數。

該腳本保存了有用的訓練資訊(包括損失圖和信念圖),你可以使用 TensorBoard 查看這些資訊。

推理和評估

訓練完 DOPE 模型後,你可以在測試資料集上執行推理。根據測試資料中的影像,你可以在提供的設定檔中指定配置參數,也可以自行編寫。

在物件設定檔中包含目標物件的實體尺寸(我使用線上 3D 檢視器載入 3D 模型並找到尺寸)。推理工作流程使用這些尺寸來產生結果,並在偵測到的物件周圍添加邊界框。

圖 4. DOPE 的定性結果顯示,物體周圍的邊界框具有準確的姿態


推理運行後,我們提供評估工作流程,用於定量評估模型的效能。評估需要地面實況資料、推理步驟的預測結果,以及目標物件的 3D 模型(.obj 格式)。渲染物件的 3D 模型,以計算地面實況與預測結果之間的 3D 誤差。

我們使用 ADD 指標,並提供兩種誤差計算方法:

  • 平均距離 (ADD) 是使用預測姿態,與地面實況姿態之間,最近點距離計算的平均距離。
  • 長方體距離是使用 3D 模型(地面實況)的八個長方體點,和預測長方體點計算平均距離。這種方法比 ADD 計算速度更快,但準確性較低。


僅使用任意物件的領域隨機數據,在 30 萬張影像中,觀察到的最高曲線下面積 (AUC) 為 66.64。僅使用 60 萬張真實感影像的資料集時,觀察到的 AUC 為 62.94。當域隨機化和逼真的合成影像結合時,準確度最高(77.00 AUC)。


圖 5. YCB-Video 資料集上某一物件的 DOPE 與 PoseCNN 的準確率閾值曲線對比


DOPE 僅使用合成影像進行訓練。然而,即使在存在遮蔽和極端光照變化的情況下,它在其他攝影機拍攝的場景中仍然表現良好。其效能優於使用真實資料或合成資料,與真實資料組合進行訓練的 PoseCNN 和 BB8。

為了進行直接比較,我們從 YCB 資料集中選擇了五個對象,其中四個對象的 DOPE 的 AUC 高於 PoseCNN。

更多詳細資訊請參閱 DOPE 論文。有關推理和評估的資訊,請訪問我們的 GitHub。

使用 ISAAC ROS 姿勢估計

ISAAC ROS 提供了一個 ROS 2 軟體包,用於使用 DOPE 進行姿勢估計。它使用 NVIDIA Triton 或 NVIDIA TensorRT 以及 ISAAC ROS DNN 推理執行 GPU 加速推理。

訓練完 DOPE 模型後,你可以在 NVIDIA Jetson 或配備 NVIDIA GPU 的系統上,使用此軟體包運行推理。

也可以對來自攝影機串流的即時影像進行推理,但這是一項計算密集型任務。姿態估計的幀率低於攝影機機輸入速率。我們的 DOPE 圖表在 NVIDIA Jetson AGX Orin 上的運行速度為 39.8 FPS,在 NVIDIA RTX 4060 Ti 上的運行速度為 89.2 FPS——基於 Isaac ROS Benchmark 工作流程。 


GIF showing the camera view of a bottle of mustard being moved around and Isaac ROS DOPE being used to estimate the pose of this bottle. The output pose results are visualized as 3D axis on an RViz window.
圖 6. 使用即時攝影機輸入來運行 Isaac ROS DOPE,並在 RViz 上可視化姿勢


此圖包含三個組件和步驟:

  • DNN 影像編碼器節點,將原始影像轉換為調整大小,並標準化的張量。
  • TensorRT 節點將輸入張量轉換為信念圖張量。
  • DOPE 解碼器節點將信念圖轉換為姿態數組。


請參閱效能摘要,以了解更多關於不同 Isaac ROS 軟體套件的效能和基準測試方法。在 GitHub 上查看 Isaac ROS 姿態估計。



Klacci 凱樂奇 iF+ 系列雙系統免接觸式智慧門鎖


0 comments: