我猜,要你把東西撿起來絕對沒問題。好棒!這是因為當你還是個小屁孩的時候,你已經在沒日沒夜地抓東西、掉東西,並從經驗中學習。可是機器人不想就此虛度他們的童年,總得有辦法加快進程吧——在Google Research,十多個機器人手臂連續數月地在撿起不同的物品,重的、輕的、扁的、大的、小的、硬的、軟的、還有半透明的(雖然不是同時)。研究員們告訴我們為何他們的方法獨一無二,以及為什麼80萬次抓取(天啦擼!)還只是個開頭。
為什麼動物們抓取物件完全沒問題,部分原因是眼睛,而不僅僅是手。你可以閉著眼睛抓起一個物品,但是如果你能看見手與物品之間的互動,你會好得多。在機器人領域,這叫做視覺伺服,除了能增加抓取的精準度,還能讓機器人抓取正在移動或改變方向的物品,這在煩死人的「真實世界」中非常普遍。
教會機器人不容易,因為在感測器資訊和動作之間沒有必然聯繫,尤其是當你一直有無數的傳感資訊輸入(就像人在視覺系統裡一樣)。聰明的辦法不是填鴨式教學,而是讓機器人自學成才。
在Google Research,一組研究員在Google X同事的幫助下,讓一個7-DoF機器人手臂抓起雜亂的物品,利用單眼視覺伺服和深度卷積神經網路(CNN)來預測抓取結果。卷積神經網路會持續自我訓練,開始失敗如山倒,然後漸入佳境。Google為了加快進程,讓14個機器人同時投入工作。這完全是全自動的:人只需要往盤子裡裝上東西,然後打開電源開關。
一個資料收集試驗中的機器人。每個單元包括一個七自由度的手臂,帶有兩個手指的抓取器,和一個從機器人肩膀上俯視下來的攝影機。研究員說攝影機記錄了單眼RGB和深度圖像,但只有單眼RGB圖像用於預測抓取成功。
“實質上,通過觀察自己手臂的運動,機器人時時刻刻都在預測接下來哪種運動,會把成功的幾率最大化。這帶來了持續的回饋:我們可以稱作眼手協調。觀察了80萬次機器人的抓取,相當於大約3000小時的機器人練習,我們可以略見智慧反應行為的端倪。
機器人觀察著自己的抓取,並即時糾正自己的行動。它還表現出了非常有趣的抓取前動作,例如將一個單獨物品從一對物品中分離。所有這些行為自然地從學習中出現,而非編寫進系統的程式裡。“
當14個機器人同時工作,資訊收集就更多更快了,但與此同時,許多計畫外的變數也引入了試驗中。攝像頭的位置略有不同,打光對每一個機器人都不太一樣,以及每一個標準的抓取器都有不同類型的磨損,影響表現。
試驗後機器人的抓取器。研究者說機器人“經歷了不同程度的磨損和拉扯,造成外表和幾何方面重要的變化。”
積極的一面是,機器人能更好處理對類似硬體細微差異和攝影機校準差異的問題,使得抓取更加強大。即便這樣,這種方法沒法過分概況,而且不能用於差別很大的硬體和抓取環境中(例如從架子上拿取一個物品)。
研究員計畫在未來嘗試讓訓練設置更加多元化,看看他們的技術的適應性如何。他們還希望研究如何將這種方法用於“真實世界”的機器人,”在非常複雜多樣的環境、物件、燈光以及磨損情況下“。
我們與Google
Research的Sergey Levine聊了聊他們的研究。
IEEE Spectrum:能否說說你們的研究與其他類似研究的關聯呢,例如Brown的百萬物品挑戰或者加州大學伯克利分校的Dex-Net?
Sergey Levine:和Dex-Net及Brown的研究一樣,我們的研究也是基於大資料可以提升機器人能力這個假設。我們和他們的研究最主要的不同是,我們採取的是一種非常直接和資料導向的方法,依靠最少的前期資訊,來解決抓取這個非常具體的問題。Dex-Net使用基於模型的方法和類比資料,而Brown的目標更大,是掃描非常多的物品(我們的方法不收集掃描資料,而只是憑經驗學會抓取)。
為什麼資料的量很重要,從更多的資料中到底能發現什麼(真的能發現什麼嗎?)
任何時刻,我們都在使用六隻十四個機器人手臂(隨著試驗的進展,更多機器人上線了)。我們還在研究實際上需要多少資訊,還沒有官方資料,但是非正式地來說,試驗從20萬次抓取後開始好轉,並一直在提升(如果有更多資料的話應該還會提升)。
信息量的重要性主要因為兩個原因:(1)物件和抓取器的幾何形狀有非常多的可能性,(2)最新的模型一直在補充新資料,新模型很擅長定位他自認為正確但實際上錯誤的資訊,為資訊庫增補樣本,從而進一步改善新模型。
你們的硬體設計如何影響抓取物品的技術(和成功)?為什麼選取這種抓取器,以及這種方法能否適用於任何抓取器?
這種方法能夠直接適用於任何平行的顎形抓取器,也有可能應用於其他抓取器和手。硬體並不是專為這項實驗設計的,這只是按照我們要求的數量最容易獲得的硬體。儘管這樣,我們使用的這種手指非常適合抓取各種物品。
如何概況這項研究的精髓,讓這項技術可以用於其他環境中的其他操作器?
如果要適用於其他操作器,有可能系統必須與各種操作器及終端感測器一起訓練。目前的系統是驗證概念。實用性應用可能需要更多在不同環境、不同背景和其他設置(例如架子、抽屜等等)中的訓練,以及一種決定抓取什麼物品的更高等級的命令機制,也許將動作命令限制為工作空間的某個具體部分。
沒有留言:
張貼留言