cookieOptions = {...}; .DeepMind 提出全新強化學習算法,教智慧體從零開始學會控制 - 3S Market「全球智慧科技應用」市場資訊網

3S MARKET

3S MARKET
2018年3月16日 星期五

Google's DeepMind AI Just Taught Itself To Walk




Nx Witness v3.0 - 雲端影像平台解決方案 — 


leiphone 作者:思颖

對於智能體來說,從零開始,透過最少的知識學習複雜的控制問題是一個眾所周知的挑戰。

日前,DeepMind 提出全新強化學習算法「調度輔助控制」(Scheduled Auxiliary Control (SAC-X)),教智慧體從零開始學會控制,他們試圖透過這種學習範式,來克服智體體的控制問題。
 AI 科技評論將原文編譯整理如下:
不管你讓小孩還是大人整理物品,他們很大可能都不會乖乖聽你的話,如果想要讓 AI 智體體進行整理收拾,那就更難了。如果想成功,需要掌握如下幾個核心視覺運動技能:接近物體,抓住並舉起它,打開盒子,把物體放進去。而更複雜的是,執行這些技能時,必須按照正確的順序。

對於一些控制類的任務,比如整理桌面或堆疊物體,智體體需要在協調它的模擬手臂,和手指的九個關節時,做到三個 W,即如何(how),何時(when)以及在哪裡(where),以便正確地移動,最終完成任務。

在任何給定的時間內,需要明確各種可能的運動組合的數量,以及執行一長串正確動作,這些需求引申出一個嚴肅的問題,這成為強化學習中一個特別有趣的研究領域。

諸如獎賞塑形(reward shaping)、學徒學習(Apprenticeship learning)或從演示中學習(Learning from Demonstration)等技術,可以幫助解決這個問題。

然而,這些方法依賴於大量與任務相關的知識,而從零開始,透過最少的預先知識學習複雜的控制問題,仍然是一個眾所周知的挑戰。

我們最近的論文提出了一種新的學習範式,叫做「調度輔助控制」(Scheduled Auxiliary Control (SAC-X)),我們試圖透過這種學習範式來克服這個問題。

DeepMind 提出全新强化学习算法,教智能体从零开始学会控制

SAC-X 是基於從頭開始,學習複雜的任務這種想法,即一個智體體首先應該學習,並掌握一套基本技能。

就像嬰兒在爬行或走路前,必須具有協調能力和平衡能力,為智體體,提供與簡單技能相對應的內在目標(具有輔助作用),這會增加它理解和執行更複雜任務的可能性。

我們在幾個模擬和真實的機器人任務中,演示了 SAC-X 法,包括不同物體的堆疊,將物體放到盒子裡。我們定義的輔助任務遵循一般原則:鼓勵智體體探索其感應空間。

例如,啟動手指上的觸覺感測器,感知手腕的力度,利用本體感應器將關節角度調到最大,在視覺傳感器範圍內,強制性移動物體。對於每個任務,如果實現目標,會提供相應的簡單獎勵。沒實現目標的話,獎勵為零。

DeepMind 提出全新强化学习算法,教智能体从零开始学会控制
智慧體首先學習啟動手指上的觸覺感測器,然後移動物體

DeepMind 提出全新强化学习算法,教智能体从零开始学会控制
模擬智慧體最終掌握複雜的堆疊任務

智慧體接下來可以自行決定,其當前的「意圖」,例如下一步做什麼。可能會是一個輔助任務,或者是外部定義的目標任務。至關重要的是,對於目前還沒有使用基於回放的離策略學習方法的任務,該代理可以從獎勵信號中發現和學習。

例如,當拾取或移動一個物體時,智慧體可能會偶然地將物體堆疊起來,觀察到「堆疊獎勵」。一系列簡單的任務會讓智慧體觀察到罕見的外部獎勵,所以讓智慧體具有安排意圖的能力至關重要。

基於收集到的所有的間接知識,智慧體會建立一個個性化的學習課程。在如此大的領域中,透過這種方法來利用知識非常高效,在只有很少的外部獎勵信號的情況下尤其有用。

透過調度模塊,智慧體會決定接下來的意圖。利用元學習算法,調度器會在訓練過程中得到改進,該算法試圖最大限度地提高主任務的進程,進而顯著提高數據效率。

DeepMind 提出全新强化学习算法,教智能体从零开始学会控制
在探索完許多內部輔助任務之後,智慧體學會了如何堆疊和整理物品

評估表明,SAC-X 能夠從零開始,完成我們設置的所有任務,這些任務都是在相同的輔助任務集下完成的。令人興奮的是,利用 SAC-X,我們實驗室的機器人手臂,能夠成功地從零開始學習拾取和擺放。

在過去這極具挑戰性,因為在現實世界中讓機器人學習,需要高效的數據,所以流行的方法是預訓練模擬智慧體,然後再將這種能力,轉移到真正的機器人手臂中。

DeepMind 提出全新强化学习算法,教智能体从零开始学会控制
針對真實的機器人手臂, SAC-X 能學習如何舉起和移動綠色的立方體,在此之前它從來沒有接觸過這類任務

我們認為 SAC-X 是通向從零學習控制任務的重要一步,只需定義好整體目標。SAC-X 允許任意定義輔助任務,這些任務可以基於一般的看法(如有意啟動感測器),最終會涵蓋研究人員認為重要的任務。

從這方面來說,SAC-X 是一種通用的強化學習方法,可以廣泛應用於控制,和機器人領域之外的一般稀疏強化學習環境。

via:DeepMind

2018 智慧城市展 3月27-30日@南港展覽館
3S Market 為您連結智慧應用商機


                                                                                                                                                                                                                 

0 comments: