2020年2月5日 星期三

.神經網路的氣宗與劍宗之爭:先驗強大的網路甚至不需要訓練

AI vs Machine Learning vs Deep Learning Machine Learning Training with Python 


leiphone 作者:杨晓凡

AI 科技評論按:深度神經網路中有許多連接加權,這些加權的值,對網路表現有巨大影響;透過反向傳播,可以定向優化這些加權,提高網路的表現,這個過程被稱作「訓練」;訓練過程通常需要多輪換代,需要大量的稠密矩陣運算;這些都是領域內的常識。

因為訓練過程如此地重要,深度學習研究人員們,都會設立多 GPU 陣列加速訓練過程,關於訓練技巧的論文連篇累牘,甚至還有「深度學習調參師」、「玄學調參」、「希望上帝給我一個好的初始隨機種子」之類的調侃。

那麼連接加權,是影響神經網路表現的唯一因素嗎?應該也不是。不僅近幾年中人類手工設計的許多網路架構,以更少的參數、更高的表現,證明瞭網路架構重要性,神經架構搜索(NAS),更在各種任務中,分別找到了可以達到更高表現的網路架構。不過,這些網路架構,都仍然需要經過適當的訓練,才能得到好的表現,似乎只是說明了「適當的架構和適當的訓練可以相得益彰」。

本著對照實驗的精神,我們似乎應該設計另一組實驗:為了說明訓練的影響,我們在相同架構的網路上,做不同的訓練;那為了說明架構的影響,我們需要在不同架構的網路上,做相同的訓練;根據實驗結果我們就可以定性、定量地分析訓練和架構各自的影響,釐清這場神經網路的「氣宗與劍宗之爭」(網路結構與訓練的影響之爭)。

說明架構影響的這件事並不好做,如何在不同架構的網路上,做相同的訓練,就首先是一個難題。谷歌大腦的研究人員 Adam Gaier 和 David Ha 在近期的論文《Weight Agnostic Neural Networks》(https://arxiv.org/abs/1906.04358)中做出了自己的嘗試,得到了有趣的結果。AI 科技評論簡單介紹如下。

尋找連接權重不重要的神經網路
之前就有研究人員展示了,加權隨機初始化的 LSTM 和 CNN 網路具有意外地好的表現,在這篇論文中,兩位作者更進一步地提出要尋找 weight agnostic neural networks,WANN,加權不可知的神經網路,即具有強大的歸納偏倚、以至於只使用隨機加權,就能夠執行多種任務的神經網路。

為了能夠完成實驗,作者們提出了新的實驗思路:

網路中的每個連接,都使用同一個隨機參數作為加權 —— 最小化權重(也就是訓練過程)的影響,同樣也最大程度簡化了模型表現的採樣空間

在很大的範圍內取這個參數的值,多次評估網路的表現 —— 不再以最優的權重設置作為網路表現評價的唯一目標


根據算法資訊理論,作者們並不滿足於能夠找到滿足要求的網路,而是能最簡單地描述的路。比如,有兩個不同的網路能帶來類似的表現的話,他們會留下更簡單的那個 —— 網路大小,也就成為了搜索過程中的一個附加目標。結合連接計算成本,以及其它一些技巧,他們希望最終找到的網路要盡可能簡單、模組化以及可演化,並且更複雜的網路,必須能夠帶來更好的表現。

神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练
某個搜索過程的圖示:圖從左側為環境參數的輸入,右側為運動控制的輸出。早期的網路搜索結果,在各種加權取值下表現都不好;後來網建立起一些輸入量之間的聯繫後,在某些範圍的加權取值下,可以達到較好的表現

具體搜索過程請參見論文原文。

實驗結果
作者們在多個連續控制任務中評估了搜索得到的網絡。

  • CartPoleSwingUp,一個小車上用鉸鏈懸掛一根棍子,小車只能透過橫向移動,把棍子在上方直立起來並保持;這個過程裡,小車只能在有限的範圍內運動。這個任務無法通過一個簡單的線性控制器解決。

  • 神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练

    • BipedalWalker,控制一個雙足機器人的兩個髖關節,和兩個膝關節,讓它在隨機地形上行走。
    • CarRacing,根據上帝視角的畫面像素,輸入控制賽車在賽道上運動。


神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练
圖:為 BipedalWalker 任務找到的網路;右圖:為 CarRacing 任務找到的網路

神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练

上圖表格展示的是 WANN 找到的網路在超過 100 次試驗中的表現(所以分數呈現為範圍)。縱向對比的是傳統的強化學習算法,橫向的四項子分數分別是:

  • Random weights,每個連接加權分別從 (-2,2) 範圍隨機取值;
  • Random shared weight,所有連接使用同一個加權,從 (-2,2) 範圍隨機取值;
  • Tuned shared weight,所有連接使用同一個加權,從 (-2,2) 範圍內取值時的最好表現;
  • Tuned weights,有加權優化過程,不同的加權允許有不同的變化(也就是傳統的訓練)

根據表格可以看到,傳統強化學習算法中的加權,必須經過訓練以後,才能得到好的表現,相比之下 WANN 尋找到的網路,只需要所有連接,都使用同一個隨機加權,就有機會得到好的表現。

所有連接使用同一個加權時,得到的最好表現是喜人的,晃悠幾次就可以讓小棍平衡,走路時可以有高效的步法,開賽車的時候,甚至還能從內側切彎。而進一步進行傳統意義上的訓練以後,網路的表現還能有進一步的改善。

另外,作者們也做了監督學習(MNIST 數位辨識)實驗,也找到了能夠比隨機權值 CNN 得到更好表現的網路。


結果解讀

神经网络的气宗与剑宗之争:先验强大的网络甚至不需要训练
搜索到的在 BipedalWalker 中表現最好的網結構

由於 WANN 搜索到的網路相對簡單,作者們也嘗試解讀這些網路架構。首先,網路架構中,明顯地為任務編碼了強大的偏倚,在如此淺層的連接中,可以明顯看到網路對不同輸入信號的處理加工過程;但同時,找到的網路的表現,也並不是與加權的值完全無關,在某些隨機值下還是會出現不好的表現。

可以看作,WANN 搜索到的網路,對輸入輸出間的關係,進行了強大的編碼,雖然權值的大小相比之下變得不重要,但信號的連續性、符號一致性還是有影響的。觀察搜索過程中,網路如何一步步變得複雜的,也能得到類似的感受。

WANN 搜索到的網路的最佳表現,最終還是比不上 CNN 的最佳表現,這並不奇怪,畢竟 CNN 本身也是帶有很強的視覺偏倚的架構,而且經過了如此多年的持續優化改進。

在這項研究中,小編感覺到的是,解決指定任務所需的偏倚,總需要透過某種方式編碼到網路內。傳統的深度學習研究中,都是固定網路架構(基礎模組和連接方式),用連接加權的更新體現這些偏倚;在 WANN 中,架構和加權的位置調換,用隨機取值且不要求優化過程的共享權重,限制了偏倚在權重中的儲存,從而得以讓偏倚顯式地,體現為架構的更新。從另一個角度看:網路結構佔據絕對支配地位以後,連接加權可以不必關注,只需要考慮如何解釋結構,這就容易多了。這也是神經網路可解釋性的一大步。

作者們也在論文的討論章節中指出,這種思路在小樣本學習、線上學習、終生學習中,都可能能夠派上用場(持續地優化更新網路架構)。這不僅新奇,也是繼續探索神經網路潛力的一條新的道路。「氣」和「劍法」並重,也許未來我們有機會,能夠改進神經網路的更多弱點。

雷鋒網 AI 科技評論報導。

論文原文地址:https://arxiv.org/abs/1906.04358

沒有留言:

張貼留言