．神經網路的氣宗與劍宗之爭：先驗強大的網路甚至不需要訓練

AI vs Machine Learning vs Deep Learning Machine Learning Training with Python

智慧安控專區，展覽報名聯絡人：

0935-970-603 施正偉

leiphone 作者：杨晓凡

AI 科技評論按：深度神經網路中有許多連接加權，這些加權的值，對網路表現有巨大影響；透過反向傳播，可以定向優化這些加權，提高網路的表現，這個過程被稱作「訓練」；訓練過程通常需要多輪換代，需要大量的稠密矩陣運算；這些都是領域內的常識。

因為訓練過程如此地重要，深度學習研究人員們，都會設立多 GPU 陣列加速訓練過程，關於訓練技巧的論文連篇累牘，甚至還有「深度學習調參師」、「玄學調參」、「希望上帝給我一個好的初始隨機種子」之類的調侃。

那麼連接加權，是影響神經網路表現的唯一因素嗎？應該也不是。不僅近幾年中人類手工設計的許多網路架構，以更少的參數、更高的表現，證明瞭網路架構重要性，神經架構搜索（NAS），更在各種任務中，分別找到了可以達到更高表現的網路架構。不過，這些網路架構，都仍然需要經過適當的訓練，才能得到好的表現，似乎只是說明了「適當的架構和適當的訓練可以相得益彰」。

本著對照實驗的精神，我們似乎應該設計另一組實驗：為了說明訓練的影響，我們在相同架構的網路上，做不同的訓練；那為了說明架構的影響，我們需要在不同架構的網路上，做相同的訓練；根據實驗結果我們就可以定性、定量地分析訓練和架構各自的影響，釐清這場神經網路的「氣宗與劍宗之爭」（網路結構與訓練的影響之爭）。

說明架構影響的這件事並不好做，如何在不同架構的網路上，做相同的訓練，就首先是一個難題。谷歌大腦的研究人員 Adam Gaier 和 David Ha 在近期的論文《Weight Agnostic Neural Networks》（https://arxiv.org/abs/1906.04358）中做出了自己的嘗試，得到了有趣的結果。AI 科技評論簡單介紹如下。

尋找連接權重不重要的神經網路

之前就有研究人員展示了，加權隨機初始化的 LSTM 和 CNN 網路具有意外地好的表現，在這篇論文中，兩位作者更進一步地提出要尋找 weight agnostic neural networks，WANN，加權不可知的神經網路，即具有強大的歸納偏倚、以至於只使用隨機加權，就能夠執行多種任務的神經網路。

為了能夠完成實驗，作者們提出了新的實驗思路：

網路中的每個連接，都使用同一個隨機參數作為加權 —— 最小化權重（也就是訓練過程）的影響，同樣也最大程度簡化了模型表現的採樣空間

在很大的範圍內取這個參數的值，多次評估網路的表現 —— 不再以最優的權重設置作為網路表現評價的唯一目標

根據算法資訊理論，作者們並不滿足於能夠找到滿足要求的網路，而是能最簡單地描述的路。比如，有兩個不同的網路能帶來類似的表現的話，他們會留下更簡單的那個 —— 網路大小，也就成為了搜索過程中的一個附加目標。結合連接計算成本，以及其它一些技巧，他們希望最終找到的網路要盡可能簡單、模組化以及可演化，並且更複雜的網路，必須能夠帶來更好的表現。

某個搜索過程的圖示：圖從左側為環境參數的輸入，右側為運動控制的輸出。早期的網路搜索結果，在各種加權取值下表現都不好；後來網路建立起一些輸入量之間的聯繫後，在某些範圍的加權取值下，可以達到較好的表現

具體搜索過程請參見論文原文。

實驗結果

作者們在多個連續控制任務中評估了搜索得到的網絡。

CartPoleSwingUp，一個小車上用鉸鏈懸掛一根棍子，小車只能透過橫向移動，把棍子在上方直立起來並保持；這個過程裡，小車只能在有限的範圍內運動。這個任務無法通過一個簡單的線性控制器解決。

- BipedalWalker，控制一個雙足機器人的兩個髖關節，和兩個膝關節，讓它在隨機地形上行走。
- CarRacing，根據上帝視角的畫面像素，輸入控制賽車在賽道上運動。

左圖：為 BipedalWalker 任務找到的網路；右圖：為 CarRacing 任務找到的網路

上圖表格展示的是 WANN 找到的網路在超過 100 次試驗中的表現（所以分數呈現為範圍）。縱向對比的是傳統的強化學習算法，橫向的四項子分數分別是：

Random weights，每個連接加權分別從 (-2,2) 範圍隨機取值；
Random shared weight，所有連接使用同一個加權，從 (-2,2) 範圍隨機取值；
Tuned shared weight，所有連接使用同一個加權，從 (-2,2) 範圍內取值時的最好表現；
Tuned weights，有加權優化過程，不同的加權允許有不同的變化（也就是傳統的訓練）

根據表格可以看到，傳統強化學習算法中的加權，必須經過訓練以後，才能得到好的表現，相比之下 WANN 尋找到的網路，只需要所有連接，都使用同一個隨機加權，就有機會得到好的表現。

所有連接使用同一個加權時，得到的最好表現是喜人的，晃悠幾次就可以讓小棍平衡，走路時可以有高效的步法，開賽車的時候，甚至還能從內側切彎。而進一步進行傳統意義上的訓練以後，網路的表現還能有進一步的改善。

另外，作者們也做了監督學習（MNIST 數位辨識）實驗，也找到了能夠比隨機權值 CNN 得到更好表現的網路。

結果解讀

搜索到的在 BipedalWalker 中表現最好的網路結構

由於 WANN 搜索到的網路相對簡單，作者們也嘗試解讀這些網路架構。首先，網路架構中，明顯地為任務編碼了強大的偏倚，在如此淺層的連接中，可以明顯看到網路對不同輸入信號的處理加工過程；但同時，找到的網路的表現，也並不是與加權的值完全無關，在某些隨機值下還是會出現不好的表現。

可以看作，WANN 搜索到的網路，對輸入輸出間的關係，進行了強大的編碼，雖然權值的大小相比之下變得不重要，但信號的連續性、符號一致性還是有影響的。觀察搜索過程中，網路如何一步步變得複雜的，也能得到類似的感受。

WANN 搜索到的網路的最佳表現，最終還是比不上 CNN 的最佳表現，這並不奇怪，畢竟 CNN 本身也是帶有很強的視覺偏倚的架構，而且經過了如此多年的持續優化改進。

在這項研究中，小編感覺到的是，解決指定任務所需的偏倚，總需要透過某種方式編碼到網路內。傳統的深度學習研究中，都是固定網路架構（基礎模組和連接方式），用連接加權的更新體現這些偏倚；在 WANN 中，架構和加權的位置調換，用隨機取值且不要求優化過程的共享權重，限制了偏倚在權重中的儲存，從而得以讓偏倚顯式地，體現為架構的更新。從另一個角度看：網路結構佔據絕對支配地位以後，連接加權可以不必關注，只需要考慮如何解釋結構，這就容易多了。這也是神經網路可解釋性的一大步。

作者們也在論文的討論章節中指出，這種思路在小樣本學習、線上學習、終生學習中，都可能能夠派上用場（持續地優化更新網路架構）。這不僅新奇，也是繼續探索神經網路潛力的一條新的道路。「氣」和「劍法」並重，也許未來我們有機會，能夠改進神經網路的更多弱點。

雷鋒網 AI 科技評論報導。

論文原文地址：https://arxiv.org/abs/1906.04358

互動式論文頁面（帶有 demo）：https://weightagnostic.github.io/

按此回今日3S Market新聞首頁