隨著Google、Microsoft和Facebook等巨頭的大力投入,深度學習正在超越機器學習,人工智慧來勢兇猛。那麼,如今人工智慧最熱門的技術趨勢是什麼?
黑匣認為,複雜神經網路、LSTMs(長短期記憶網路)、注意力模型(Attention Models)等十大趨勢將塑造人工智慧未來的技術格局。
上述判斷來自NIPS(神經資訊處理系統) 2015大會。NIPS始於1987年,是人工智慧領域兩大重要學習會議之一,由於AI的爆炸式發展,近年來逐漸成為許多矽谷公司必須參加的年度會議。
在蒙特婁召開的NIPS 2015吸引了眾多AI學界與業界的頂級專家,與會人數接近4000。大會總共收錄了403篇論文,其中深度學習課題約佔11%。來自Dropbox的高級軟體工程師Brad Neuberg分享了他所注意到的十大技術趨勢,黑匣將對每種趨勢做了詳細分析。
1、神經網路的架構正變得越來越複雜
感知和翻譯等大多數神經網路的架構正變得越來越複雜,遠非此前簡單的前饋神經網路或卷積神經網路所能比。特別需要注意的是,神經網路正與不同的技術(如LSTMs、卷積、自訂目標函數等)相混合。
神經網路是多數深度學習專案的根基。深度學習基於人腦結構,一層層互相連接的人工類比神經元模仿大腦的行為,處理視覺和語言等複雜問題。這些人工神經網路可以收集資訊,也可以對其做出反應。它們能對事物的外形和聲音做出解釋,還可以自行學習與工作。
(人工類比神經元試圖模仿大腦行為 | 圖片來源:Frontiers)
但這一切都需要極高的計算能力。早在 80 年代初期,Geoffrey Hinton和他的同事們就開始研究深度學習。然而彼時電腦還不夠快,不足以處理有關神經網路的這些龐大的資料。當時AI研究的普遍方向也與他們相反,人們都在尋找捷徑,直接模擬出行為而不是模仿大腦的運作。
隨著計算能力的提升和演算法的改進,今天,神經網路和深度學習已經成為人工智慧領域最具吸引力的流派。這些神經網路還在變得更複雜,當年“谷歌大腦”團隊最開始嘗試“無監督學習”時,就動用了1.6萬多台微處理器,創建了一個有數十億連接的神經網路,在一項實驗中觀看了千萬數量級的YouTube圖像。
2、酷的人都在用LSTMs
當你閱讀本文時,你是在理解前面詞語的基礎上來理解每個詞語的。你的思想具有連續性,你不會丟棄已知資訊而從頭開始思考。傳統神經網路的一大缺陷便是無法做到這一點,而遞迴神經網路(RNN)能夠解決這一問題。
RNN擁有循環結構,可以持續保存資訊。過去幾年裡,RNN在語音辨識和翻譯等許多問題上取得了難以置信的成功,而成功的關鍵在於一種特殊的RNN——長短期記憶網路(LSTMs)。
普通的RNN可以學會預測“the clouds are in the sky”中最後一個單詞,但難以學會預測“I
grew up in France… I speak fluent French.”中最後一個詞。相關資訊(clouds、France)和預測位置(sky、French)的間隔越大,神經網路就越加難以學習連接資訊。這被稱為是“長期依賴關係”問題。
(長期依賴問題 | 圖片來源:CSDN)
LSTMs被明確設計成能克服之一問題。LSTMs有四層神經網路層,它們以特殊的方式相互作用。這使得“能記住資訊很長一段時間”可以被視作LSTMs的“固有行為”,它們不需要額外學習這一點。對於大多數任務,LSTMs已經取得了非常好的效果。
3、是時候注意“注意力模型(attention models)了
LSTMs是人們使用RNNs的一個飛躍。還有其他飛躍嗎?研究者共同的想法是:“還有注意力(attention)!”
“注意力”是指神經網路在執行任務時知道把焦點放在何處。我們可以讓神經網路在每一步都從更大的資訊集中挑選資訊作為輸入。
例如,當神經網路為一張圖片生成標題時,它可以挑選圖像的關鍵部分作為輸入。
4、神經圖靈機依然有趣,但還無法勝任實際工作
當你翻譯一句話時,並不會逐個詞彙進行,而是會從句子的整體結構出發。機器難以做到這一點,這一挑戰被稱為“強耦合輸出的整體估計”。NIPS上很多研究者展示了對跨時間、空間進行耦合輸出的研究。
神經圖靈機(Neural Turing Machine)就是研究者們在矽片中重現人類大腦短期記憶的嘗試。它的背後是一種特殊類型的神經網路,它們可以適應與外部記憶體共同工作,這使得神經網路可以存儲記憶,還能在此後檢索記憶並執行一些有邏輯性的任務。
(模仿人類短期工作記憶的神經圖靈機 | 圖片來源:arXiv)
2014年10月,Google DeepMind公佈了一台原型電腦,它可以模仿一些人類大腦短期工作記憶的特性。但直到NIPS2015,所有的神經圖靈機都過於複雜,並且只能解決一些“小玩具”問題。在未來它們或將得到極大改進。
5、深度學習讓電腦視覺和自然語言處理不再是孤島
卷積神經網路(CNN)最早出現在電腦視覺中,但現在許多自然語言處理(NLP)系統也會使用。LSTMs與遞迴神經網路深度學習最早出現在NLP中,但現在也被納入電腦視覺神經網路。
此外,電腦視覺與NLP的交匯仍然擁有無限前景。想像一下程式為美劇自動嵌入中文字幕的場景吧。
6、符號微分式越來越重要
隨著神經網路架構及其目標函數變得日益複雜和自訂,手動推導出“反向傳播”(back propagation)的梯度(gradients)也變得更加苦難而且容易出錯。谷歌的TensorFlow等最新的工具包已經可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓練時誤差梯度可被反向傳播。
7、神經網路模型壓縮的驚人成果
多個團隊以不同方法大幅壓縮了訓練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數、反覆運算修剪和精細調優步驟等。
這些技術潛在的應用前景廣闊,可能將會適應在行動設備上進行複雜模型的訓練。例如,不需要延遲就可以得到語音辨識結果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在行動設備上也可以運用複雜神經網路模型,從而近乎即時地完成電腦視覺任務。
8、深度學習和強化學習繼續交匯
雖然NIPS 2015上沒有什麼強化學習(reinforcement learning)的重要成果,但“深度強化學習”研討會還是展現了深度神經網路和強化學習相結合的前景。
在“端對端”(end-to-end)機器人等領域出現了令人激動的進展,現在機器人已經可以一起運用深度和強化學習,從而將原始感官資料直接轉化為實際動作驅動。我們正在超越“分類”等簡單工作,嘗試將“計畫”與“行動”納入方程。還有大量工作需要完成,但早期的工作已經使人感到興奮。
9、難道你還沒有使用批次標準化?
批次標準化(batch normalization)現在被視作評價一個神經網路工具包的部分標準,在NIPS 2015 上被不斷提及。
10、神經網路研究與優化齊頭並進
創造新的神經網路方法需要研究者,還需要能將它們迅速付諸實踐的方法。谷歌的TensorFlow是少數能夠做到這些的庫:使用Python 或 C++等主流程式設計語言,研究者可以迅速創作新的網路拓撲圖,接著在單一或多個設備(包括行動設備)上進行測試。
沒有留言:
張貼留言