2016年5月30日 星期一

.讓機器做夢?實現無監督學習的關鍵

 leiphone  新智元



按:本文作者朱不換。

「讓機器會做夢,從某種程度上來說,是人工智慧發展的一個關鍵技能」,Bengio在接受O'reilly的採訪時說到。在這裡,「做夢」代表的是想象的能力,也是監督學習和無監督學習的主要區分之一,如果只能通過監督學習的方法來學習,那就必須要通過真實經歷,才能產生認知。

在對真正的人工智的探索中,無監督學習仍然是關鍵謎題之一。我們可以在一個最不可思議的地方,即機器所做的夢裡,找到一種對我們朝著這一目標的進度的測量。

Yoshua Bengio 是蒙特婁大學計算機科學與運籌學系教授,也是該系的機器學習實驗室(MILA)主任,並擔任加拿大統計學學習算法研究主席。他的研究目標是理解那些產生智慧的學習過程的原則。

要點
自然語言處理(NLP)自出現以來已走過了一段很長的路。通過向量描述和定制的深度神經網路等技術,該領域已經向著真正的語言理解邁出了有意義的步伐。

深度學習所支持的語言模型與喬姆斯基學派的模型不符,而是源於從1980年代開始流行的聯結主義思想。

在神經科學與機器學習的關係方面,二者總是互相激勵,一方的進步為另一方帶來新的啓發。

在對真正的人工智能的探索中,無監督學習仍然是關鍵謎題之一。我們可以在一個最不可思議的地方——機器所做的夢裡——找到一種對我們朝著這一目標的進度的測量。

Yoshua Bengio 是蒙特婁大學計算機科學與運籌學系教授
該系的機器學習實驗室(MILA)主任
加拿大統計學學習算法研究主席

O'reilly讓我們從聊聊你的個人背景開始吧。

Yoshua我從1980年代起就研究神經網路。我於1991年在麥吉爾大學獲得了博士學位,此後我在麻省理工學院跟從Michael Jordan做博士後研究。之後,我在貝爾實驗室與Yann LeCun, Patrice Simard, Léon Bottou, Vladimir Vapnik等人一起工作。後來我又回到了蒙特婁,並在這裡度過了人生的大部分時光。
 

由於造化弄人,神經網路在1990年代遇冷,直到上一個十年才復興。不過在那段時間裡,我的實驗室和其他幾個團隊仍在前進。而後在2005年或2006年前後,我們取得了突破。我們首次發現了能成功地訓練神經網路的方法,而此前的嘗試都未能成功。

從那時起,我的實驗室便逐漸成長為一個擁有五到六位教授的研究機構,總共擁有65位研究員。在這些年間,除了促進無監督學習領域的發展之外,我們的團隊還對自然語言、遞歸網路等不少領域作出了貢獻。其中,遞歸網是一種用來處理語言和其他領域中的序列的神經網

同時,我也對神經科學與深度學習之間的聯繫非常感興趣。這種關係是雙向的。一方面,19世紀50年代,人工智能最開始發端時,某些研究趨勢是從人類心智研究來支撐的。不過,自從神經網路東山再起之後,情況就反轉了,我們開始指望機器學習作為一種思路,發現對大腦學習過程的高階理論解釋。

Yoshua在自然語言處理研究上的貢獻
O'reilly讓我們接下來談談自然語言。這個領域是如何發展的?

Yoshua我在2000年的神經資訊處理系統進展大會(NIPS)上,發表了我的第一篇關於自然語言處理的重要文章。當時人們普遍認為,最高水平的語言處理方法,也無法實現人工智慧,坦白地說,因為這些方法還太笨了。當時流行的基本技術是去數一下某個詞,後面跟著另一個詞的情況出現過多少次,或者一個由三個詞組成的序列出現過多少次——並由此來預測某個詞的下一個詞或者去翻譯一個詞或詞組。

然而,這樣一種方法缺乏關於意義的概念,不能運用於那些高度複雜的概念,也無法被正確泛化到未曾見過的詞語。考慮到這一點,我便用神經網路來著手處理這一問題,我相信神經網路能夠克服「維數災難」,並提出了一組方法和論證 。從那時起,這些方法和論證便成為了對深度學習的理論分析的核心方法和論證

這個所謂的「維數災難」涉及機器學習面臨的一個基礎性難題。當我們試圖使用大量變量來預測某個東西的時候,這些變量的各種可能的組合方式的數量極大,而這使得問題的難度會呈指數級增加



例如,如果你考慮一個由三個詞組成的序列,其中每個詞都來自一個十萬詞的詞庫,那麼一共有多少個可能的序列呢?一共有10,00003次方個序列。一個人一輩子,也不可能把所有這些序列都數完。更糟糕的是,典型的短句子大約由十個左右的單詞構成,而如果你考慮一個由十個詞構成的序列,那麼你將面臨的數字是10,000010次方,一個大得不可思議的數字。

值得慶幸的是,我們可以用對詞的代表(即所謂的詞向量)來替代詞,並學習這些詞向量。每個詞都被映射到一個向量,而這個向量自身是一組數字,這些數字分別對應於,從詞上自動學習到詞的特徵。學習系統同時利用這些特徵,來學習如何在給定前面的詞的情況下,去預測下一個詞,或者學習如何產生一個譯文句子。

可以把詞向量設想為一個(以詞為行,以特徵為列的)巨大表格,其中每一個詞向量,都由數百個特徵構成。機器讀取這些特徵並把它們輸入到一個神經網路。這個神經網路有多個輸出,它為詞庫中的每個詞都產生一個輸出,而除此之外它在其他方面,都類似於傳統網路。要正確地預測句子中的下一個詞,或者要確定句子的正確譯文,該神經網路可能需要產生100,000個輸出。

這個方法很管用。剛開始時,我們在比較小的規模上測試這一方法。接下來的十年,研究者在「更大的數據集上訓練越來越大的模型」這個方向取得了巨大的進步。這一技術已經取代了一些陳舊的自然語言處理方法,並一再戰勝那些最高水平的測試標準。

說得更大一點,我相信我們正處於自然語言處理領域的巨大轉變之中,特別是在涉及語義的方面。換句話說,我們正在通向對自然語言的理解,尤其能體現出這一點的是,近期對遞歸網絡的擴展已包含了推理的部分。

除了對自然語言處理的直接影響之外,該工作也涉及到人工智慧領域的其他臨近主題,例如機器如何回答問題和進行對話。

此前,DeepMind 在《自然》雜誌上發表了一篇論文,其主題與關於對話的深度學習緊密相關。他們的論文描述了一種,擊敗了歐洲圍棋冠軍的深度強化學習系統。無論以何種標準,圍棋都是一種非常難的遊戲,這使得許多人預測要到幾十年後,電腦才能與職業圍棋手對戰。換個角度看,一個像圍棋這樣的遊戲,很像一場人類玩家與機器之間的對話。我很期待能看到這些研究將通向何方。
 

語言理論框架的問題
O'reilly深度學習與喬姆斯基的語言理論的相符程度如何?

Yoshua深度學習指向與喬姆斯基完全相反。深度學習幾乎完全依賴通過數據進行的學習。當然,我們設計了神經網路的構架,但在大部分時候,它都依賴於數據、大量的數據。至於喬姆斯基,則是聚焦於固有語法和對邏輯的使用,而深度學習則關注意義。

我們發現,語法只是像蛋糕上的糖霜一樣的表層的東西。相反,真正重要的東西是我們的意圖:我們對詞的選擇,決定了我們要表達什麼意義,而與詞相聯繫的意義是可以被學習的。這些思想都與喬姆斯基學派的觀點針鋒相對。 

O'reilly是否有其他語言學學派的觀點與深度學習更吻合呢?

Yoshua1980年代的時候,一些心理學家、計算機科學家和語言學家,發展出了認知心理學的聯結主義路徑。通過使用神經網路,這些研究者依靠來自神經科學的概念為人類如何思考、如何學習的問題帶來了新的啓發。實際上,反向傳播算法和其他一些今天仍在使用的算法都可以回溯到當年的那些努力。

機器學習模式VS人類學習模式
O'reilly這是否意味著兒童早期語言發展,或者人類心智的其他功能,有可能在結構上與反向傳播算法,或其他這類算法相同?

Yoshua我們研究社區中的研究者們,有時會從大自然與人類智慧中尋找啓發。舉個例子,就拿課程學習(curriculum learning)這種方法來說吧。這種方法促進了深度學習,特別是在推理任務方面。

相反,傳統的機器學習把所有的實例都裝進一個大袋子,並讓機器以隨機的順序檢測這些實例。人類可不是以這種方式來學習的。通常,在教師的指導下,一開始,我們學習比較容易的概念,隨後才逐步學習處理那些越來越難和複雜的概念,整個過程都建立在我們早先的進展的基礎之上。

從最優化的角度來看,訓練一個神經網路是困難的。儘管如此,通過從小處著手並逐漸地增加難度的層級,我們可以解決一些此前被認為是太困難而無法學習的任務。

深度學習框架的演化過程
O'reilly你的工作包括關於深度學習構架的相關研究。你可以談談這些構架是如何隨著時間演化的嗎?

Yoshua我們從1980年代到21世紀的第一個十年都在使用同一種非線性構架,但我們不一定非要使用這種構架。

過去,我們依賴雙曲正切函數,它是一種平緩遞增的曲線,對小數值和大數值的變化不敏感,但卻會對中間數值做出反應。在我們的工作中,我們發現了另一種隱藏在平凡外表之下的非線性,即整流函數(rectifier,它讓我們能夠訓練更深度的網路。

這一模型從人腦那裡獲得了啓發,因為與雙曲正切函數相比,人腦更符合整流函數的模式。有趣的是,這種模型為什麼會有效,其原因仍然有待澄清。在機器學習領域,理論常常產生於實驗之後。

機器學習的遠方
O'reilly未來有哪些其他的挑戰是你想談談的呢?

Yoshua除了理解自然語言之外,我們也在關注推理本身。對符號、數據結構和圖象進行處理,這曾經是(無學習的)人工智能的經典領域,但在過去幾年中,神經網路重新導向了這類嘗試。

我們已經看到一些模型,它們能夠處理堆棧和圖象等數據結構,用內存來儲存和提取對象,通過一連串的步驟進行工作。這些模型在支持對話,和其他需要綜合不同證據的任務時,也有一定的潛力。

除了推理之外,我也對無監督學習很感興趣。在很大程度上,機器學習的進步是由對大規模數據集進行訓練所帶來的利益所驅動的,這些數據集帶有數以百萬計的標記實例,而對這些標記實例的解釋是由人來完成的。

這樣的方法無法規模化:在現實中我們不可能為每一件東西做標記,並一絲不苟地向電腦解釋所有的細節。而且,人類在學習大多數東西的時候,也根本不是這樣學的。

當然,作為有思考能力的動物,我們人類既向我們的環境和人類同伴提供反饋,也依賴來自他們的反饋。但如果與一個典型的標記數據集相比較的話,這些反饋的數量是十分稀少的。

簡單說來,就是一個孩子在世界中觀察他的環境,不斷努力地理解環境以及事物背後的原因。在他追求知識的過程中,他試驗並提出問題,從而持續地對他為環境所建立的內在模型進行修正。

若要機器以類似的方式學習,我們需要在無監督學習方面取得更多進步。目前,這一探索中最令人振奮的領域是圖像生成。考察一個機器的無監督學習能力的一種方式是:向它展現許多圖像,比方說汽車的圖像,並要求它「想象」出一個新的汽車模型——人們已經證明這種方法適用於汽車、臉龐和其他種類的圖像。

不過,與電腦繪圖(computer graphics)所能達到的水平相比,這些生成的圖像的視覺品質仍相當糟糕。

如果當我們要求電腦生成一幅嶄新,但像樣的圖像的時候,它能產生一個合理的、並非複製品的輸出,這就將意味著它對這些對象的理解,已經達到了很深的水平。也就是說,在某種意義上,這台電腦已經發展出了一種,對這些對象的深層解釋的理解。

會做夢的機器人
O'reilly你剛才說你會要求電腦「做夢」。在某種意義上,或許可以問,是不是像Philip K.Dick說的那樣,機器人也會夢見電子羊呢?

Yoshua是的。我們的機器已經在做夢了,不過是以一種模糊的方式。我們通過「想象」這種工具,來設想那些我們並未實際經歷的東西,而機器人的夢仍不如人類的夢和想象那樣活潑和富於內容。

我能夠想象,開車時因為轉向錯誤而與迎面來車相撞的後果,謝天謝地我並不需要實際經歷這些,就能認識到這樣做的危險。如果只能通過監督學習的方法來學習,那就必須真實經歷這些場景,以及這些場景的無窮無盡的置換排列。我們在無監督學習方面的研究,目標是幫助機器在它關於世界的現有知識的前提下,推理和預測將來可能發生什麼。這代表了人工智慧的一種關鍵技能。


正是這樣的方法在驅動著科學的前進。那就是,從給定的觀察中辨認出因果解釋的方法論路徑。換句話說,我們致力於讓計算機能像小科學家或小孩子一樣做研究。或許需要幾十年才能達到這種真正自主的無監督學習,不過我們已經在這條探索之路上了

                                                                                                                                                                                                                            


http://www.finegroup.com.tw
SONY 監控設備台灣總代理 上敦企業

沒有留言:

張貼留言