‧ AlphaGo 只是開頭——深度解析谷歌人工智慧計畫

leiphone 逸炫

via MIT Technology Review

打敗了世界圍棋冠軍，這只是萬里長征的第一步。

加了墊子的牆，昏黃的燈光，花樣牆紙的天花板。這裡一點也不像能做出改變世界的尖端發現。但在這些讓人快要幽閉恐懼症的模擬走廊裡，Demis Hassabis認為，他在為創造足以解決人性最大難題的軟體鋪設道路。

“我們的目標很大，”Hassabis說，他冷靜穩健的風格讓人無法想像他概念的大膽。他在谷歌DeepMind領導一只有200名電腦科學家和神經學家的團隊，DeepMind就是在3月初打敗了人類圍棋大師的AlphaGo背後的位於倫敦的團隊，創造了電腦歷史上的里程碑。

但是，Hassabis說這只是萬里長征的第一步，作為人工智慧領域的阿波羅計畫，目標“解決智慧問題，然後用它解決其他所有問題。”如今判斷智慧軟體的標準具體到了一個特定的任務——面部識別。Hassabis希望創造他所稱的“綜合智慧”——像人類一樣可以學會完成任何任務。他展望未來人工智慧可以做各種事情，通過形成和測試科學假說推進醫學發展，或者用輕巧靈活的機器人身體跳來跳去。

要實現這個目標，DeepMind的軟體必須超越黑白分明、秩序井然的圍棋世界。它需要掌握亂糟糟的真實世界——或者從一個昏暗的、圖元化的類比世界開始。DeepMind的模擬世界叫做Labyrinth，公司在用它讓軟體嘗試非常複雜的任務，例如在迷宮中導航。這會推動DeepMind研究員鑽研如何製造更智慧的軟體，推動軟體學會面對更難的決策和問題。他們利用了之前AlphaGo以及DeepMind更早炫耀過的技能，DeepMind學會玩二十世紀八十年代的太空入侵者等復古Atari遊戲，玩得比人類都好。但要成功，Hassabis必須想出辦法，解決人工智慧領域中一些年代已久的問題。

自我改善

39歲的Hassabis此生很多時間都在研究如何創造智慧。當年象棋神童提早從高中畢業，開始了視頻遊戲職業生涯。後來他獲得了神經科學的博士學位，發佈了關於記憶與想像的影響廣泛的論文。

Hassabis在2011年聯合創建了DeepMind，將他所學的生物智慧轉化到機器。公司在2013年12月發佈了學會Atari遊戲的軟體，在2014年初被谷歌收購，據報導金額達4億英鎊，當時超過六億美元。DeepMind快速擴張，新增雇傭幾十名研究人員，在頂尖機器學習和人工智慧會議發表大量論文。今年一月，它宣佈了AlphaGo的存在，以及AlphaGo在2015年12月打敗了歐洲最強圍棋玩家的消息。本月初，AlphaGo打敗了世界圍棋冠軍李世石。

增強學習方法，是讓機器學習軟體學會更複雜任務的關鍵。

Atari遊戲和圍棋非常不同，但是DeepMind用同樣的方法解決了他們，從動物的訓練方式中獲得靈感：馴獸師可以用獎勵與懲罰教會動物新的招數。通過被稱為“加強學習”的方法，軟體被設計為可以探索新的環境，調整自己的行為，以獲得某種虛擬獎勵。

舉個例子，DeepMind的Atari軟體被設計為只能控制和看見遊戲螢幕，具有增加分數的動機。幾個小時的訓練就可以讓軟體提著鞋帶起身，打到人類專家。

AlphaGo結合了增強學習和其他元素，例如一個分析幾千萬個專業圍棋玩家棋譜從而學會評估不同走法的系統，還有一個搜索機制來選擇最佳走法。但是，讓AlphaGo能夠打敗世界冠軍的，是與自己練習幾百萬次的增強學習。

via MIT Technology Review

Hassabis認為，增強學習方法是讓機器學習軟體學會更複雜任務的關鍵，比軟體現在能玩的要複雜得多，例如記錄我們的話語、理解圖片的內容。“我們不認為僅僅觀察就足夠智慧，你還必須行動。”他說，“最終，這是唯一你可以理解世界的方法。”

DeepMind的三維環境Labyrinth，基於一個開源的第一人稱射擊遊戲Quake，專門為驗證該想法而設計。公司已經用它來讓機器參與遊戲，60秒內探索隨機生成的迷宮，收集蘋果或找到出口（可通往另一個隨機生成的迷宮）可獲得分數。未來的挑戰可能要去更複雜的計劃性——例如，懂得要是可以打開門。公司還會以其他方式測試軟體，並在考慮挑戰星際爭霸和撲克牌。但是一段時期內，在Labyrinth裡設置越來也難的挑戰將會是主要的研究方式，Hassabis說，“接下來幾年都夠用了。”

增強學習在未來的二至三年，會像深度學習一樣影響巨大。

其他研究人工智慧的公司和研究員會緊密關注著。DeepMind增強學習的成功讓很多機器學習研究員吃了一驚。這項技術是二十世紀八十年代創建的，之前沒有其他訓練軟體的方法那麼廣泛使用和效果強大，華盛頓大學研究機器學習的教授Pedro Domingos說。DeepMind加強了這項技術，把它和深度學習方法結合起來。深度學習最近有了重大突破，能讓電腦解碼圖片等資訊，引發了最近機器學習的熱潮。

“DeepMind所做的很了不起，”Domingos說。但是他還說，Hassabis想做的是一個超越現在所有研究的火箭，還是後院裡放的煙火，現在要下定論還為時過早——近期讓人眼花繚亂的成功不一定能持續。“Demis對增強學習的樂觀態度不只是處於成功經驗，”Domigos說，“機器學習和人工智慧領域中，進步不是線性的；我們有時候會突飛猛進，有時候會慢慢前行。”

Hassabis承認，業界”很多“人都懷疑增強學習的潛能，但是他們不會買帳。“我們越是深入，越是感覺我們的理論是正確的，我想我們正在改變整個領域，”他說。“我們認為增強學習在未來的二至三年會像深度學習一樣影響巨大。”

安全第一

DeepMind的成功目前支持Hassabis關於增強學習會有很多應用的說法。AlphaGo的成功讓很多專業圍棋手和電腦專家驚訝，因為圍棋實在非常複雜，很難讓基本依靠計算不同走法可能結果的軟體勝利，也就是1997年IBM的深藍用來打敗世界象棋冠軍Garry Kasparov的方法。平均來說，象棋玩家每一步有35種可能的走法；在圍棋中，有250種。圍棋中位置可能性排列組合的數量，比宇宙中原子的數量都多。“象棋是一種計算遊戲，”Hassabis說，“圍棋太複雜，所有玩家靠的是直覺。在類別上完全不一樣。你可以把AlphaGo想像成一個超級人類的直覺，而非超級人類的計算。”

圍棋世界冠軍李世石回顧他1-4敗於AlphaGo的比賽。圖片來源MIT Technology Review。

不論你是否同意AlphaGo具有直覺，能讓軟體掌握更複雜的任務顯然很有用。DeepMind正在和英國國家健康服務的專案合作，訓練軟體説明醫務工作人員發現腎臟問題的跡象，這些問題經常被忽視，並造成大量可以避免的死亡。團隊還在和穀歌業務團隊合作，Hassabis說他的技術可以讓虛擬助理浮現，改善推薦系統，這對於YouTube等產品非常重要（類似的系統也是穀歌廣告產品的基礎）。

能解決問題的一個非主流辦法是，學習真實的大腦。

更遠的未來，DeepMind需要很多突破，才能往Hassabis解決智慧的目標靠近，即使是未來幾年都在Labyrinth裡面試驗。最關鍵的一個缺口是一種叫做分塊的技能，人類和動物的大腦用以處理世界的複雜性。Hassabis舉了個去機場的例子，你可以想好如何去機場並且完成計畫，而不用考慮走去門口的時候每一步走在哪兒，如何轉動門把手或控制每一個肌肉纖維。我們可以用高層次的概念來計畫和行動，而不用考慮每一個細節，並且通過重新組合我們熟悉的“分塊”，或者概念，來適應新環境。“這大概是人工智慧領域內未解決的最核心問題之一。”Hassabis說。

這是許多研究團隊在鑽研的問題，包括其他谷歌團隊。但是，DeepMind希望能解決問題的一個非主流辦法是，學習真實的大腦。公司有一個由著名研究員Mattew Botvinick領導的神經科學家團隊，他直到最近一直是普林斯頓大學的教授。與大部分神經科學研究不同的是，他們不僅要研究大腦如何運作，還要告訴DeepMind如何設計軟體。

有一個近期試驗測試了Hassabis關於人腦如何組織概念的理論，利用一個偽造記憶的標準程式。它給測試物件呈現一系列相關詞，例如“冷”、“雪”和“冰”。人們經常錯誤地記得聽到一些其他相關詞，例如”冬天“。

3月，AlphaGo與李世石的比賽進行中的DeepMind員工。via MIT Technology Review。

“根據我的機器學習概念，我想這一定暗示了那種概念資訊如何在大腦中組織，“Hassabis說。DeepMind團隊研究出一個大腦的顳葉前部如何組織概念的理論，通過觀察正在進行記憶任務的人的大腦，確認了理論的假說。這項結果可能會改變DeepMind設計人工神經網路來呈現資訊的方式。

DeepMind的”待發現“列表上還有，將它在軟體上做過的、抓取文本意義的實驗，與Labyrinth中漫遊的軟體實驗結合起來——有一個可能性是在虛擬空間內開始擺上標識。Hassabis說，他還在計畫一種“野心勃勃”的方法，來測試是否準備好面對比Labyrinth更加真實的世界。他希望DeepMind未來可以控制機器人，他認為機器人受限於軟體對世界的理解能力。“有一些很了不起的機器人，不能充分發揮他們的能力因為還沒有演算法。”他說。

如果成功，那會引發一些關於人的本質定義、以及人工智慧的合理使用範圍等嚴肅的哲學和倫理問題。Hassabis說，他鼓勵人們討論這項技術可能的風險。（雖然他滿意地表示，物理學家Stephen Hawking在於他見面後，已經停止警告人工智慧會毀滅人類；將人工智慧研究比作”召喚魔鬼“的Tesla創始人Elon Musk也被潑了冷水。）DeepMind有一個內部的哲學家、律師和商人團隊。Hassabis說也許”很快“就會公佈他們的名字，以及他也在努力召集一隊類似的外部團隊，在多個電腦公司間共用。

DeepMind的工程師們設計新實驗暫時還不需要倫理學指導，Hassabis說。”距離我們能擔心的成果還遠著呢，“他說，”更重要的是讓所有人加快速度。“如果所有都如Hassabis所願，他的倫理團隊才能真的有點事兒做。

Via MIT Technology Review

按此回今日3S Market新聞首頁