‧ Google 人工智慧攻破了圍棋，然後呢？

leiphone 曉樺

Google日前宣佈其程式AlphaGo擊敗了歐洲圍棋職業選手，這意味著人工智慧技術又或得了極大的突破。

電腦目前已經在許多智力遊戲比賽上戰勝了人類頂級選手，包括國際象棋、五子棋、黑白棋、拼字遊戲等等。而對於有著2500年歷史的東方遊戲圍棋——比國際象棋要複雜得多——人類始終能夠保持在和電腦對決中的勝利。

不過，Google人工智慧專家表示，這個壁壘或許很快將要被打破。隨著AlphaGo在沒有任何讓子的情況下以5：0完勝法國圍棋職業二段棋手樊麾，AlphaGo將在三月份對戰韓國九段棋手李世乭。

今天早上(1/28)，《自然》雜誌發表了一篇Google DeepMind團隊——程式AlphaGo的創造者撰寫的關於深度學習系統的論文。根據論文描述，在AlphaGo中，DeepMind研究員在程式中錄入了大量職業棋手的棋譜——加起來多達3000萬步——他們用增強學習的方法訓練AI，讓它自己下棋，研習棋譜。

不過這只是第一步。理論上，這樣的訓練只能讓這個人工智慧系統，無法突破人類的計算。為了獲得更好的成績，研究員隨後讓系統進行自我博弈，計算出比基礎棋譜更多新的打點。也就是說，戰勝人類就要靠這些新的東西。

“這其中最重要的是，AlphaGo不僅記錄著大量的棋譜，還有一系列規則來指導‘思考’，”DeepMind CEO Demis Hassabis說道，“事實上，該程式能夠通過機器學習的方式掌握比賽技巧。”

DeepMind的技術核心結合了“強化學習”及其他人工智慧手段，這種技術能夠用於解決現實機器人執行實體任務，和對環境作出回應的技術問題。就是說，要讓機器人變得更“自然”。

視覺判斷

2014年初， Coulom的圍棋程式“瘋石（Crazystone）”在一次比賽中，戰勝九段棋手依田紀基。但是當時是在人類棋手讓出4子的情況下贏得比賽，而這次AlphaGo並沒有被讓子，可以說比賽很公平。

人工智慧戰勝人類圍棋到底有多難？即使是最強大的電腦系統，也無法在合理的時間內，分析出下一步最優的走法。1997年IBM超級電腦“深藍”則利用了蒙特卡洛搜尋樹的方式做到了這一點。“深藍”能夠預測出對手下一步會怎麼走，而且計算力遠高於人類。

但是，圍棋要複雜得多。國際象棋每一步平均只有35種可能性的走法，但是圍棋呢——在19*19的棋盤內，共有361個點，就機器學習的角度而言，圍棋的計算最大有3^361次方種局面，大致的體量是10^170，而已經觀測到的宇宙中，原子的數量才10^80。國際象棋最多只有2^155種局面使用蒙特卡洛樹搜索技術，Crazystone等系統，能夠進行更長遠的計算。

而結合其他技術的話，它們能夠對可能性走法進行篩選，然後選擇出最優的策略。在大多數情況下，它們能夠戰勝人類選手，但不是最厲害的那一個。頂級大師中，走法很多時候依靠直覺——做棋除了需要計算，還有棋感——棋手能夠根據棋形分析攻防線路。“好的棋形看起來順手多了，”Hassabis本身也是一名圍棋手，“這其中不只有計算角力，還有審美。這也是圍棋幾千年來都讓人著迷的原因。”

因此，從2014年至2015年間，包括Facebook、愛丁堡大學、DeepMind等人工智慧研究團隊都將圍棋人工智慧系統的突破方向瞄準為——使得程式能夠模仿人類的直覺式思維。

自我強化

深度學習要依靠神經網路技術，它是可以類比人腦中神經元網路的軟硬體網路。神經網路不會依靠蠻力或預先輸入的規則，而是會分析大量數據，“學習”特定的任務。給神經網路提供足夠的喵星人照片，它就能學習辨識喵星人；提供足夠的語音，它也會學習理解人類的語言；提供足夠的圍棋走法，它也會學會圍棋。

在DeepMind，愛丁堡和Facebook，研究人員希望神經網路能像人類選手一樣，通過觀看棋盤學習圍棋。Facebook在最新的研究中表明，這種方法確實可行。結合深度學習與蒙特卡洛樹搜索方法，Facebook打敗了一些人類選手，雖然並非是Crazystone和其他頂尖選手。

但DeepMind走得更遠。在經過3000萬步人類走法的訓練後，它的神經網路能以57%的準確度（此前記錄是44%）預測人類的下一步。然後Hassabis和團隊通過強化學習技術，讓這一神經網路與它自己的另一個稍有區別的版本對戰。兩者互搏中，系統會評估哪一步效果最好，即佔領更多棋盤區域。最終，神經網路在判斷哪一步更好時會越來越優秀。

DeepMind的研究者David Silver表示，“在與其它神經網路和它自己對戰數百萬局後，AlphaGo學會了自己發現新策略，並逐漸提高了水準。”

正是這種方法幫AlphaGo超越了其它圍棋AI系統，包括Crazystone。但事情還沒完，研究人員隨後將結果再回饋給第二個神經網路。瞭解前任的走法了，第二個神經網路會使用許多相同的技術來判斷每一步的後果。這一過程與深藍等舊系統在國際象棋上的做法類似，只是它會在下棋過程中學習，分析更多資料，而非暴力破解所有可能的步驟。這樣，AlphaGo不僅能戰勝AI，還能戰勝頂尖人類選手了。

電腦網路

李世乭

與其它神經網路一樣，DeepMind的系統運行在配備了GPU的機器上。GPU最初用於渲染遊戲圖像，但後來有人發現，它們很適合深度學習。Hassabis表示，DeepMind系統在裝備了一定數量GPU晶片的單一電腦上也可以用，但與樊麾對戰中，他們用上了更大的電腦網路，其包括170個GPU和1200個標準CPU。大的電腦網路訓練了同樣的系統並進行了實際對戰，還借鑒了訓練的結果。

儘管Hassabiss會不斷改善系統，但待AlphaGo與韓國選手李世乭對戰時，他們會使用相同的配置。比賽中系統也需要網路連接，而且他們會“自己鋪設光纖”。

挑戰世界冠軍比挑戰樊麾難得多，但Coulom還是認為DeepMind會贏。他過去數十年一直在開發能打敗最好選手的系統，現在他認為這一目標已經實現了，他買GPU會贏。

接下來……

AlphaGo的重要性不言而喻。同樣的技術還能用於機器人和科學研究，以及類似於Siri的數位助理和金融系統。深度學習創業Skymind的創始人Chris Nicholson就認為，技術“能用於任何對抗性問題，任何類似於遊戲且需要策略的事情，包括戰爭、商業和交易”。

對有些人來說，這是一件值得憂慮的事，特別是DeepMind的系統還能自己學會下圍棋。它不僅能從人類提供的數學中學習，還能生成自己的資料，在與自己下棋中學習。特斯拉創始人埃隆·馬斯克等大佬多次聲明，這類AI系統會最終超越人類智慧，脫離掌控。

幸而DeepMind的系統還在Hassabis等人的控制之下。雖然他們用系統破解了複雜的遊戲，但這仍只是個遊戲。AlphaGo離人類智慧還很遠，更不論超級智慧了。下棋是一種高度結構化的情景，系統也沒有人類級別的理解力。但它代表了一種方向，即如果AI能理解圍棋，它也會理解更多事。如果宇宙就是一局超大型的圍棋呢？

via Wired

按此回今日3S Market新聞首頁

3S MARKET

‧ Google 人工智慧攻破了圍棋，然後呢？

0 comments:

Recent Comments

Arsip Blog