2016年2月1日 星期一

‧ Google 人工智慧攻破了圍棋,然後呢?

leiphone 曉樺
Google人工智能攻破了围棋,然后呢?

Google日前宣佈其程式AlphaGo擊敗了歐洲圍棋職業選手,這意味著人工智慧技術又或得了極大的突破。

電腦目前已經在許多智力遊戲比賽上戰勝了人類頂級選手,包括國際象棋、五子棋、黑白棋、拼字遊戲等等。而對於有著2500年歷史的東方遊戲圍棋——比國際象棋要複雜得多——人類始終能夠保持在和電腦對決中的勝利。

不過,Google人工智慧專家表示, 這個壁壘或許很快將要被打破。隨著AlphaGo在沒有任何讓子的情況下以50完勝法國圍棋職業二段棋手樊麾,AlphaGo將在三月份對戰韓國九段棋手李世乭。

今天早上(1/28),《自然》雜誌發表了一篇Google DeepMind團隊——程式AlphaGo的創造者撰寫的關於深度學習系統的論文。根據論文描述,在AlphaGo中,DeepMind研究員在程式中錄入了大量職業棋手的棋譜——加起來多達3000萬步——他們用增強學習的方法訓練AI,讓它自己下棋,研習棋譜。

不過這只是第一步。理論上,這樣的訓練只能讓這個人工智慧系統,無法突破人類的計算。為了獲得更好的成績,研究員隨後讓系統進行自我博弈,計算出比基礎棋譜更多新的打點。也就是說,戰勝人類就要靠這些新的東西。

“這其中最重要的是,AlphaGo不僅記錄著大量的棋譜,還有一系列規則來指導‘思考’,”DeepMind CEO Demis Hassabis說道,“事實上,該程式能夠通過機器學習的方式掌握比賽技巧。”

DeepMind的技術核心結合了“強化學習”及其他人工智慧手段,這種技術能夠用於解決現實機器人執行實體任務,和對環境作出回應的技術問題。就是說,要讓機器人變得更“自然”。

視覺判斷
2014年初, Coulom的圍棋程式“瘋石(Crazystone)”在一次比賽中,戰勝九段棋手依田紀基。但是當時是在人類棋手讓出4子的情況下贏得比賽,而這次AlphaGo並沒有被讓子,可以說比賽很公平。

人工智慧戰勝人類圍棋到底有多難?即使是最強大的電腦系統,也無法在合理的時間內,分析出下一步最優的走法。1997IBM超級電腦“深藍”則利用了蒙特卡洛搜尋樹的方式做到了這一點。“深藍”能夠預測出對手下一步會怎麼走,而且計算力遠高於人類。

但是,圍棋要複雜得多。國際象棋每一步平均只有35種可能性的走法,但是圍棋呢——在19*19的棋盤內,共有361個點,就機器學習的角度而言,圍棋的計算最大有3^361次方種局面,大致的體量是10^170,而已經觀測到的宇宙中,原子的數量才10^80。國際象棋最多只有2^155種局面使用蒙特卡洛樹搜索技術,Crazystone等系統,能夠進行更長遠的計算。

而結合其他技術的話,它們能夠對可能性走法進行篩選,然後選擇出最優的策略。在大多數情況下,它們能夠戰勝人類選手,但不是最厲害的那一個。頂級大師中,走法很多時候依靠直覺——做棋除了需要計算,還有棋感——棋手能夠根據棋形分析攻防線路。“好的棋形看起來順手多了,”Hassabis本身也是一名圍棋手,“這其中不只有計算角力,還有審美。這也是圍棋幾千年來都讓人著迷的原因。”

因此,從2014年至2015年間,包括Facebook、愛丁堡大學、DeepMind等人工智慧研究團隊都將圍棋人工智慧系統的突破方向瞄準為——使得程式能夠模仿人類的直覺式思維。

自我強化
深度學習要依靠神經網路技術,它是可以類比人腦中神經元網路的軟硬體網路。神經網路不會依靠蠻力或預先輸入的規則,而是會分析大量數據,“學習”特定的任務。給神經網路提供足夠的喵星人照片,它就能學習辨識喵星人;提供足夠的語音,它也會學習理解人類的語言;提供足夠的圍棋走法,它也會學會圍棋。

DeepMind,愛丁堡和Facebook,研究人員希望神經網路能像人類選手一樣,通過觀看棋盤學習圍棋。Facebook在最新的研究中表明,這種方法確實可行。結合深度學習與蒙特卡洛樹搜索方法,Facebook打敗了一些人類選手,雖然並非是Crazystone和其他頂尖選手。

DeepMind走得更遠。在經過3000萬步人類走法的訓練後,它的神經網路能以57%的準確度(此前記錄是44%)預測人類的下一步。然後Hassabis和團隊通過強化學習技術,讓這一神經網路與它自己的另一個稍有區別的版本對戰。兩者互搏中,系統會評估哪一步效果最好,即佔領更多棋盤區域。最終,神經網路在判斷哪一步更好時會越來越優秀。

DeepMind的研究者David Silver表示,“在與其它神經網路和它自己對戰數百萬局後,AlphaGo學會了自己發現新策略,並逐漸提高了水準。”

正是這種方法幫AlphaGo超越了其它圍棋AI系統,包括Crazystone。但事情還沒完,研究人員隨後將結果再回饋給第二個神經網路。瞭解前任的走法了,第二個神經網路會使用許多相同的技術來判斷每一步的後果。這一過程與深藍等舊系統在國際象棋上的做法類似,只是它會在下棋過程中學習,分析更多資料,而非暴力破解所有可能的步驟。這樣,AlphaGo不僅能戰勝AI,還能戰勝頂尖人類選手了。

電腦網路
Google人工智能攻破了围棋,然后呢?
李世乭

與其它神經網路一樣,DeepMind的系統運行在配備了GPU的機器上。GPU最初用於渲染遊戲圖像,但後來有人發現,它們很適合深度學習。Hassabis表示,DeepMind系統在裝備了一定數量GPU晶片的單一電腦上也可以用,但與樊麾對戰中,他們用上了更大的電腦網路,其包括170GPU1200個標準CPU。大的電腦網路訓練了同樣的系統並進行了實際對戰,還借鑒了訓練的結果。

儘管Hassabiss會不斷改善系統,但待AlphaGo與韓國選手李世乭對戰時,他們會使用相同的配置。比賽中系統也需要網路連接,而且他們會“自己鋪設光纖”。

挑戰世界冠軍比挑戰樊麾難得多,但Coulom還是認為DeepMind會贏。他過去數十年一直在開發能打敗最好選手的系統,現在他認為這一目標已經實現了,他買GPU會贏。

接下來……
AlphaGo的重要性不言而喻。同樣的技術還能用於機器人和科學研究,以及類似於Siri的數位助理和金融系統。深度學習創業Skymind的創始人Chris Nicholson就認為,技術“能用於任何對抗性問題,任何類似於遊戲且需要策略的事情,包括戰爭、商業和交易”。

對有些人來說,這是一件值得憂慮的事,特別是DeepMind的系統還能自己學會下圍棋。它不僅能從人類提供的數學中學習,還能生成自己的資料,在與自己下棋中學習。特斯拉創始人埃隆·馬斯克等大佬多次聲明,這類AI系統會最終超越人類智慧,脫離掌控。

幸而DeepMind的系統還在Hassabis等人的控制之下。雖然他們用系統破解了複雜的遊戲,但這仍只是個遊戲。AlphaGo離人類智慧還很遠,更不論超級智慧了。下棋是一種高度結構化的情景,系統也沒有人類級別的理解力。但它代表了一種方向,即如果AI能理解圍棋,它也會理解更多事。如果宇宙就是一局超大型的圍棋呢?

via Wired


按此回今日3S Market新聞首頁
                                                                                                                                                                                                                            

沒有留言:

張貼留言