AI Has Run 100,000 Simulations And Predicted This Year's World Cup Winner
2010年南非世界杯,神奇的章魚保羅,因成功連續預測了8場賽事而揚名世界。
八年,彈指一揮間(沒忘記你,巴西世界杯)。這一屆的世界杯冠軍又將花落誰家?顯然,章魚保羅已然指望不上了,但新的技術已經迫不及待地登場,8年後的俄羅斯世界杯,人工智慧登場了。
德國研究人員:西班牙機會最大,但可能被德國隊反轉
來自德國多特蒙德技術大學的 Andreas Groll ,和他的同事給出了一個答案。
他們使用了一種,結合機器學習和傳統統計學的,叫做「隨機森林」(Random Forest) 的算法,來分析最有可能奪冠的球隊。
隨機森林算法可以分析大型數據集,同時避免了其他數據挖掘算法的缺陷。傳統的數據挖掘算法,假設未來事件可以由決策樹決定,該決策樹透過引用一組訓練數據,來計算每個分支的結果。然而,決策樹有一個問題,即在分支過程的後一階段,由於訓練數據稀疏,容易產生巨大變化,從而導致決策嚴重扭曲,產生過度擬合問題。
隨機森林算法則不同。它不是計算每個分支的結果,而是計算隨機分支的結果,如此計算多次,每次都有不同的隨機選擇的分支,最終結果是所有這些隨機建構的決策樹的平均值。
這種方法有顯著的優點。它不存在困擾普通決策樹的過度擬合問題,並且可以顯示關鍵變量。因此,如果一個特定的決策樹包含許多參數,很容易看出哪些參數,對結果的影響最大,而弱變量可以被忽略。
Groll 和他的同事,正是用這種方法,來模擬 2018 世界杯。他們對球隊,可能進行的每一場比賽的結果,進行建模,並利用結果建構出最有可能的比賽進程。
Groll 和 co 選定了一系列,可能決定結果的潛在因素,進行建模:一國 GDP 和人口數、國際足聯對國家隊的排名、球隊本身屬性(比如隊員平均年齡、擁有的歐冠球員的數量、是否有主場優勢等)。
下圖顯示了球隊在整個比賽中的賠率,包括最有可能獲勝的球隊。根據研究人員的計算,西班牙最有可能勝出,機率為 17.8%,略高於德國。
AI 預測的世界杯排名
如果德國隊在小組賽階段獲勝,在 16 隊淘汰賽階段,更有可能遭遇強敵,算法得出德國進入四分之一決賽的機率為 58%。相比之下,西班牙不太可能在最後的 16 強中,面臨強大的對手,因此有 73% 的機會進入四分之一決賽。
但是!在 Groll 和 Co ,對整個比賽進行了 10 萬次模擬後發現,在比賽開始的時候,西班牙機會最大,但如果德國打進四分之一決賽,冠軍就會易主。
昨晚想必大家,已經興奮地看完了第一場比賽,東道主俄羅斯 5-0 完勝沙特阿拉伯,但遺憾的是,根據他們的預測,這兩支球隊都不可能進入四分之一決賽。
當然,有人對這些預測持懷疑態度。由於足球比賽隨機性太強,這種精確的比賽過程,在實際比賽中可能性太小。
此外,他們的機器學習算法,顯然沒有預測到,西班牙會在球隊首戰前兩天解雇,並更換主教練。
高盛:巴西將奪冠
梅西曾經說過:「在足球中,如果沒有嚴謹和精確,才能和優雅,就沒有意義。」
高盛在編制 2018 年世界杯的預測時,似乎把他的話放在了心上。
該公司使用機器學習,來運行 200,000 個模型,挖掘團隊和個人球員屬性數據,以幫助預測特定的比賽得分。然後,高盛模擬了 100 萬次比賽的變化分析,計算出每個球隊的晉級機率。
下圖顯示了,高盛如何看待世界杯比賽進程。每個國家旁邊的數字,代表該球隊是否能超過對手,並利用機器學習算法進行比賽迭代。
高盛預測圖
以下是高盛得出的關鍵結論:
預計巴西將以 1.70:1.41 的比分擊敗德國,贏得第六次世界杯冠軍;
儘管法國舉起獎杯的機率比德國高,但預計在半決賽中,與巴西的對決,將使其無法贏得冠軍;
英格蘭有望進入四分之一決賽階段,高盛表示將輸給德國;
西班牙和阿根廷預計將落後,都將在四分之一決賽中失利;
儘管俄羅斯是世界杯主辦國,但預計不會從小組賽中出線;
沙特阿拉伯是黑馬,在小組賽階段會領先於俄羅斯(顯然已經預測錯了)
俄羅斯進球,普京得意攤手