2014年7月25日 星期五

‧ 不是吹牛,數據分析可以預測投手打算如何出手

ifanr 陳一斌

“Big Data大數據是近幾年科技行業最喜歡提的詞彙。從 Google 到中國百度,都提出要發展深度學習的方針。而百度為了能發展該技術,不遠萬里在矽谷設立研究院,還從 Google 挖來機器學習領域的先鋒人物吳恩達,負責百度大腦計畫。至於未來戰略方向轉為行動為先、雲端為先的微軟,最近也披露大數據相關的計畫 Project Adam,將挑戰 Google Google Brain 計畫。
現在,我們可以看到部分大數據在實際運用的後果。在四年一屆的世界盃裡, Google、百度還微軟均利用大數據預測出每支球隊的比分情況,甚至還相當地準確——一方面,體育行業發展多年,每名球員每場比賽的資料均有詳盡的記錄,方便專家研究和解讀,同樣這些已經分門歸類的有效資料也可以被電腦利用;另一方面,由於體育遊戲的規則很多,預測分支的數量可以控制在一定規模,這也方便電腦進行預測。
由於體育行業的特殊性,未來該領域裡將出現不少大數據案例。不過,在討論未來之前,我們不妨探討一下大數據運用在體育行業的實際方法。比如說,如何讓機器明白棒球比賽當中,人們如何作出決策,以及如何讓這些模型隨時適應新資料,並運用在新的比賽當中。
根據 FastCompany 的報導,最近 GigaOm Structure 會議上,來自博思艾倫諮詢公司的雷·亨斯伯格(Ray Hensberger)分享他以及團隊為 MIT Sloan Sports Analytics 會議準備的論文——現在,他的團隊利用美國職業棒球大聯盟的資料提煉出數據模型,可以即時預測一名投手將投出怎樣球,以及何時投出,準確率高達 74.5%
亨斯伯格介紹,團隊先從 900 個投手著手,分析他們的比賽資料,後來又採用排除法,將過去三個賽季投球數量少於 1000 的球手排除掉,這樣就只剩下 400 名投手作為資料分析的樣本。除了投手本身的資料外,團隊也分析當前比賽的資料,比如場地類型、擊球數等等;還有一些和比賽相關的情況,比如回合數、出局數以及球場上的人數和球員的位置;至於球手,他們的分析條件將包括投手的偏好性,曲球的出手時機、快速球的速度、球場選擇的一般規律、滑球的運動等等。

通過大量的資料獲取以及綜合分析,找出其中的關聯性,亨斯伯格和團隊最終為每名投手的構建個性數據模型,能夠預測一名投手在賽場上會作出怎樣的投球決策。他們所採用的數據模型,已經總結到一本名為《The Field Guide To Data Science》的書裡。
構建數據模型的過程可能沒有我們想像中的難,而如何證明數據模型是可靠的,卻很關鍵。亨斯伯格說,構建了數據模型之後,團隊對模型進行了 5 重交叉驗證。這種交叉驗證是能夠觀察,為數據模型輸入陌生的資料集後, 是否有異常的表現。你不會需要一個基於歷史數據預測準確度達 100% 的數據模型。如果不經過交叉驗證, 而把數據模型推出去,人們大概會認為你模型只不過適合自己所擁有的數據。
數據模型通過驗證後,亨斯伯格和團隊就採用支持向量機Support Vector Machine)機器學習方法中的一對多方法one-versus-rest)來預測下一場比賽當中投球手的投球決策。他們以三種不同的角度來看待數據:
·         基於用球數來預測:看比賽局勢有利或不利,或者用球數持平的情況下;
·         基於左右病”(platoon system來預測,看球場上是否用右撇子打擊手應對左撇子投手,反之亦然;
·         使用樣本外檢驗的方法來訓練數據模型,保證它能正常工作。
亨斯伯格和團隊在構建投手的數據模型時還發現,部分投手的投球決策在一定的情況下十分好預測。不過,投手投球的可預測性高低和他的比賽成績沒有關聯。亨斯伯格發現,15 個最可預測的球員當中,有 8 個來自有名的辛辛那提紅人隊和聖路易紅雀隊。另外,左右病策略也會影響比賽的成績。

www.epochtimes.com
儘管大數據經過大量爆光,Google、微軟、百度也通過自己的預測來證明大數據實際運用的例子,但是根據 MIT Sloan Sports Analytics 會議的聯合創始人、聯合主席潔西嘉·吉爾曼(MIT Sloan Sports Analytics)稱,體育資料分析目前不是主流,而且不是所有運動都可以運用這條方法。比如說冰上曲棍球比賽,預測往往失準。不過,某些運動又可以更快地適用數據分析,在這些運動當中,數據分析能夠發揮顯著的價值。
如果要在體育行業推廣大數據分析方法,行業聯盟是繞不過去的門檻。現在,美國職業美式足球、大聯盟,還有英格蘭超級聯賽都已經引入了數據分析,至於棒球運動,幾乎每家棒球隊都擁有一個分析小組。至於商業方面,數據分析還可説明體育場吸引那些在家通過電視看比賽的人。
不過,即便是亨斯伯格和團隊構建的數據模型的預測能夠達到 100% 準確率,比賽的關鍵還在於賽場上的人。在 70 年代的美國職業棒球比賽上,史蒂夫·卡爾頓就依靠滑球這一招半式,在 24 年代職業生涯中投出 329 勝的佳績。對方往往知道卡爾頓要投什麼球,但是就是擊不到球,或者擊斷球棒。
戰略都是完美的,但戰術往往無法完美。


題圖來自 utopiainc

                                                                                                                                                                                                                            

沒有留言:

張貼留言