2016/02/22

淺談棒球預測美中不足之處

在上一篇文章中,我替讀者分析了過去十年的棒球預測成果,讓各位看見過去十年左右之間,電腦做的棒球預測其實比多數保守派的球迷想像中的都還要好上許多。人類常常視預測未來為畏途,但我個人並不喜歡「球打了才知道...

作者:JK47

請繼續往下閱讀

上一篇文章中,我替讀者分析了過去十年的棒球預測成果,讓各位看見過去十年左右之間,電腦做的棒球預測其實比多數保守派的球迷想像中的都還要好上許多。人類常常視預測未來為畏途,但我個人並不喜歡「球打了才知道,預測只是預測」這種說法。一支球隊要做買進、賣出、衝刺、重建等決策之前都得要先預估自己身處的位置,否則就會做出牛頭不對馬嘴、令人摸不著頭緒的簽約或交易。對於球迷來說,在球季開打之前能夠藉著棒球預測系統,告訴我們各支球隊的球員名單有多少競爭力,也並非不可行。預測的確沒辦法盡善盡美,但上一篇文章的分析顯示,若是你給預測系統長時間的樣本證明,其預測出來的數據和球隊實際輸出的成果事實上不會差太遠。相關的細節推薦還沒讀過的讀者不妨往前看,來看看棒球預測系統還算穩靠的準確度。

不過,在這個系列的第二篇文章中,這裡要來分析、以及介紹棒球預測系統的一些美中不足之處、以及為什麼會有一些小缺憾。平心而論,我認為預測系統的預測已經比人類自己憑感覺、憑經驗、憑自我分析的預測好上太多,電腦可以看見很多人類沒辦法仔細去顧到的東西、而過往幾年的歷史也顯示了被預測系統預測會贏比較多球的球隊,長期下來真的可以贏比較多球;系統認為實力聯盟平均的球隊,長期下來也真的能拿到80勝左右的成績;被系統認為沒競爭力的球隊,長期下來平均也確實是刀俎上的魚肉。但是在上一篇文章中,我也提過下列這段話:

縱使長期下來看,所有樣本平均後,可以證明預測系統在長時間下來的預測的確有兩把刷子,但如表格所列,在個別的球隊之間仍然會有預測落差。過去六年時間,平均每支球隊的預測誤差值大約在正負七場左右,代表說被預測可以拿85勝的球隊「們」,在過去六年雖然平均下來看可以真的拿到這個勝場數附近,但以個別的球隊來說,這些球隊平均下來應該會在78~92勝之間分布才對。

根據表格的數據,過去六年間,雖然實際勝場數和預測勝場數之間,誤差值越高的球隊比例越少,但還是有大約30%的機率中間會產生10場以上的誤差。要注意的是,10場誤差指的是「正負10場」,代表說一支被預測可以拿85場勝利的球隊有15%的機率拿下95勝以上、但也有15%的機率拿到75勝以下(正負的可能性各一半)。如果你是一支被預測可以拿70勝的球隊球迷,你支持的球隊要達到90勝以上,跨過季後賽門檻的機率大約2%、也有另外2%的機率會跌到只有50勝以下(共有4%的機率產生正負20場以上的誤差)。

 

還有下列這段話:

同樣的,過去十年之間,每支球隊平均下來的預測誤差值是七場勝利左右代表被預測可以拿80勝的球隊,實際上的平均分布是可以拿73~87勝之間。樣本中所有球隊在過去十年間,有11%的機率會有超過正負15場勝利的預測誤差,這代表被預測可以拿80勝的球隊有5.5%的機率可以拿下95勝以上;相對的,這支球隊也有相同的機率會拿到65勝以下。但長期下來平均,被預測可以拿80勝的球隊可以拿下的勝場數,最後並不會偏離預測太遠。這就是本篇文章的重點:以單一樣本來說,預測系統會有偏差的機率;但長期平均來看,預測系統的表現已然算是相當優異。預測並不是無懈可擊,如同上面所列,過去十年有60%的球隊勝場誤差值會在五勝以上。

 

所以我也不會認為,某一支被預測可以拿85勝的球隊最後拿下90勝是很不可思議的事情,因為用數學來看這的確有30%的機率會發生,但長期下來看,這些球隊的勝場值平均終將迴歸到預測的不遠處。個別球隊的預測平均下來有七場的誤差範圍聽起來固然不怎麼樣,但大樣本平均下來預測系統的表現是相當好的。(下一篇文章我會解釋為什麼會有這種長期下來很準、但套用在單一球隊上會有平均七場誤差的情況)

 

就如文章一開頭所說的,拿單一球隊的表現要打臉棒球預測是不智的行為,這不是正確的數學觀念。要評論棒球預測系統精準與否,長期、大樣本的數字可信度才是最高的。就這點來看,我想我可以說,就算過去十年的棒球預測稱不上盡善盡美,也已經算是相當不賴。只要你給棒球預測系統夠長的時間和夠大的樣本,它的預測絕對不會偏離現實世界太遠。比起胡亂瞎猜、靠感覺預測球隊戰績,電腦棒球預測系統會是更值得參考的好幫手。

訂閱運動視界電子報

追蹤我們