2017/12/16

【粉絲投稿】為何要數據?怎麼用?淺談數據之於棒球比賽

感謝Topsy熱情投稿 近年來無論在什麼領域,數據分析都是一個火熱的趨勢;其中棒球統計分析(又稱賽伯計量學,英文稱Sabermetrics)更是在多年前就已經由Bill James等人開始發展,...

作者:Tommy John

請繼續往下閱讀

感謝 Topsy 熱情投稿

近年來無論在什麼領域,數據分析都是一個火熱的趨勢;其中棒球統計分析(又稱賽伯計量學,英文稱Sabermetrics)更是在多年前就已經由Bill James等人開始發展,而球迷之間似乎也壁壘分明,偏好數據分析的球迷也經常被和「不懂棒球的美好」、「只用數字看球」之類的批評連結了起來。

「sabermetrics」的圖片搜尋結果

然而Sabermetrics不只是部分球迷的心頭好,更是業界真槍實彈的分析模式。除了講到爛的Moneyball之外,筆者曾經看過藍鳥隊也在徵才啟事的俜用條件上寫到必須具備R、SQL等統計或資料相關能力,甚至從前輩口中得知臺灣一些關於Sabermetrics的研究,可以得知Sabermetrics絕對不只是部分球迷孤芳自賞的玩具,是真的有其需求存在。有鑒於棒球統計的浪潮早已從次文化成為主流,我想寫篇雜談來聊聊最基本的數據概念。這篇文章不打算講艱澀的東西,希望盡量以淺顯易懂的方式討論使用數據看棒球的意義。

 

一、為什麼要用數據?

所謂「數據派」與「傳統派」球迷之間最大的齟齬經常發生在對數字的挑選,最主要的導火線往往不出進階數據與傳統數據的選擇,因此我想在這裡談談什麼才是好的數據。

 

在回答這個問題之前,我們先退一百萬步回到問題的開端:不管是進階數據還是傳統數據,為什麼要使用數據?Moneyball一書早在十幾年前就為我們做了解答:因為人類本身能夠進行的資訊處理,太有限了。

大家都知道0.270的打擊率和0.320的打擊率是平庸和傑出的差別,在上述兩種打擊率下兩個同樣有600個打數的打者一季會差30支安打-也就是較傑出的那位球員每五場多才能打出象徵兩人差距的那一支安打。若有某個偶爾才看一場球的球迷剛好看見了前者打出四支安打的那場比賽,他很容易出於直覺地相信前者是比較會打安打的打者,但這卻與事實違背-因為我們沒辦法看每一場球並詳細紀錄球場上發生的所有事件,所以我們需要數據來替我們還原選手的實力,否則我們幾近無法分辨選手的好壞。

 

二、不同數據的表述

既然都決定要使用數據了,我們當然傾向選擇能夠表現選手「實力」的數據,這時候「運氣」扮演的角色就相當重要了。在處理數據時,我們希望能夠盡量不牽扯到運氣,原因是運氣在選手表現中扮演的是一個「隨機的雜訊」(可以直接當作統計中的殘差項,即假設每位選手的運氣皆出自期望值為0的常態分佈;這個假設本身是不支持「運氣是一種實力」這個論述的),而「實力」則可以視為這個球員的「期望表現」,也就是球隊預期在花錢後得到的回報。當我們的討論目標是實力,我們會有兩個主要目標:

第一:想排除運氣對選手表現的影響。第二:想偵測選手的哪些表現來自運氣。例如投手的BABIP和ERA有極大的相關,而大家都知道多數投手無法控制BABIP(BABIP幾乎在某範圍內隨機),所以BABIP是運氣(現在已經成功偵測運氣),而BABIP又和ERA高度相關,代表ERA是一個與運氣較相關的數據;相對來說,衡量投手的另一數據FIP只包含了投手的TTO指標(SO/BB/HR),忽略了投手的BABIP(排除運氣),所以同一個投手FIP年與年之間的波動,通常較ERA小。

 

使用數據的時候必須特別注意假設與現實是否衝突。例如在使用FIP評估投手表現的時候,投手無法控制BABIP是最重要的假設,一但失去這個假設,FIP排除BIP的計算方式會瞬間變得不合理。當你遇到了Chris Young這類BABIP長年控制得非常低的投手,前提假設就失控了,貿然使用FIP會使得他用自身能力掙來的低BABIP完全被忽略,反而達不到以數據表現實力的目標。

 

聽起來很複雜嗎?這裡提供一個簡單的例子:有一份高中數學考卷,受試對象是一群高中生;考卷的滿分是100分,其中的60分稱為A部分——是高中三年的範圍,能得幾分看實力、剩下的40分稱為B部分——是高等微積分,基本上沒有人會;好消息是B部分全部都是選擇題,所以大家可以猜。ps:「猜」引申出來的意涵是:你不太可能每次都猜到高分,也不太可能每次都猜到低分——沒有人天生就比較會猜中,也沒有人天生就是猜不中。)

訂閱運動視界電子報

追蹤我們