2018/03/23

使用Sabermetrics的傳統數據時,不要再加減乘除了

近年來由於錢球、Sabermetrics經過多年的傳播,加上布萊德彼特主演的電影以及打著正統錢球流(而且兩個錢都有)的Theo Epstein兩次打破魔咒,讓越來越多球迷,特別是新球迷,把可以輕易在各...

作者:greengreen42

請繼續往下閱讀

Hiroshi Jinbo

如果某人看了這篇文,我們下次會不會看到謎樣的Chi-Square分析呢.....

Redsniper

我不要再提JK47了免得站方又跑來警告我

郭峻榕

看到他那套數據 我就完全不想看下去了.... 他自己都沒自覺嗎

紅襪鐵粉象魂不滅的黃毛大叔

哈哈~
被PPT及其他專家不以為然的寫手,在運動視世界被捧成最紅的寫手🤣
對了,這個寫手還假裝襪迷潛入襪版哦🤣🤣🤣

Ching Yu Yang

WAR被你拿來當成預測選手的表現,我看所有球探跟front office跟那些搞statcast的人都可以去吃屎了。3M怎麼算的,依照你只懂得scikit-learn跟GIGO這種intro analyst都該知道名詞的人,大概是直接拿FG每年分配給打者的570還有投手的430,直接拿來除以聯盟總薪資,才得出這類不長腦袋又沒有實質意義的結論。GIGO, right?

接著談要舉證也舉高端的例子,上季打2.4WAR的Alonso,今年跟indians簽多少合約?2年1600萬,跟你扯的3M/1WAR完全打不著邊際,還是你還活在2017年跟athletics的合約?這豈不是店門掛羊頭上菜端狗肉?

會留下這種言論的人,大概也不是啥太靠譜的寫手,自己去旁邊領繩吧廠廠。

暗夜貓咪

這位作者的文章確實很容易令人不知所云,但至少這比上一篇好很多了,大致能抓到他的重點在於「salary per WAR被太多低WAR的球員污染得很嚴重」,在這點上我是認同作者的。

至於說AVG比較有用這點就有趣了。作者想攻擊salary per WAR連作為一個基準都僅是「已知用火地線性迴歸一下」,卻認為AVG比較有用?

低打擊率的打者有太多狀況了,大致上分為Contact差、飛球打得多、擊球機制有問題、喜歡等保送等等,既然現在已是查找如O-swing%、Z-swing%等進階數據都這麼方便的時代,要是還認為看打擊率比較有用,還真有點「已知用火」。

Hiroshi Jinbo

你自己講的話已經明白顯示"AVG能比WAR透露出更多的資訊"了,沒有發覺嗎[yao]

暗夜貓咪

同樣地,WAR能讓人知道某位球能比replacement level多貢獻幾勝,卻無法知道球員的型態。以去年來說,同樣5WAR左右的Betts、Simmons、Ozuna,光其貢獻5勝的來源就差異非常大了。

因此我實在是看不出AVG多比WAR透露出多少資訊,兩者在某種意義下都是相當粗糙的指標,如果硬要比較誰有用實在沒什麼意義。

Sha

https://www.ptt.cc/bbs/MLB/M..

別被一個辦不到一天的免洗帳號的斷章取義給騙了
該篇推文的全部在這邊,我懶得替greengreen42辯護,
他講的是不是這位仁兄想說的自己去看最明瞭。

Hiroshi Jinbo

注意一下,沒有人說過AVG在"評估球員貢獻"上比WAR更好。
首先,WAR is vague, 作為一個直觀的球員貢獻度標準很好用,但它不會給你太多資訊。以衡量球員貢獻來說WAR其實很有用,可以簡單地分出雜魚/先發/明星/怪獸這樣的差別,但僅止於此,WAR並不會告訴你球員為什麼有這樣的貢獻
反之AVG雖然是不完全的數據,但出現極端值時它可以暗示你"可能發生甚麼事",譬如說contact有毛病,揮棒有洞被抓,運氣超好BABiP超高,之類之類。
有用是在說數據背後透露出的更多資訊,而非它是一個"更好的評估標準"。再來被說完全沒有鳥用的是那個JK47成天掛在嘴邊的Cost/WAR,這東西是個純粹的垃圾數據之前已經講過了。

市場價格是由供需而非"理想的一單位utility價碼"決定的,想用這種方式去算"合理價位",比起該model不適用於linear regression的技術問題,不如說它從一開始的立論本身就是錯的。

暗夜貓咪

感謝Sha大補充推文網址,裡面的討論內容相當精彩。

然而看完後我仍然認為,討論AVG/WAR誰有用是相當沒有意義的話題;正如文中AaronJudge所言「當你講出AVG/WAR二擇一時其實你就已經陷入迷思了,沒有任何一個進階數據能將一名球員一槌定音」。

另外,我不確定為何greengreen42大要直接拿球員去年的WAR與合約均值來計算Salary/WAR?這根本不是Salary/WAR派的算法!正確的算法應該是要利用衰退模型預測合約期間打者能產出的WAR與考慮通膨後的薪水做計算才對,如果連這點都不了解就想要反駁,力道稍嫌弱了一點,也沒有打到要害之處。

真正的問題,其實在Sha大所貼網址裡面的這張圖就已說明了一切:

https://cdn.fangraphs.com/bl..

這張圖中R^2有0.9492看似相當精準,但從圖的分布就很明顯看得出來低WAR球員佔樣本的大多數,而離群值如高WAR球員則離迴歸線有一定的距離,這才是Salary/WAR最致命的問題,也是我所謂的「不要用平均來看個案」。此外,僅管呈高度正相關卻未經過原點,因此1WAR要用幾M去買的說法也是不切實際的,以這張圖來說產能不到1WAR的球員在市場上是簽不到1年約的,毫無價值可言。

比起您「GIGO」的拿了奇怪的數字計算所謂R^2 0.69要來說明為何cost/WAR是無用的,我認為這張圖才真正說明了一切。

暗夜貓咪

回Hiroshi Jinbo大:

我同意您所謂的AVG比起WAR「背後透露出更多資訊」。問題在於現在是討論如何評估薪水的價值,「沒有人說過AVG在"評估球員貢獻"上比WAR更好」,那又為何要將兩者拿來比較?

另外我也認同您說的「市場價格是由供需而非"理想的一單位utility價碼"決定的」。但是本文作者並非從此角度切入,而是就模型是不是適用線性迴歸做討論,而其計算Salary/WAR的問題我在上一個留言也已經說明得很清楚了。

Hiroshi Jinbo

那是次要問題,今天重點是有複數的棒球迷在使用各種方式解釋為什麼JK47那套是fool's hardy。
附帶一提他的"分析文"每次都搞到像把草稿一起貼上來,缺乏調理廢話超多,敘論的邏輯也一團亂讓人看了很累。

greengreen42

greengreen42: AVG比cost per WAR有用多了 那一直抓著cost per WAR

就這樣,刻意斷章取義的免洗帳號還蠻悲哀的

暗夜貓咪

這篇文章寫這麼長,還不如直接用一句話來點出重點比較有用:「不要用平均來看個案」。

無論要算FA、潛力新秀還是交易的球員價值,不透過仔細研究個案球員的能力而直接以平均推估,當然相當不準確。因為任何一隻球隊、球員都是獨特的。

近年來由於錢球、Sabermetrics經過多年的傳播,加上布萊德彼特主演的電影以及打著正統錢球流(而且兩個錢都有)的Theo Epstein兩次打破魔咒,讓越來越多球迷,特別是新球迷,把可以輕易在各大網站查到的Sabermetrics"傳統數據",做為分析跟討論的核心材料。

WAR、wRC+、wOBA這些數據雖然很傳統,但有些仍然是很有用的,因為比起XR,光是可以靠分辨replacement level刷掉諸多雜魚,就讓這個數據相對的有品質。沒錯,如果你是做數據分析工作的從業者,你就會發現這些指標做了第一個動作:可以讓我們快速挑出有意義的樣本。

因為對球迷而言,我們只想討論大聯盟球隊認為可以作為戰力的對象,連replacement level都達不到的選手,根本不該在討論的範圍內。那麼,你知道2017年各隊扣除投手之後,有多少比例的打席,是由WAR值為負的選手上場的嗎?2017年合計共有18.54%的打席,是被WAR值總合為負的選手吃掉的。這是多麼驚人的數字!意思是你看一場比賽,裡面竟然有20%的時間是在看傷害球隊的人打球!

那麼,如果是剛剛好高於replacement level一些些呢?根據過去的研究發現,這些人大多在負的WAR值跟正的WAR值之間載浮載沉,現在看起來是正的,明年可能就變負值了。這些人佔總打席則是23.08%。也就是說把這兩類人的總打席數加總起來,一場比賽裡面,竟然有一半的時間,是由傷害球隊的人在場上耍猴戲(普猴子就佔了636個打席)。

這些人絕大多數都是以被non-tender,或是因為意義上相近的方式成為操作型定義上的"自由球員",每年能看到的WAR值大於1的球員與WAR值小於1的"自由球員"的比例,是十數倍的差距,因此若我們要討論任何問題時,是不是要把WAR值為負、甚至WAR值小於1的樣本給踢掉,就相當值得討論。順帶一提,2017年全部打席的平均三圍是:

.258/.324/.426

而WAR值至少高於1的選手的平均三圍是:

.274/.348/.471

也就是說,如果有一個守備不怎樣的選手尋求合約,他的三圍是.270/.330/.430,是的,他看起來高於大聯盟平均值,但以一個尋求"自由球員契約"的選手而言,他實際上歸屬於勉強混飯吃的族群。那麼投手呢?投手更可怕了,2017的SIERA(Skill-Interactive ERA )大於等於4.75的投手所面隊的打席數,是27.75%的巨大比例,這些人除了負擔局數以外,你很難說他們"值得一張尊重他的合約"。順帶一提,xFIP高於Cole Hamel的投手吃掉的打席數,也差不多是這個比例。

因此,如果我們在計算任何指標或數據時沒有先確定我們討論或分析的問題所應該要對應的"有效的樣本",那麼你只會算出典型的GIGO數據。比如當我們要計算自由球員市場上的salary per war的時候,如果計算平均值的方式是把所有可以自由接觸取得契約的選手都當作有效樣本,那麼你計算出來的salary per war就會非常不知所云:因為絕大多數"自由球員",就是上面所說的那一半最終不是被賤賣,就是被non-tender的選手,並不是我們想討論的"自由球員"。

因此,在討論"我們應該為了補強選手花多少錢"這個問題時,第一個動作是要先把選手分成三群:期望值0的雜魚、在0~2之間擺盪的基本先發型選手、經常可以高於2的,值得一看的選手。那麼2017年的WAR高於2的野手2017年有幾個人"FA"呢?13個,而且這13個人裡面還包含了Yonder Alonso跟Tim Beckham。我們想討論的問題就是"為了取得這些人,該花多少錢?"然而這10個人的身價差距離散程度非常大,這十個人的Salary/WAR從1(Tim Beckham)到5.79(J.D. Martinez)都有。如果我們用"1WAR大概需要用3M去買"然後容許40%的誤差,那準確度就只有3/13,不準到笑死人。

這13個人裡面有Tim Beckham、Jose Reyes、Neil Walker、Alex Avila、Curtis Granderson,明顯被市場當作不算是可以預期WAR值高於2的那群人;而J.D. Martinez、Justin Upton、Jay Bruce的合約都比較大張算是稀缺性較高的對象,計算Salary/WAR只會被對方的經紀人給你白眼。所以最後稱得上準確的,也就只有Eduardo Nunez、Yonder Alonso、Todd Frazier三個人,符合"要買1WAR大概要3M"這樣的說法,而且其實我相信長期關注Yonder Alonso的人應該都會笑出來。

標籤

訂閱運動視界電子報

追蹤我們