xG等於贏波機率?只有7%機會輸俾熱刺?阿迪達的數據謬論

車迷Z 於 23/12/2020 發表 收藏文章
「上季對愛華頓我哋喺只有25%勝率嘅情況下贏波。上星期對愛華頓我哋有67%機會贏同9%機會輸,但係我哋就係輸左。對般尼3%機會輸而輸波,對熱刺7%機會輸而輸波。數據證明問題唔係出喺我哋嘅表現上,而係有其他因素不似預期(暗示運氣)。」阿迪達──21 Dec, 2020

loading

如果大家覺得上述言論極度mindfuck,唔緊要,you are not alone,筆者都係咁覺得。見到呢則新聞之後,筆者第一反應係fact check,而當fact check屬實之後……


事後The Athletic報導,阿迪達喺記者會上引用嘅勝率,係會方內部按照每場比賽嘅xG計算出嚟。喺進一步確認阿迪達係咪痴_左線之前,首先驗證下阿迪達係如何從xG中計算勝率,再睇下佢用呢個計算出嚟嘅勝率去衡量球隊表現是否恰當。阿仙奴嘅狀態低迷係咪真係如達叔所講,表現出眾但運氣欠佳。

What is xG?

xG,全稱expected goals,係自2018年起被主流媒體大規模引用嘅足球數據。具體計算方法如下:

1.每當有球員錄得一次射門,系統就會記錄該球員起腳嘅位置,射波同頭槌會分開計算;
2.系統會同已有數據庫進行比較,翻查之前所有於同位置起腳嘅射門當中,有幾多球最終形成入球;
3.數據庫比較出嚟嘅結果將界乎0.00至1.00之間,1.00代表歷史上每一次呢個位置嘅射門全部都入,0.00則代表歷史上每一次呢個位置嘅射門全部唔入;
4.數據庫與數據庫之間得出嘅xG一般會出現差異,一係因為各個數據庫所儲存嘅射門數據有偏差,二則係因為部分xG嘅計算除咗考慮起腳位置之外,都會考慮防守球員位置;
5.不同資料來源引用嘅xG唔一定一樣,但目前冇乜邊個xG嘅數字會錯到到離曬罩,只要來自reliable source,照用問題不大;
6.每場比賽後嘅xG,係每隊各自於該場比賽所有射門次數嘅xG嘅總和;
7.換言之,射門次數越多,以及射門地點越近磅,都會令xG上升。

xG的誤導性

唔可以話xG呢個數據刻意誤導,只可以話xG改錯名,因為xG最真實反映嘅場上表現其實同goal冇咩直接關係。上述提到,每次獨立射門嘅xG,都係按照該次射門嘅起腳位置去進行判斷。一次細禁區嘅鏟射,xG一定高過離門30碼嘅遠射。

換言之,xG最能夠反映嘅,其實係一支球隊創造機會嘅能力。正常嚟講,攻勢越高質,隊友就越能夠係危險地帶起腳,因此高質chance形成嘅射門xG會高過低質chance而只能浪射嘅xG。換個睇法,球隊如果空有控球而無法形成射門,都算唔上係有效嘅進攻,起唔到腳自然就不值得被歸納於xG之內。

「攻勢是否能有效形成射門」,以及「攻勢是否能有效形成高質射門」,都係判定xG高低嘅主因。因此,應該將xG當成一個創造力嘅數據,而非把握力嘅數據。


從xG判斷勝率?

被悶死未?放心,更悶嘅喺後面。

請準備拎番form 3嘅數學書出黎,今日教大家計probability。

以熱刺主場對阿仙奴嘅北倫敦打吡為例。按照understat提供嘅數據,熱刺該場錄得6次射門,而每次射門嘅xG分別為0.05, 0.02, 0.02, 0.05, 0.13, 0.12。阿仙奴則錄得11次射門,xG分別為0.06, 0.06, 0.06, 0.05, 0.09, 0.10, 0.05, 0.07, 0.02, 0.02, 0.01。

有咗每次獨立射門嘅xG之後,「勝率」嘅計算方法就係,分別考慮熱刺6次射門中從零入球到入6球嘅可能性,以及阿仙奴從零入球到11入球嘅可能性。然後再去考慮從0-0到6-0到0-11之間,各個scenario出現嘅可能性,以及各個scenario之中阿仙奴係贏定輸定和。


都係唔明發生咩事?唔緊要。總之,知道阿迪達口中嘅「熱刺得7%機會贏」係有數得計,而唔係完全地憑空捏造就可以了。按照The Athletic參考OPTA數據,並按照與阿仙奴相同嘅系統去計算,熱刺該場嘅勝率係12%,同樣得出熱刺於北倫敦打吡勝率低嘅結論。

謬論之處

好啦,咁既然xG推斷勝率係真係有數得計,係咪代表阿迪達嘅「我們本該勝出只是欠運」係有根有據呢?

Hell no.

其中最大嘅問題,在於用xG計算勝率係一個賽後嘅靜態觀察,而完全忽視球場上動態嘅改變。佢假設咗兩支球隊於該場比賽嘅90分鐘內都冇任何戰術或局勢上嘅改變。

以北倫敦打吡為例,阿仙奴大部分嘅射門都來自下半場,而熱刺下半場則索性冇任何xG進帳,呈現明顯嘅攻防對峙。所以上下半場嘅戰局係明顯地有所不同,而唔係場上嘅形勢從1分鐘到90分鐘都差唔多。


原因好簡單,因為熱刺上半場已經取得2-0領先。有信心可以防守鎖死阿仙奴進攻之下,熱刺戰術上選擇放棄進攻,好整以暇地等阿仙奴不斷嘗試「燒味足球」然後無功而還。如果假設喺另一個平行時空,熱刺唔係一早就坐定笠六的話,下半場嘅熱刺自然需要組織攻門,xG亦唔會只有0.27。

換句說話講,阿仙奴於該場比賽取得高於熱刺嘅xG,唔係因為阿仙奴掌控全場比賽,而係因為真正掌控全場比賽嘅其實係熱刺,而熱刺選擇左俾阿仙奴去進攻。當阿迪達嘅「勝率論」係建基於「xG高於對手代表掌控比賽」,而實例證明xG高唔一定代表掌控比賽時,達叔嘅「7%輸掉比賽」已經站唔住腳。


再舉多個例子。作客愛華頓嘅比賽,達叔宣稱該場比賽有75%勝率,但最終2-1敗走葛迪遜公園。該場比賽understat提供嘅數據係,愛華頓xG 0.66,阿仙奴xG 1.25。

然而,2-1嘅比數背後,愛華頓先開紀錄係源自賀登擺老烏,而阿仙奴34分鐘靠嘅係比比嘅12碼扳平。由於xG僅考慮起腳位置,因此烏龍球冇為愛華頓貢獻任何xG,而12則一野貢獻左0.76 xG。唔係話老烏或者12碼嘅價值就低於其他方式嘅入波,只係單從xG嘅角度去討論的話,該場比賽阿仙奴嘅xG的確虛高。再一次證明,xG高過對方,唔一定代表踢得好過對方。

所以xG應該點用?

其實無論係任何數據,單睇單場比賽嘅意義並不大。球場上嘅突發事件太多,足球嘅本質亦比其他運動更容易受運氣左右。就講車仔,2012年歐聯奇蹟奪冠,真係懷疑該季歐聯有冇邊場xG係高過0.1。

既然每場比賽嘅隨機性都咁大嘅時候,將sample size拉大到5-10場比賽,可以有效地減少隨機性對整體結果造成嘅影響,亦更能判斷球隊整體嘅創造力同聯賽其他球隊相比係咩level。任何人都可以一場半場地黑仔而underperform xG,但場場都underperform就好難令人信服真係淨係衰唔好彩。


最後舉多兩個例子。

首先係過去五場比賽,阿仙奴總共錄得5.8 xG,一共入3球;榜首利物浦同期錄得6.8 xG,一共入15球。兩隊xG相若,但人哋可以做到大幅度地overperform xG,而你只能underperform xG,到底係因為點解?

其次係,按照各英超球隊嘅xG而計算而出嘅xPoints當中,阿仙奴喺阿迪達最理想嘅「xG決定一切」世界裡面,聯賽排第11。當然第11好過第15,但原來就算幸運女神冇背棄阿仙奴,球隊嘅表現都只能排中游以下嘅時候,呢個又係咪阿仙奴應該交出嘅水準?

請支持Facebook專頁「車迷Z」!

資料來源:

https://www.reddit.com/r/soccer/comments/kheq0j/james_olley_arteta_last_weekend_it_was_a_67_per/
https://streamable.com/s6xxf7
https://twitter.com/JamesOlley/status/1340963071712477186?s=20
https://theathletic.co.uk/2276869/2020/12/21/arteta-arsenal-xg-percentage/
https://www.goal.com/en/news/the-planning-is-done-arteta-says-arsenal-are-ready-for-next/1dq5pbt75pd9v1nug9nr4ox70a
https://www.reddit.com/r/soccer/comments/ki21ai/arteta_football_is_not_like_basketball_in/?utm_medium=android_app&utm_source=share
https://understat.com/league/EPL

如果喜歡我們的文章,請即分享到︰

留言

會員
我要評論
請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→