【Statsbomb.com】英超和西甲跨聯賽入球、助攻分佈分析,解析英超和西甲一個入球的價值如何

車路士是最勁 於 23/10/2014 發表 收藏文章
【Statsbomb.com】英超和西甲跨聯賽入球、助攻分佈分析,解析英超和西甲一個入球的價值如何
每個聯賽各有不同。對比下各聯賽不同的射門數據、不同的球隊水平,當然,看看各自聯賽自身就知道了。於是乎,如果我們想比較下不同聯賽里不同球員之間的表現,那就麻煩了。在西甲射入一球,和在英超射入一球價值相同嗎?這很難講,而我們通常根據那些在多個聯賽都踢過球的球員的表現來做出評判。不過,我們可以通過數據來更好地進行判斷。首先,我們先比較下英超和西甲的任意兩位進攻球員。當評估進攻球員時,有些特定指標是要用的,比如:入球數、助攻數、關鍵傳球、射門數。一旦你收集了兩個球員在這些指標上多季的數據後,你就需要一些系統來區分兩個聯賽間的差異。第一種辦法是利用本聯賽的平均球員進行劃分。通過這種方法,我們可以看出一名球員相對於本聯賽普通球員有多好或多糟。我在數個月前就已經更為深入的研究過這種方法了,提出了一個加權機會創造值的統計量,並且發現這是一種預測未來表現的好方法。但這種方法的問題在於,計算平均值有許多局限性,主要是並沒有告訴我們樣本的分佈是怎麼樣的。假設有兩個數據集,每個數據集只有兩個樣本數據。第一個是(0,10),第二個是(5,5)。這兩個數據集的平均值都是5,但它們的分佈很不同。回到我們關於英超與西甲球員比較的問題上,儘管西甲與英超的總入球數、平均球員入球數幾乎一樣,可西甲的頭號射手(C朗拿度和美斯)通常還是比英超的頭號射手們射入更多的入球。但是,我們既然知道優秀球員在西甲比在英超入球更多,因此哪怕未必比英超射手更優秀,西甲射手也收穫能高於聯賽平均的入球數。我們該如何控制這個因素呢?答案就是去考察這兩個聯賽的入球者分佈。我們可以通過密度圖來將之可視化,以X軸代表進球數,Y軸代表有該進球數的球員所佔百分比。

★下面是2013-14球季西甲和英超入球的密度圖(注意:我們只考慮至少踢了19場比賽的球員的數據)
★接下來是個類似的密度圖,我們看看2013-14球季西甲和英超的助攻分佈
你可以發現,這兩幅分佈圖都有著相似的模式,但如果我們要根據球員們比賽的環境判斷哪位球員表現更好時,兩個分佈之間細微的差異就會變得相當顯著。說個題外話,這兩個分佈的形狀很像我們在應用統計學裡常說的泊松分佈。為了用數字表達出分佈中的這些差異,我們可以使用標準差進行測量。一個標準差測量偏離平均值的程度。越高的標準差代表數據點越偏離平均值,反之亦然。根據我們之前的假說,西甲的變異程度應該比英超更大,因此我們預計西甲的入球者標準差相對更高。結果確實如此。在2013-14球季,西甲的入球者分佈標準差為4.79,而英超是4.24。而對於助攻分佈的標準差,西甲是2.80,英超是2.43。現在我們使用一種方法將這些分佈進行標準化。我們不看一名球員的絕對入球數是否超過了平均球員入球數,而是看看一名球員的進球數標準差是否超過平均標準差。比如,2013-14球季西甲的球員平均入球數是3.45,C朗拿度入了31球。由於西甲的標準差是4.79,而C朗拿度的標準差是5.75,因此我們可以說C朗拿度超出了聯賽的平均水平。現在我們按照球員標準差超出聯賽平均標準差的大小,列個排名榜來比較下英超和西甲的球員。

★入球

★助攻
通過使用超過平均標準差的個體標準差方程,我們得以比較兩個不同聯賽的球員,同時又控制了各聯賽自身的內部因素。關於我在本文使用標準差的方式,有兩點需要額外說明。首先,我使用的是入球和助攻的原始數據,而不是每90分鐘的入球率。我這麼做在處理數值上會更熟悉,也更能刻畫出概念,但是,我們有不少證據顯示,每90分鐘入球率比原始數據能更好的預測未來表現。因此,如果是處於考察球員的目的而進行真實對比的話,使用進球率而不是入球數會是更好的選擇。其次,我對相對質量做了個內在假設。使用標準差只能控制各聯賽自身的入球分佈,卻無法無法控制比賽的相對水平。在本文的分析中,我做了個假設:西甲的技術水平大致與英超相同。對這兩個聯賽來說,該假設並非很離譜,但如果我們把比較對象放諸於全球的話,這個假設就很有問題了。因此這就會是跨聯賽分析下一步的研究重點。我們需要更深入研究不同聯賽的球員是如何表現的、各聯賽之間的轉換如何進行。我們現在已經有了歐足協成員國聯賽的相關係數用於比較,但這些比較還是非常有局限性,而且由於許多原因而顯得非常大的缺陷。在此我就不詳談了。看起來,在足球分析 ​​領域,每一個問題的答案都滋生出更多的問題,唯一的解決辦法只有更多及更好的數據。






原文


留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→