Qualche giorno fa ho letto un curioso post su questo blog
riguardo l’applicazione delle leggi della statistica al calcio (qui).
Il post mi ha stuzzicato molto, soprattutto perché in quanto Juventino mi sono
sentito chiamato in causa. Già, perché
tutto il calcolo statistico, alla fine dei “Conti” (citazione!) vorrebbe dimostrare l’anomalia sui tanti
scudetti vinti dalla mia squadra del cuore e i pochissimi della (tartassata) Roma. Avrei voluto scrivere
un commento, ma l’amico blogger mi ha suggerito di fare proprio un post, d’altra
parte di cose da scrivere ce ne sono parecchie e un po’ mi diverte anche (W la
goliardia!). Perciò eccomi qua: mi sono preso un bel foglio Excel e ho fatto un
po’ di calcoletti e grafici.
Veniamo ai numeri. Parto dalle assunzioni fatte nel post e
cioè che abbiamo una sorta di campionato a due, in palio solo il primo e
secondo posto….vinci o perdi. L’accostamento è al caso del lancio della moneta,
un testa o croce calcistico che si può descrivere statisticamente con una
distribuzione binomiale (http://it.wikipedia.org/wiki/Distribuzione_binomiale).
Fin qui tutto ok, ma….c’è già un ma. Se rivediamo la prima tabella del post
vediamo che, dati alla mano, le 5 squadre prese in esame hanno disputato un
diverso numero di “campionati a due”. Come descritto sempre nel citato post,
per la Juve 46 campionati, per il Milan 28, Inter 30, Roma 15 e Lazio 5. Se
paragoniamo il campionato al lancio della moneta è come dire che la Juve
corrisponde a un processo aleatorio con
46 lanci, l’Inter 30 e via di seguito. Già qui ci rendiamo conto che si stanno
paragonando processi aleatori diversi, dove la Juve può vincere fino a 46
scudetti, mentre la Lazio se proprio è forte e gira tutto per il verso giusto
ne vince al massimo 5. Che i processi siano diversi si evince anche dai diversi
valori attesi, cioè i valori che con maggiore
probabilità si presenterebbero nell’esperimento campionato/lancio-moneta,
sul numero di scudetti: 23, 15, 14, 8,
3. Lo stesso dicasi per le deviazioni standard, numero molto importante per
capire le “anomalie” di un processo aleatorio e che consentono di individuare i
cosiddetti outliers (che nel
campionato sono, sempre secondo il post, Juve e Roma), che sono pari a 3.4,
2.7, 2.65, 1.94 e 1.12, per Juve Inter, Milan, Roma e Lazio, rispettivamente. Qui sotto riporto proprio le funzioni di
densità di probabilità (pdf , dall’inglese) binomiali per ciascuno dei 5 casi,
assumendo una probabilità del 50% di vincere.
Dai grafici è assolutamente chiaro che le 5 funzioni,
sebbene dello steso tipo, sono molto diverse,
cioè sono rappresentative di fenomeni diversi. Già questo basterebbe a far
cadere "l’impianto accusatorio”. Tra
l’altro la Lazio ha solo 5 campionati/lanci e con numeri così esigui è molto
pericoloso fare analisi statistiche. Si tenga presente anche un fattore molto
importante: sto costruendo le mia curve di probabilità che descriveno il mio
fenomeno sulla base di una singola
realizzazione di un processo aleatorio. Un po’ pochino direi.
In sintesi, quello che voglio dire è che prima di poter fare
un confronto statistico dovremmo avere le stesse condizioni. La Juve ha il
maggior numero di lanci a disposizione, quindi
molte più chance di vincere. Alla Roma ne mancano 31 per poter
eguagliare la Juve. Se vincesse, rispettando il valore atteso su 31 lanci, 16
volte in queste ulteriori prove di lancio/campionato, si troverebbe con 19
scudetti su 46 e cioè più del 41% di vittorie…se vincesse 18 scudetti su 31 (di
poco oltre il valore atteso) si troverebbe con più del 46% di vittorie…e forse
non starei qui a scrivere ‘sto post. Mancano i numeri per poter ragionare a
livello statistico. Probabilmente servirebbero 100 campionati/lanci per dare
significato a queste curve.
Ma proseguiamo. Leggendo la seconda parte del post e
verificando i numeri riportati nelle tabelle del “caso naturale” e del “caso
estremo” c’era qualcosa che proprio non mi convinceva….i Conti non tornavano. Ma come mai ‘sti numeroni per la Juve e
numerini per la Roma? Certo che visti così sembrano veramente anomali. I numeri riportati nelle due tabelle vengono
fuori dall’Integrazione della
pdf…..perciò ariprendi il foglio Excel e integriamo la funzione densità di probabilità, cioè sommiamo le
probabilità che ci siano un certo numero vittorie, fino al massimo ammissibile.
Disegniamo anche queste funzioni integrali per il “caso naturale”, “caso
estremo”, ma anche il caso che la squadra sia un po’ più forte. E via alla seconda
figura:
Le curve ci consentono di calcolare la probabilità che il
numero di vittorie ricada in un certo intervallo, in particolare minore o
maggiore di una valore prefissato. Come si vede le curve salgono molto
rapidamente verso valori di probabilità alti, nei dintorni del valore atteso. Anche la Roma ad esempio avrebbe
una probabilità quasi dell’85% (mica male!) di avere 9 scudetti in tasca, solo
1 in più del valore atteso. In pratica quello che determina questi grandi
numeri è il valore atteso della distribuzione che a sua volta dipende dalla
probabilità di vittoria (http://it.wikipedia.org/wiki/Distribuzione_binomiale).
Più è basso il valore atteso, più il segmento di curva che si impenna va verso
sinistra. Di fatto sto spostando i casi con probabilità maggiore verso i numeri
più bassi (vedi terza figura sotto). Analiticamente si arriva prima al valore di
saturazione delle curve riportate sopra.
Quello che da un punto statistico funziona e si riesce a
spiegare, non funziona però dal punto di vista calcistico. Riprendiamo i
grafici della seconda figura e prendiamo un valore di riferimento pari a 17.
Dal grafico vedo che la probabilità di vincere un numero compreso tra 0 e 17
scudetti è del 10% circa se ho due squadre equivalenti. Se però una delle due
squadre è un po’ più debole, e quindi la probabilità di vittoria passa dal 50%
al 30% (il “caso estremo”), la probabilità di vincere un numero compreso tra 0
e 17 scudetti aumento fino al 90% circa. Ma come, ammetto che la mia squadra è più
debole e invece sembra più facile (più probabile) vincere fino a 17 scudetti in
46 campionati? Vale naturalmente il viceversa, quando assumo che la squadra in
esame sia un po’ più forte. Da un punto di vista calcistico sarebbe più
verosimile che più una squadra è scarsa,
meno scudetti si mette in tasca.
Matematicamente dovrei vedere una funzione integrale che invece di essere crescente
con l’aumentare degli scudetti sia decrescente (vedi esempio di figura 4), e quindi
mettermi in bacheca 30 scudetti in 46 campionati dovrebbe essere più difficile,
meno probabile, che metterne in bacheca 20!
Da questo ragionamento ne consegue che il modello adottato
del lancio della moneta e la sua distribuzione binomiale non è applicabile,
decisamente inverosimile. Ma proseguiamo lo stesso.
Se ammettiamo che la
Juve sia un po’ più forte (curva nera del grafico sopra). Basterebbe avere una probabilità
di vittoria del 60% (tutto sommato poco, solo il 20% in più dell’avversaria)
per ritrovarsi che la probabilità di avere un numero di scudetti uguale o
minore a 29 è circa il 71%. Ragionevole, come sono ragionevoli per Inter e
Milan nel “caso naturale”.
In maniera del tutto speculare si può ragionare sulle
anomalie della Roma.
Varrebbe il caso di analizzare le anomalie anche dal punto
di vista della deviazione standard. La Juve ha 6 scudetti in più del valore
atteso, comunque molto alto (23), dato che ha potuto disputare 46
campionati/lanci e 3.6 scudetti oltre la deviazione standard. Non è poi così
esageratamente anomalo (outlier) rispetto
ai 46 campionati/lanci a disposizione. Vista così l’anomalia Juve direi che fa
meno paura.
In definitiva, quello che voglio dire è che se vogliamo
ragionare sulla statistica, per far “rientrare” le anomalie nella normalità
basta rivedere le assunzioni fatte, le ipotesi usate per costruire il modello e
di conseguenza cambiare la statistica del fenomeno. Le conclusioni a cui arriva il post “Facciamo
due Conti” possono essere ribaltate semplicemente cambiando le ipotesi di
partenza. La frase “La Roma è assolutamente fuori statistica” non è esatta. Sarebbe più corretto dire La
Roma è fuori da questa distribuzione di probabilità.
Allo stesso modo in cui uso la statistica per essere autorizzato a sentirmi defraudato (o
ladrone), posso usarla per capire le forze in campo. Potrei infatti usare l’analisi
statistica per dire che il valore del 50% di probabilità di vincita è sbagliato,
non è adatto a descrivere il caso in esame, ed è certamente diverso da squadra a squadra.
Forse si dovrebbe vedere nei diversi campionati presi in considerazione lo
scarto effettivo di punti tra prima e seconda e magari partire da questo per
l’assegnazione delle probabilità di vittoria. Nel calcio, due squadre che
arrivano a fine campionato al primo e secondo posto non è assolutamente detto
che siano equivalenti (equiprobabili come un soldo da 50 cents). Se guardo ai
fatti enunciati nella prima tabella del post “Facciamo due Conti” e lo faccio
in modo freddo, statistico appunto, posso anche dire che dai numeri che vedo la
Juve è stata un po’ più forte di Inter e Milan, e decisamente più forte di Roma
e Lazio (senza andare a cercare favoritismi e penalizzazioni), anche se prima
di tirare le somme bisognerebbe vedere di nuovo ‘sti numeri quando tutte e 5 le
squadre avranno disputato un ugual numero di campionati competitivi.
Il calcio non è come il lancio della moneta, è molto molto
di più…per fortuna!