venerdì 10 ottobre 2014

QUANDO LA STATISTICA NON FUNZIONA (le nebbie dello psicodramma) [cri]

Qualche giorno fa ho letto un curioso post su questo blog riguardo l’applicazione delle leggi della statistica al calcio (qui). Il post mi ha stuzzicato molto, soprattutto perché in quanto Juventino mi sono sentito chiamato in causa.  Già, perché tutto il calcolo statistico, alla fine dei “Conti” (citazione!)  vorrebbe dimostrare l’anomalia sui tanti scudetti vinti dalla mia squadra del cuore e i pochissimi  della (tartassata) Roma. Avrei voluto scrivere un commento, ma l’amico blogger mi ha suggerito di fare proprio un post, d’altra parte di cose da scrivere ce ne sono parecchie e un po’ mi diverte anche (W la goliardia!). Perciò eccomi qua: mi sono preso un bel foglio Excel e ho fatto un po’ di calcoletti e grafici.

Veniamo ai numeri. Parto dalle assunzioni fatte nel post e cioè che abbiamo una sorta di campionato a due, in palio solo il primo e secondo posto….vinci o perdi. L’accostamento è al caso del lancio della moneta, un testa o croce calcistico che si può descrivere statisticamente con una distribuzione binomiale (http://it.wikipedia.org/wiki/Distribuzione_binomiale). Fin qui tutto ok, ma….c’è già un ma. Se rivediamo la prima tabella del post vediamo che, dati alla mano, le 5 squadre prese in esame hanno disputato un diverso numero di “campionati a due”. Come descritto sempre nel citato post, per la Juve 46 campionati, per il Milan 28, Inter 30, Roma 15 e Lazio 5. Se paragoniamo il campionato al lancio della moneta è come dire che la Juve corrisponde a un processo aleatorio con 46 lanci, l’Inter 30 e via di seguito. Già qui ci rendiamo conto che si stanno paragonando processi aleatori diversi, dove la Juve può vincere fino a 46 scudetti, mentre la Lazio se proprio è forte e gira tutto per il verso giusto ne vince al massimo 5. Che i processi siano diversi si evince anche dai diversi valori attesi, cioè i valori che con maggiore probabilità si presenterebbero nell’esperimento campionato/lancio-moneta, sul numero di scudetti:  23, 15, 14, 8, 3. Lo stesso dicasi per le deviazioni standard, numero molto importante per capire le “anomalie” di un processo aleatorio e che consentono di individuare i cosiddetti outliers (che nel campionato sono, sempre secondo il post, Juve e Roma), che sono pari a 3.4, 2.7, 2.65, 1.94 e 1.12, per Juve Inter, Milan, Roma e Lazio, rispettivamente.  Qui sotto riporto proprio le funzioni di densità di probabilità (pdf , dall’inglese) binomiali per ciascuno dei 5 casi, assumendo una probabilità del 50% di vincere.

Dai grafici è assolutamente chiaro che le 5 funzioni, sebbene dello steso tipo,  sono molto diverse, cioè sono rappresentative di fenomeni diversi. Già questo basterebbe a far cadere "l’impianto accusatorio”.  Tra l’altro la Lazio ha solo 5 campionati/lanci e con numeri così esigui è molto pericoloso fare analisi statistiche. Si tenga presente anche un fattore molto importante: sto costruendo le mia curve di probabilità che descriveno il mio fenomeno sulla base di una singola realizzazione di un processo aleatorio. Un po’ pochino direi.

In sintesi, quello che voglio dire è che prima di poter fare un confronto statistico dovremmo avere le stesse condizioni. La Juve ha il maggior numero di lanci a disposizione, quindi  molte più chance di vincere. Alla Roma ne mancano 31 per poter eguagliare la Juve. Se vincesse, rispettando il valore atteso su 31 lanci, 16 volte in queste ulteriori prove di lancio/campionato, si troverebbe con 19 scudetti su 46 e cioè più del 41% di vittorie…se vincesse 18 scudetti su 31 (di poco oltre il valore atteso) si troverebbe con più del 46% di vittorie…e forse non starei qui a scrivere ‘sto post. Mancano i numeri per poter ragionare a livello statistico. Probabilmente servirebbero 100 campionati/lanci per dare significato a queste curve.

Ma proseguiamo. Leggendo la seconda parte del post e verificando i numeri riportati nelle tabelle del “caso naturale” e del “caso estremo” c’era qualcosa che proprio non mi convinceva….i Conti non tornavano. Ma come mai ‘sti numeroni per la Juve e numerini per la Roma? Certo che visti così sembrano veramente anomali.  I numeri riportati nelle due tabelle vengono fuori dall’Integrazione della pdf…..perciò ariprendi  il foglio Excel e integriamo la funzione densità di probabilità, cioè sommiamo le probabilità che ci siano un certo numero vittorie, fino al massimo ammissibile. Disegniamo anche queste funzioni integrali per il “caso naturale”, “caso estremo”, ma anche il caso che la squadra sia un po’ più forte. E via alla seconda  figura:


Le curve ci consentono di calcolare la probabilità che il numero di vittorie ricada in un certo intervallo, in particolare minore o maggiore di una valore prefissato. Come si vede le curve salgono molto rapidamente verso valori di probabilità alti, nei dintorni del  valore atteso. Anche la Roma ad esempio avrebbe una probabilità quasi dell’85% (mica male!) di avere 9 scudetti in tasca, solo 1 in più del valore atteso. In pratica quello che determina questi grandi numeri è il valore atteso della distribuzione che a sua volta dipende dalla probabilità di vittoria (http://it.wikipedia.org/wiki/Distribuzione_binomiale). Più è basso il valore atteso, più il segmento di curva che si impenna va verso sinistra. Di fatto sto spostando i casi con probabilità maggiore verso i numeri più bassi (vedi terza figura sotto).  Analiticamente si arriva prima al valore di saturazione delle curve riportate sopra.  


Quello che da un punto statistico funziona e si riesce a spiegare, non funziona però dal punto di vista calcistico. Riprendiamo i grafici della seconda figura e prendiamo un valore di riferimento pari a 17. Dal grafico vedo che la probabilità di vincere un numero compreso tra 0 e 17 scudetti è del 10% circa se ho due squadre equivalenti. Se però una delle due squadre è un po’ più debole, e quindi la probabilità di vittoria passa dal 50% al 30% (il “caso estremo”), la probabilità di vincere un numero compreso tra 0 e 17 scudetti aumento fino al 90% circa.  Ma come, ammetto che la mia squadra è più debole e invece sembra più facile (più probabile) vincere fino a 17 scudetti in 46 campionati? Vale naturalmente il viceversa, quando assumo che la squadra in esame sia un po’ più forte. Da un punto di vista calcistico sarebbe più verosimile che più una squadra è  scarsa,  meno scudetti si mette in tasca. Matematicamente dovrei vedere una funzione integrale che invece di essere crescente con l’aumentare degli scudetti sia decrescente (vedi esempio di figura 4), e quindi mettermi in bacheca 30 scudetti in 46 campionati dovrebbe essere più difficile, meno probabile, che metterne in bacheca 20!


Da questo ragionamento ne consegue che il modello adottato del lancio della moneta e la sua distribuzione binomiale non è applicabile, decisamente inverosimile. Ma proseguiamo lo stesso.

Se ammettiamo che  la Juve sia un po’ più forte (curva nera del grafico sopra). Basterebbe avere una probabilità di vittoria del 60% (tutto sommato poco, solo il 20% in più dell’avversaria) per ritrovarsi che la probabilità di avere un numero di scudetti uguale o minore a 29 è circa il 71%. Ragionevole, come sono ragionevoli per Inter e Milan nel “caso naturale”.

In maniera del tutto speculare si può ragionare sulle anomalie della Roma.

Varrebbe il caso di analizzare le anomalie anche dal punto di vista della deviazione standard. La Juve ha 6 scudetti in più del valore atteso, comunque molto alto (23), dato che ha potuto disputare 46 campionati/lanci e 3.6 scudetti oltre la deviazione standard. Non è poi così esageratamente anomalo (outlier) rispetto ai 46 campionati/lanci a disposizione. Vista così l’anomalia Juve direi che fa meno paura.

In definitiva, quello che voglio dire è che se vogliamo ragionare sulla statistica, per far “rientrare” le anomalie nella normalità basta rivedere le assunzioni fatte, le ipotesi usate per costruire il modello e di conseguenza cambiare la statistica del fenomeno.  Le conclusioni a cui arriva il post “Facciamo due Conti” possono essere ribaltate semplicemente cambiando le ipotesi di partenza. La frase “La Roma è assolutamente fuori statistica”  non è esatta. Sarebbe più corretto dire La Roma è fuori da questa distribuzione di probabilità.

Allo stesso modo in cui uso la statistica per  essere autorizzato a sentirmi defraudato (o ladrone), posso usarla per capire le forze in campo. Potrei infatti usare l’analisi statistica per dire che il valore del 50% di probabilità di vincita è sbagliato, non è adatto a descrivere il caso in esame,  ed è certamente diverso da squadra a squadra. Forse si dovrebbe vedere nei diversi campionati presi in considerazione lo scarto effettivo di punti tra prima e seconda e magari partire da questo per l’assegnazione delle probabilità di vittoria. Nel calcio, due squadre che arrivano a fine campionato al primo e secondo posto non è assolutamente detto che siano equivalenti (equiprobabili come un soldo da 50 cents). Se guardo ai fatti enunciati nella prima tabella del post “Facciamo due Conti” e lo faccio in modo freddo, statistico appunto, posso anche dire che dai numeri che vedo la Juve è stata un po’ più forte di Inter e Milan, e decisamente più forte di Roma e Lazio (senza andare a cercare favoritismi e penalizzazioni), anche se prima di tirare le somme bisognerebbe vedere di nuovo ‘sti numeri quando tutte e 5 le squadre avranno disputato un ugual numero di campionati competitivi.

Il calcio non è come il lancio della moneta, è molto molto di più…per fortuna!


Nessun commento:

Posta un commento