Impariamo a valutare con esattezza i limiti dei sondaggi

Qual è il margine di errore sui sondaggi politici che vediamo con frequenza in televisione e sui giornali? Il post dedicato ai sondaggi del lunedì di Enrico Mentana, che ho pubblicato su Numerus, il mio blog sulla statistica sul sito del Corriere della Sera, ha provocato una serie di commenti che mi hanno indotto ad approfondire il tema. Pubblico sul mio sito le considerazioni più tecniche, che possono essere utili anche agli studenti dell’Ifg di Urbino e a chiunque sia interessato a capire meglio questo argomento e ringrazio l’ex presidente dell’Istat Alberto Zuliani per avermi pazientemente fornito gli elementi necessari.

Cominciamo con qualche definizione. Ogni rilevazione statistica effettuata per campione contiene un margine di errore, perché la suddivisione del campione non può rispecchiare fedelmente quella dell’universo con riferimento al fenomeno che interessa osservare. Questo margine di errore è detto errore campionario. Esso può essere più o meno grande a seconda della probabilità (livello di confidenza) che vogliamo avere di stimare bene le caratteristiche della popolazione alle quali siamo interessati. Meglio spiegarsi con un esempio. Se abbiamo effettuato un campionamento casuale pari a 1000 intervistati e la metà di essi ci dice che voterà per il partito A, le formule (che spiegheremo più avanti) ci dicono che l’errore campionario sarà pari a:

– (più o meno) 2,6 per un livello di confidenza di 0,90

– 3,1 per un livello di confidenza pari a 0,95, quello abitualmente più usato

– 3,68 per un livello di confidenza pari a 0,99.

In altre parole, se la stima campionaria dei votanti per il partito A è 50% (la metà dice che voterà per A), avremo il 90% di probabilità che la vera percentuale di votanti per quel partito sia compresa fra 47,4% e 52,6%; il 95% di probabilità che sia compresa fra 46,9 e 53,1; il 99% che sia compresa tra 46,32 e 53,68%.

In modo più rigoroso, l’ intervallo costruito per il nostro specifico campione può essere uno dei 90 (oppure 95, oppure 99, a seconda del livello di confidenza al quale si vuole operare) costruibili su campioni della stessa dimensione che contengono la vera e ignota percentuale di votanti per il partito A. D’altronde, potrebbe essere uno dei 10 (oppure 5, oppure 1, a seconda del livello di confidenza scelto) per i quali l’intervallo non conterrebbe la vera percentuale dei votanti per A.

Da che cosa dipende questo calcolo? Quali sono le variabili in gioco? Premettiamo che stiamo parlando di campioni casuali semplici, cioè quelli ottenuti, per esempio, in un sondaggio politico, se tutti gli elettori hanno uguale probabilità di farne parte; il che non è del tutto vero, quando le società che effettuano il sondaggio estraggono il campione da elenchi telefonici. Ma supponiamo per semplicità che il campionamento sia fatto a regola d’arte, che tutti gli intervistati accettino di rispondere, il che nella realtà non accade, provocando ulteriori distorsioni. Come si determina la stima dell’errore campionario per un campione casuale semplice (è una stima perché, nella formula che segue, p dovrebbe essere la vera frazione ignota dei votanti per A che, in quanto non conosciuta, viene rimpiazzata da quella che emerge dal campione)? Si determina attraverso la seguente semplice formula:

Essa ci dice che l’errore campionario dipende da un coefficiente z, in funzione del livello di confidenza scelto, dalla frazione rilevata p (cioè quella emersa dal campione) e dalla numerosità n del campione. A un profano può sembrare strano, ma l’errore campionario non dipende dalle dimensioni dell’universo: per un campione di mille individui, il margine di errore è uguale se l’universo dal quale il campione è estratto è pari agli elettori italiani o a quelli di tutta l’Europa.

La formula che abbiamo presentato porta alla costruzione della seguente tabella, dove p è la frazione vera che viene rimpiazzata con quella campionaria:

A questo punto, siamo in grado di valutare l’errore campionario per un campione casuale semplice pari a 1000 elettori italiani, ad esempio al livello di confidenza dello 0,95:

– per un partito che è stato scelto dal 50% del campione di elettori, il risultato vero (con una probabilità del 95%) sarà compreso tra 46,9 e 53,1

– per un partito che è stato scelto dal 30%, sarà tra 27,16 e 32,84

– per un partito scelto dal 20%, sarà tra il 17,52 e il 22,48

– per un partito scelto dal 10%, sarà tra l’8,14 e l’11,86

– per un partito scelto dal 5% sarà tra 3,65 e 6,35

– per un partito scelto dall’1%, sarà tra 0,38 e l’1,62%.

Appare chiaramente da questi dati che l’errore campionario diminuisce al diminuire della proporzione p: sarà più alto per un grande partito scelto dal 50 o dal 30% del campione di elettori e più piccolo per un piccolo partito. Ma attenzione al suo significato: se per esempio per un partito al 30% l’errore è pari a meno del 10 per cento del suo valore (per l’esattezza 9,5), è invece del 18,6% per un partito al 10 e addirittura del 62% per un partito all’uno per cento.

Da questi elementi si possono dedurre almeno due cose, che ci inducono a prendere con le pinze i risultati dei sondaggi politici:

1) i raffronti sulle variazioni dello stesso partito da un sondaggio all’altro non hanno grande senso quando le variazioni sono interne al margine di errore, per esempio un 2% in più o meno per un partito al 30%. Ma esistono metodi statistici per valutare se la variazione fra un sondaggio e l’altro sia “significativa” oppure no e non vengono mai presentati.

2) I dati relativi ai partiti più piccoli sono poco attendibili, perché la loro vera consistenza potrebbe essere pari alla metà o a quasi il doppio di quella indicata dal campione.

I sondaggi sono comunque utili per indicarci in linea di massima la consistenza dei diversi schieramenti. Ma se teniamo a mente i limiti di questi dati, potremo valutare meglio il loro effettivo significato.

Sull'autore

d.speroni

Il data journalism e la statistica ufficiale
27 maggio 2012

2030 – La tempesta perfetta: una proposta “new global”
27 gennaio 2012

E’ nato “Numerus” su Corriere.it
9 maggio 2011

Seminario Agcom: i sondaggi sono una patacca
26 marzo 2011

La sfida dei nove miliardi – un dossier per la rivista East
31 gennaio 2011

Cruscotto francotedesco per l’Europa del 2020
5 gennaio 2011

1 Commento

8 novembre 2019 - 14:06

Mirio E.D. de Rosa

Post interessante. Mi permetto di segnalare questo articolo (in Inglese), anch’esso sull’interpretazione dei risultati campionari. Si parla della ricerca sull’esito della Brexit che YouGov condusse a ridosso della votazione:
http://www.marketingstat.com/market-research-projections-brexit/
Buon lavoro

Lascia un commento

Annulla risposta