I dati bugiardi

La storia, anche la piรน recente, ha ampiamente dimostrato che una bugia โ€œcertificataโ€ attraverso i dati puรฒ essere trasformata in una falsa veritร  supportata da numeri e opinioni, diffuse in contesti social-televisivi, che non provengono quasi mai da analisi scientifiche approfondite, ma da sensazioni o interessi personali.

Munch

di Alessandro Capezzuoli, funzionario ISTAT e responsabile osservatorio dati professioni e competenze Aidr | I dati statistici permettono di descrivere un certo tipo di fenomeno (naturale, sociale, etc.) e di rappresentare la realtร  con una buona approssimazione: questa รจ la buona notizia. La brutta notizia รจ che, laddove nel processo di produzione e di diffusione non sia applicato un metodo scientifico rigoroso, i dati statistici possono prestarsi a interpretazioni fantasiose e possono dar luogo a una conseguente distorsione della veritร . La storia, anche la piรน recente, ha ampiamente dimostrato che una bugia โ€œcertificataโ€ attraverso i dati puรฒ essere trasformata in una falsa veritร  supportata da numeri e opinioni, diffuse in contesti social-televisivi, che non provengono quasi mai da analisi scientifiche approfondite, ma da sensazioni o interessi personali. Questi ultimi, in particolare, inducono lโ€™interessato a narrare capziosamente i dati, aggiungendo al racconto una buona dose di pathos e di trasporto emotivo che non hanno nulla in comune con la rigorositร  scientifica. Umberto Eco ha insegnato che in qualsiasi narrazione esiste un patto narrativo tra lโ€™autore e il lettore. Nel caso dei dati, affinchรฉ la narrazione sia quanto piรน possibile vicina alla veritร , รจ necessario che il produttore conosca a fondo il fenomeno che sta descrivendo e i metodi per rappresentarlo con il massimo rigore scientifico possibile. Il lettore, invece, dovrebbe avere un insieme minimo di conoscenze per capire il significato di ciรฒ che sta leggendo e metterlo in dubbio, se necessario. Questa condizione รจ molto infrequente poichรฉ, spesso, anche gli addetti ai lavori sottovalutano le insidie del mestiere e, soprattutto, sottovalutano il nesso che cโ€™รจ tra il dato statistico e le finalitร  di chi lo produce o lo diffonde.

Il metodo utilizzato per trarre in inganno i fruitori dei dati รจ collaudato e funziona molto bene: si sceglie la veritร  (o la bugia) che fa comodo e si supporta con una certa interpretazione dei dati, omettendo volutamente informazioni metodologiche o altre interpretazioni piรน veritiere. Accade spesso che, tra le tante interpretazioni associate ai dati, non prevalga mai quella piรน vicina alla veritร  ma quella piรน verosimile: e questo, laddove ci siano intenzioni dolose, o semplicemente superficialitร , รจ molto pericoloso.

La credulitร  nei numeri, che deriva dalla scarsa conoscenza della matematica e della statistica, dร  la possibilitร  ai malintenzionati di trasformare le falsitร  in veritร  e viceversa. La comunicazione, i notiziari e gli articoli sono pieni di esempi di questo tipo. Lโ€™interpretazione di qualsiasi fenomeno attraverso i dati dovrebbe essere introdotta da una frase di pericolo, come avviene per i pacchetti di sigarette, qualcosa del tipo โ€œCon i dati si puรฒ mentire: leggere con cautela, pensare, ragionare e dubitare. Sempreโ€.

Pubblicitร 
migranti

โ€œSiamo invasi dai migrantiโ€ รจ una notizia che viene utilizzata frequentemente allo scopo di far leva sulle paure di chi vede nella diversitร  un pericolo e nella povertร  una minaccia: questo per raccogliere consensi elettorali o per altri motivi poco nobili. Ci sarebbe da chiedersi come sarebbe una societร  in cui questa stessa informazione fosse divulgata in modo martellante sotto unโ€™altra forma, descrivendo la diversitร  come unโ€™opportunitร  e la povertร  come unโ€™occasione per abbattere le barriere piuttosto che alzarle. Di certo cโ€™รจ che, a fronte di un titolo simile, unโ€™esigua minoranza di persone consulta i dati prodotti dalla statistica ufficiale. Una minoranza ancora piรน ristretta riesce a contestualizzarli e a rendersi conto autonomamente che non cโ€™รจ nessuna โ€œoperazione invasioneโ€ in corso. Uno dei peccati capitali delle informazioni statistiche riguarda la diffusione dei valori assoluti senza le adeguate descrizioni e contestualizzazioni. E anche dei valori relativi (percentuali) senza le dovute precisazioni. Quel numero, 700 migranti, significa tanto o poco? Diciamo che tanto e poco non hanno mai un significato vero e proprio, se non viene specificato โ€œrispetto a cosaโ€. Effettivamente, in un villaggio di 10 abitanti, 700 puรฒ essere โ€œtantoโ€, ma in una metropoli di 5 milioni di abitanti รจ relativamente โ€œpocoโ€. Se perรฒ, allโ€™interno della stessa metropoli, i 700 migranti vengono fatti alloggiare in un comprensorio, ecco che per la percezione โ€œlocaleโ€ il numero significa di nuovo โ€œtantiโ€. Se poi si considerano i dettagli temporali, ovvero il periodo in cui si analizzano i dati complessivi (generalmente lo stock riferito allโ€™anno solare), e lo status (rifugiati, richiedenti asilo politico, minori non accompagnati o persone che si ricongiungono con un famigliare) ecco che la descrizione del fenomeno cambia ulteriormente in maniera radicale.

Cโ€™รจ poi unโ€™altra questione, sempre riferita alla contestualizzazione dei dati, che non deve essere trascurata: la definizione delle variabili analizzate.

disoccupazione

Un articolo di questo tipo, per esempio, prima di suscitare indignazione per la situazione occupazionale del Paese, dovrebbe indurre il lettore a porsi parecchie domande: Chi sono gli occupati a cui fa riferimento la notizia?, Quali metodologie sono state utilizzate per ricavare quel numero? Che cosa rappresenta quel dato? Qual รจ lโ€™errore statistico considerato?

I non addetti ai lavori probabilmente non sanno che esiste una definizione, condivisa dopo molti anni dallโ€™Istat, dallโ€™Inps e dal Ministero del lavoro, che identifica gli occupati nelle persone di 15 anni e piรน che nella settimana di riferimento (a cui sono riferite le informazioni):presentano una delle seguenti caratteristiche:

  • hanno svolto almeno unโ€™ora di lavoro in una qualsiasi attivitร  che prevede un corrispettivo monetario o in natura;
  • hanno svolto almeno unโ€™ora di lavoro non retribuito nella ditta di un familiare nella quale collaborano abitualmente;
  • sono assenti dal lavoro (ad esempio, per ferie, malattia o Cassa integrazione).

Se questa definizione (peraltro incompleta per motivi editoriali) potrebbe essere lontana dallโ€™idea comune di occupato, le interpretazioni dei dati diffusi dalle principali istituzioni prima di giungere allโ€™accordo sono ancora piรน complesse e articolate da comprendere. Questa definizione, oltretutto, รจ integrata da altre definizioni specifiche (disoccupato, occupato a tempo indeterminato, etc), che permettono di fornire descrizioni piรน dettagliate riguardo alle diverse forme di occupazione. รˆ sufficiente questa osservazione per fornire una chiave di lettura migliore? Ovviamente no. La definizione deve essere riferita a una metodologia di calcolo scientificamente valida, altrimenti resta priva di senso. I dati riguardanti gli occupati possono essere elaborati attraverso diverse fonti, integrate o meno tra loro, attraverso le quali descrivere la situazione occupazionale da diversi punti di vista. In generale, per rispondere alla domanda โ€œquanti sono i/gliโ€ฆ ?โ€, si ricorre a due metodi, ciascuno dei quali puรฒ introdurre degli errori: o si contano tutti gli oggetti di analisi, o si stima il numero attraverso un campione. Tempo fa, mi sono imbattuto in un articolo in cui si affermava che, secondo uno studio non meglio specificato, i topi presenti a Roma fossero circa 6 milioni.

topi

Che metodologia ha adottato chi ha condotto lo studio? Escludendo a priori che possa aver contato i topi uno a uno, e in quel caso si sarebbe trattato di un censimento, che avrebbe dato luogo a un โ€œarchivio amministrativo dei topiโ€ con tanto di nome, cognome e indirizzo, lโ€™ipotesi piรน sensata รจ che abbia stimato la popolazione totale di ratti attraverso un campione rappresentativo. Le parole stima e campione rappresentativo dovrebbero essere introdotte per legge a corredo delle informazioni diffuse dai media, per evitare ogni tipo di misunderstanding. Nella quasi totalitร  dei casi, infatti, i dati statistici rappresentano la stima di un certo fenomeno, non la misura di una veritร  assoluta e incontrovertibile, derivante dallโ€™analisi di dati raccolti attraverso metodi censuari o campionari. Le stime, per definizione, sono corredate dallโ€™errore statistico campionario e non campionario: il primo deriva dalle tecniche di campionamento, il secondo dagli strumenti e dai metodi di rilevazione. Questa affermazione, che potrebbe sembrare ovvia, non lo รจ affatto quando si tratta di comunicare un dato alla popolazione. Dichiarare apertamente che un dato รจ associato a un certo margine di errore, possibilmente descritto accuratamente in tutti i suoi aspetti, induce il lettore a dubitare e a interrogarsi sulla possibile falsificazione popperiana dei modelli applicati. Un campione statistico, per quanto accurato e rappresentativo possa essere, introduce sempre una qualche distorsione e un errore che puรฒ essere piรน o meno accentuato laddove si stimi la misura di fenomeni oggettivi (ad esempio il numero di biglie bianche e rosse presenti in un contenitore) o di โ€œopinioniโ€ derivanti da questionari sociali e indagini di mercato. Analogamente, un archivio amministrativo รจ affetto da altri tipi di criticitร , ugualmente complesse, che necessitano di โ€œaggiustamentiโ€ spesso molto complessi per poter essere utilizzati a scopi statistici. In entrambi i casi, รจ vero che uno studio condotto su un campione o su un archivio amministrativo non puรฒ essere migliore del campione o dellโ€™archivio su cui si basa. รˆ altrettanto vero che da un campione (di)storto non puรฒ nascere un dato dritto. Tra le ulteriori tecniche di distorsione della realtร  cโ€™รจ sicuramente lโ€™utilizzo fraudolento e spericolato di quello che nella statistica prende il nome di โ€™โ€indice di posizioneโ€, ovvero di quel โ€œnumeroโ€ attraverso il quale si sintetizzano i risultati di unโ€™elaborazione statistica. Gli indici di posizione piรน utilizzati per sintetizzare le analisi statistiche sono la media, la moda e la mediana. Anche in questo caso, รจ utile far riferimento a una notizia vera (o verosimile?) diffusa dai media senza le giuste avvertenze, per mettere in risalto alcuni aspetti interessanti.

stipendio

Indicare il salario medio dei lavoratori di unโ€™azienda potrebbe avere un senso laddove si abbia un certo interesse a livellare verso lโ€™alto la rappresentazione delle retribuzioni: in unโ€™azienda in cui ci sono tre lavoratori, uno che percepisce un salario da 5000 euro e due che ne percepiscono 500, il salario medio aziendale รจ 2000 euro. Lo stesso fenomeno, descritto attraverso lโ€™uso della moda, dร  una lettura diversa: il salario piรน diffuso nella stessa azienda ammonta 500 euro. La mediana, invece, suggerisce che circa la metร  dei dipendenti percepisce meno di 500 euro e lโ€™altra metร  di piรน. Le tre affermazioni sono vere, ma ognuna descrive un aspetto diverso della stessa veritร . Il problema, in questo caso, non รจ lโ€™indicatore statistico, ma รจ lโ€™uso che se ne fa a fare la differenzaโ€ฆ

Potrei continuare per pagine a elencare le possibili insidie dei dati statistici, ma diventerebbe estremamente noioso e poco utile. รˆ utile, invece, riflettere su una domanda: โ€œQuali e quante notizie e report relativi alla pandemia hanno rispettato i requisiti minimi richiesti per la produzione e la diffusione di un dato statistico di qualitร ?โ€.