COVID-19 e Statistica | Seconda Parte

COVID-19 | Viaggio dentro la Statistica

Questo contenuto, relativo al COVID-19, è una breve guida alla Statistica sui tanti dati che i media ed i social ci forniscono quotidianamente sulla pandemia.

Secondo quanto detto nella prima parte di questo articolo (Statistica e Coronavirus: guida ai dati quotidiani), riteniamo opportuno partire dalle argomentazioni riguardanti la metodologia descrittiva.

Nel particolare contesto storico in cui ci troviamo, questo è l’approccio più appropriato e più semplice per iniziare a familiarizzare con il linguaggio statistico. Forniamo al lettore alcune definizioni tecniche, per meglio comprendere e distinguere i vari concetti basilari.

Corrediamo le descrizioni con varie tabelle e grafici, opportunamente rielaborati dai vari report presenti sul sito EpiCentro gestito dall’Istituto Superiore di Sanità. Per maggiori informazioni ed approfondimenti, è consigliato cliccare sul precedente link.


Alcune definizioni di base della statistica


Partiamo dal chiarire cosa sia un’ unità statistica. Essa definisce il singolo ente (impresa, famiglia, etc.…) o individuo sul quale viene eseguita un’osservazione di un fenomeno oggetto d’indagine.

Osservare un fenomeno significa studiarlo nei suoi dettagli ed estrapolarne delle informazioni utili.

L’insieme dei  singoli elementi osservati, ovvero il complesso delle unità statistiche su cui si manifesta il fenomeno esaminato, forma il collettivo statistico o popolazione , generalmente mostrato con la lettera n.

Il carattere statistico altro non è che un particolare aspetto registrato o misurato sulle unità statistiche osservate. In gergo statistico, di solito è indicato con la lettera X.

La modalità rappresenta le diverse manifestazioni di un carattere in un collettivo statistico. A seconda di come viene espressa, la modalità determina la tipologia di carattere, e lo classifica.

Un carattere statistico viene definito quantitativo se le sue modalità sono espresse da numeri, dando luogo ad una variabile statistica. Di converso, il carattere statistico è di tipo qualitativo se le sue modalità sono attributi o espressioni verbali (nomi, aggettivi, locuzioni etc…) originando una mutabile statistica.

Approfondiremo in questa sede, per il momento, il concetto di variabile statistica e le sue declinazioni.

Una variabile statistica assume differenti caratteristiche. Precisamente, se ci troviamo di fronte a numeri interi (0, 1, 2, 3, …) parliamo di variabile statistica discreta, spesso frutto di conteggi ed enumerazioni.

In caso di numeri reali (50, 80, 97, 83, 10,26 ad esempio), solitamente derivati da misure strumentali ed accompagnati da un’unità di misura, individuiamo una  variabile statistica continua.

D’ora in avanti forniremo degli esempi pratici, basati su elaborazioni reali, per spiegare meglio i concetti sopra esposti, e ne introdurremo di nuovi. Partiamo con ordine.


Analisi dei casi di persone decedute e trovate positive al test COVID-19


Vogliamo analizzare in maniera dettagliata i “casi di persone decedute e trovate positive al test per il COVID-19  al 4 maggio”. Questo è il nostro fenomeno oggetto d’indagine su cui, nel complesso, desideriamo saperne di più e non solo il “numero totale” fatto e finito.

Infatti, sapere solamente che sono in 26.892 non ci dice nulla di significativo. L’unità statistica corrisponde nel nostro caso alla singola persona deceduta che, a seguito di test diagnostico, è risultata purtroppo positiva al COVID-19.

L’insieme di tutte le persone decedute e positive al test del COVID-19, ovvero le 26.892 persone, è la popolazione o collettivo d’indagine.

Su ciascuna unità statistica vogliamo osservare una precisa informazione. Siamo interessati all’età al momento della morte. Questo è propriamente il carattere statistico.

Sappiamo tutti che l’età di un essere umano può andare da 0 anni, in caso di neonati, a 100 ed oltre in caso di anziani centenari. Ebbene, queste “cento possibilità” definiscono le modalità del “carattere-età di decesso”, ovvero una persona deceduta e positiva al COVID-19 potrebbe avere 53 anni, oppure 20 anni, o 81 anni etc…

È palese che in questo caso abbiamo a che fare con operazioni di computo, con il supporto di numeri interi, ovvero quelli che usiamo per contare (anche con le dita di una mano!). Dunque, in ultima analisi, siamo di fronte a una variabile statistica discreta.


Le distribuzioni statistiche


Spesso le proporzioni delle indagini comportano la manipolazione di un numero enorme di informazioni durante la loro rilevazione e raccolta.

La successiva fase di spoglio ed organizzazione dei dati stessi viene condotta attraverso la stesura di una distribuzione statistica.

La distribuzione statistica è una rappresentazione, per mezzo di tabelle, della maniera in cui le diverse modalità di un carattere si collocano nelle unità statistiche che compongono la popolazione oggetto di studio.

Con la distribuzione statistica semplice prendiamo visione di un solo carattere presente nel collettivo. Se invece i caratteri rilevati sono due o più, parliamo di distribuzione statistica multipla.

In questo contributo esaminiamo le varie distribuzioni statistiche semplici, poiché rileviamo le modalità del solo carattere “età di decesso”.


La distribuzione statistica unitaria


In prima battuta, colui che “converte” la massa di dati grezzi in forma tabellare di solito adotta una distribuzione statistica unitaria semplice. Consiste in un tabella in cui vengono associate, in coppia, le singole osservazioni x1; x2; xi …xn del carattere statistico X con le rispettive l1;l2;li… ln unità statistiche della popolazione. Esempio


dati in forma tabellare


X= età di decesso   x1= 79; x2=55; x3=47 … x26.892=64

n= popolazione      l1=Persona n.1; l2=Persona n.2;… l26.892=Persona n. 26.892

I punti di sospensione indicano che l’elenco in tabella continua fino alla persona n°26.892, avente un’età di decesso pari a 64 anni. Pagine e pagine di dati statistici poco significativi in sé e per sé.

Inoltre, sapere così dettagliatamente proprio chi sia morto con positività al COVID-19 (al posto di “Persona” infatti, potrebbero esserci scritti addirittura nomi e cognomi), non giova a nessuno.

La distribuzione unitaria semplice pertanto, di solito non è quella definitiva, ma è propedeutica ad altre successive, fra cui la distribuzione di frequenza semplice.


La frequenza e la classe


Definiamo innanzitutto la nozione di frequenza, che può essere di tre tipologie.

La frequenza assoluta indica il numero di volte f1; f2; fi …fs con cui si sono presentate nel collettivo statistico le modalità y1; y2; yi …ys del carattere statistico X. Dopodiché, la frequenza relativa viene ricavata effettuando il rapporto fra la singola frequenza assoluta fi anzidetta e la numerosità del collettivo statistico, ovvero n.

Poi, la frequenza relativa moltiplicata per 100 fornisce la frequenza percentuale.

In aggiunta, i concetti di frequenze cosi definiti sono strettamente correlati a quello di classe, ovvero la suddivisione secondo particolari criteri delle modalità rilevate sulle unità statistiche del collettivo.


La distribuzione di frequenza


Con l’esposizione di una distribuzione di frequenza semplice ci addentriamo alla seconda fase della nostra indagine.

Formulare una frequenza assoluta vuol dire ad esempio porsi la domanda sui casi deceduti e positivi al COVID-19, quanti avevano 53 anni d’età al momento della morte? “.

D’altronde possiamo ragionare così sulla frequenza relativa e/o percentuale: “Questi 53enni deceduti e positivi al COVID-19, in che proporzione incidono sul totale dei morti e positivi al COVID-19?”.

Nel caso in oggetto poi, teoricamente ad ogni modalità dovrebbe corrispondere una classe, a cui associare le frequenze.

Ad esempio, i “soggetti positivi al COVID-19 deceduti che avevano 53 anni sono 522, quelli che avevano 54 anni d’età sono 128” etc. Questo per ciascun anno d’età di un essere umano da 0 a 100.

La tabella così definita presenta questa configurazione, con le modalità poste in ordine crescente y1<y2<y3<…yi<…<ys  (0<1<2…<43<…98…<100).


dati e tabella sul Covid 19


Gli “spazi di sospensione” vogliono dire un’abbreviazione per ragioni di spazio, poiché le righe della tabella dovrebbero essere all’incirca cento!

Sicuramente più “compatta” dell’elenco del paragrafo precedente, l’avere comunque molte classi e pertanto molte righe potrebbe, nonostante tutto, rendere il fenomeno ancora abbastanza difficile da comprendere nel suo insieme.

D’altro canto, anche stabilire poche classi comporterebbe problemi, poiché rischieremmo di non rendere giustizia ai dati nella loro significatività.

Implementiamo perciò una terza fase, ovvero un ulteriore raggruppamento dei dati in media res.


Raggruppamento dei dati


Invece di realizzare tante classi quante sono le modalità, poniamo in essere delle classi ciascuna formata da più modalità consecutive, tale da avere un intervallo di classe.

Come nell’esempio reale qui sotto, abbiamo una fascia d’età 0-9, una 10-19, etc. Questo raggruppamento viene ottenuto sommando fra di loro le singole frequenze riscontrate distintamente in ciascuna delle singola modalità che formano un intervallo.

Ogni intervallo di classe contiene un limite inferiore (ad esempio 40), ed un limite superiore (es. 49) ed assume una certa ampiezza (a) in funzione di quante modalità contiene al suo interno. L’intervallo di classe 40-49 per esempio contiene 10 modalità (40 ,41, 42, 43… 49).

Il passaggio da classi singole ad intervalli di classe comporta in maniera inevitabile una certa perdita di dettaglio nelle informazioni, a vantaggio però di una maggiore intellegibilità della tabella.


dati tabellari e Covid 19


Freq. Assoluta classe 30-39 = 51; Freq. Relativa classe 30-39= 51/26.892=0,00189, arrotondato a 0,002; Freq. Percentuale classe 30-39= 0,002*100=100%.

La maggior parte delle volte, come anche adesso, la frequenza relativa non viene esposta in tabella, poiché facilmente ricavabile da quella percentuale. Il motivo risiede nel non “appesantire” la tabella stessa.

Notiamo che la somma delle frequenze percentuali è 100%, mentre la somma delle frequenze relative è uguale a 1. Le due somme a volte ”non quadrano”, perché l’applicazione di arrotondamenti per eccesso o per difetto ne influenzano il risultato.

Di converso, la somma delle frequenze assolute è uguale alla numerosità del collettivo, in questo caso 26.892, ed è dunque sempre esatto.

Leggi anche: Statistica e Coronavirus: guida ai dati quotidiani

 

Fabrizio Turi
Fabrizio Turi

Di Ostuni ( Br ) laureato in Economia Aziendale presso l'Universita degli studi di Bari , Business Advisor - Consulente aziendale per lo sviluppo d'impresa.

Nessun commento per ora.

Non è possibile commentare