fbpx

Le distribuzioni multiple: quarta puntata nella Statistica

Le distribuzioni statistiche multiple: continua il viaggio nella Statistica.

Le distribuzioni statistiche multiple: continua il viaggio nella Statistica.

Le distribuzioni statistiche multiple sono naturali conseguenze delle distribuzioni semplici, che abbiamo esaminato negli articoli precedenti (Statistica e COVID-19: seconda parte). Una fondamentale differenza fra le due risiede nel fatto che nelle distribuzioni statistiche multiple esaminiamo non solo una ma ben due o più variabili e/o mutabili. Per ricapitolare, leggi qui: le mutabili statistiche.

Nell’indagine su un fenomeno osservato, la realtà dei fatti potrebbe assumere contorni  abbastanza complessi. Pertanto la sola focalizzazione su un unico e determinato carattere del collettivo statistico fornirebbe un quadro  abbastanza riduttivo. Facciamo un esempio. Su una popolazione n sappiamo come si distribuisce una  precisa patologia fra le varie fasce d’età.

Ciò comunque a volte non ci basta: vogliamo una visione d’insieme più ampia e profonda. Desideriamo dunque conoscere, nello stesso frangente, come si distribuisce la stessa malattia anche in base al sesso dei malati. Le pretese non sono eccessive, poiché nelle fasi seguenti dell’indagine potrebbero sorgere interessanti questioni di correlazione, dipendenza o indipendenza fra le variabili/mutabili in gioco.

In generale, studiare congiuntamente più caratteri permetterebbe di comprendere meglio la struttura del fenomeno e le sue manifestazioni. Più informazioni abbiamo su  un fenomeno, più ne ravvisiamo l’evoluzione temporale ed i nessi causali che legano i molteplici caratteri. Dunque, attraverso questo approccio sistemico possiamo effettuare previsioni, formulare leggi empiriche e modellizzare un certo evento reale.

Il passaggio da uno a più caratteri nel trattamento dei dati.

Le considerazioni finora esposte non screditano comunque l’importanza delle distribuzioni semplici viste la volta scorsa. Il motivo è abbastanza semplice. Teniamo in mente il famoso precetto che più i dati sono dettagliati, minore è la loro sintesi. Di conseguenza la comprensibilità delle informazioni contenute in essi sarà più difficile.

Questo concetto vale ancor di più quando la mole dei dati aumenta, come appunto vedremo nelle distribuzioni statistiche multiple. Perciò, a volte per ragioni di chiarezza immediata del fenomeno è preferibile usare una distribuzione semplice mostrando il comportamento di un solo un carattere.

Ebbene, a questo scopo rinunciamo a mostrare altre variabili/mutabili eventualmente compresenti pur di alleggerire la chiave di lettura delle tabelle. Di converso invece, quando vogliamo approfondire maggiormente un fenomeno, usiamo distribuzioni multiple introducendo contemporaneamente due o più variabili/mutabili.

Compiamo in tal modo uno studio più completo e particolareggiato,  anche se rinunciamo parzialmente all’immediatezza espositiva. La situazione fra due estremi viene mitigata in media res (è un principio cardine della Statistica!) per mezzo di particolari tabelle come più avanti mostrate.

Distribuzioni Statistiche Multiple.

Le distribuzioni statistiche multiple seguono la stessa filosofia concettuale di quelle semplici, ma usano tabelle leggermente differenti. Non a caso, come sempre, dapprima elaboriamo i dati grezzi raccolti in distribuzioni unitarie, e poi li trasformiamo in particolari distribuzioni di frequenza. Vedremo tutto questo, presentando in primis l’impianto teorico e poi un caso reale.

La Matrice dei Dati.

Su un fenomeno oggetto d’indagine abbiamo un  certo numero m di variabili e/o mutabili, ovvero caratteri statistici, osservati su ogni unità statistica del collettivo:  X1,X2,…Xm. Sempre su ciascuna unità, quindi, sono rilevate le generiche modalità xij  dei caratteri in questione. Ordiniamo il tutto in una c.d. matrice dei dati come in figura,  mostrando una distribuzione unitaria multipla.

 Distribuzione unitaria multipla.

Essa è semplicemente una tabella che ha una struttura uguale a quella di distribuzione unitaria semplice, ma che non è composta solamente da una colonna. Ogni generica colonna Xj corrisponde ad uno specifico carattere.

Le righe i invece sono tante quante le unità statistiche (n) che formano il collettivo, ed esibiscono le modalità dei caratteri. Nelle distribuzioni statistiche multiple pubblicate dalle istituzioni scientifiche molto spesso vengono trattati contemporaneamente solo due caratteri, fra quelli più rappresentativi. Dunque il numero o di variabili o di mutabili considerato è m=2.

Anche noi nel presente contributo ci allineiamo a questa scelta. Peraltro, è scontato affermare quindi che in una distribuzione statistica semplice m assuma il valore di 1. Per ragioni di semplicità, avendo allora solo due caratteri, la distribuzione può essere definita propriamente come “doppia”, invece dell’aggettivo più generale “multipla”. Dunque da qui in poi  useremo il termine distribuzione statistica doppia.

La tabella a doppia entrata.

La matrice presenta generalmente gli stessi problemi della tabella di distribuzione unitaria semplice. Cioè, abbiamo estremo dettaglio nei dati e intere pagine e pagine di numeri e parole su cui abbiamo difficoltà ad estrapolare informazioni immediate e sintetiche. Procediamo dunque a predisporre e convertire la matrice in una c.d. tabella a doppia entrata, delineando una distribuzione statistica di frequenza doppia.

 La tabella a doppia entrata.

Qui X e Y sono i nostri due caratteri d’indagine. Quello X (di solito un tipo quantitativo) viene posto in fiancata (sull’asse delle ordinate) con le sue k modalità (le x minuscole). Il carattere Y viene inquadrato invece in testata (sull’asse delle ascisse) con le sue h modalità (le y in minuscolo). Il quadro centrale contiene le frequenze assolute rilevate nel collettivo statistico. Abbiamo anche delle cornici ai margini, che illustrano dei totali di riga e di colonna.

Riassumendo, le tabelle a doppia entrata hanno lo scopo di sintetizzare facilmente la visualizzazione contemporanea di due caratteri (variabili/mutabili), con una minima perdita di informazione rispetto alle matrici.

Un caso reale.

Esaminiamo, per fissare le idee, la Tabella 3 che seguirà, leggermente riadattata. Trascureremo per il momento l’analisi sulle frequenze percentuali per motivi espositivi. Consideriamo una popolazione statistica di n=4.406 , formata adolescenti e bambini con un’età inferiore a 18 anni con una diagnosi di COVID-19. Per ogni adolescente (unità statistica) rileviamo contemporaneamente quanti anni abbia e il suo sesso.

Impostiamo il carattere quantitativo (variabile) “Età” in fiancata con i suoi k=3 intervalli di classe (0-1,2-6,7-17), le quali sono pur sempre modalità. Il carattere qualitativo (mutabile) “Sesso” viene inserito in testata con le sue h=3 modalità (Femmine,  Maschio, Non noto). Un vantaggio della distribuzione statistica doppia è che possiamo estrarre, nella tabella a doppia entrata, tre distinte sotto distribuzioni di tipo semplice.

La distribuzione congiunta.

Estrapoliamo inizialmente la sotto-distribuzione delle c.d. frequenze assolute congiunte, formata dall’insieme dei generici elementi ???. Ciascuno di essi rappresenta il numero di unità statistiche che presentano la ?−esima modalità del carattere ? congiuntamente alla ?−esima modalità del carattere ?.

Troviamo questa sotto-distribuzione nel centro della tabella.

Perché “congiunte”? Spieghiamo il tutto vagliando attentamente un generico termine, ad esempio 264. Questo numero indica una frequenza assoluta in cui 264 unità statistiche sono sia “Femmine”, e all’insieme poco più che neonate, essendo ricomprese anche nella classe di età” 0-1”.

“Fondiamo” e rappresentiamo in un unico numero due caratteristiche ben distinte, ma entrambe indissolubilmente legate dal fatto che siano presenti su una medesima unità statistica.

Stesso principio d’azione viene applicato anche alle altre frequenze assolute dette congiunte come 358,1.520,317,409,1.537,1,NA,NA. La somma di tutte le frequenze assolute congiunte da come totale la numerosità del collettivo n, ovvero qui 4.406. Non a caso 264+358+1.520+317+409+1.537+1+0(NA)+0(NA)=4.406.

Distribuzioni marginali.

Vediamo  successivamente un’altra categoria di sotto-distribuzioni, ovvero quelle marginali delle frequenze assolute. Precisamente distinguiamo innanzitutto la distribuzione marginale del carattere X. Questa permette di studiare il modo con cui X medesimo si presenta nel collettivo in esame, indipendentemente dai valori assunti dal carattere Y.

Di converso, consideriamo la distribuzione marginale del carattere Y. Essa consente di approfondire il modo con cui Y stesso si mostra nel collettivo, indipendentemente dai valori assunti dal carattere X. In prospettiva, individuiamo la distribuzione marginale di X nella cornice verticale, mentre la distribuzione marginale di Y nella cornice orizzontale.

Come facilmente intuibile, l’elemento generico della distribuzione marginale del carattere X, in questo caso 582,767,3.057, sono dei totali di riga. Al contrario, l’elemento generico della distribuzione marginale del carattere Y sono dei totali di colonna, e qui sono 2.142 , 2.263, 1. Sia la somma fra i totali di riga, sia la somma fra i totali di colonna, danno entrambe come risultato la numerosità del collettivo n= 4.406. Infatti 582+767+3.057=4.406 e 2.142+2.263+1=4.406.

Distribuzioni parziali (o condizionate).

La terza tipologia di  sotto-distribuzioni esplicitabile viene formata quando, dopo aver fissato una sola modalità di un carattere, esaminiamo nel suo ambito il comportamento di  tutte le altre  modalità del carattere opposto. Parliamo dunque di distribuzione condizionata (o parziale) di X rispetto a  Y,

e di distribuzione condizionata (o parziale) di Y rispetto a X, di seguito esposta.

Come vediamo, le distribuzioni parziali permetto di focalizzare al meglio i legami che ci sono fra le varie modalità dei due caratteri presi in considerazione. Notiamo con attenzione che il totale di ciascuna distribuzione parziale, in generale, coincide con un solo totale o di riga o di colonna visti prima. Quest’ultimo aspetto lega dunque fra di loro come un filo rosso le tre casistiche di sotto distribuzioni appena menzionate.

Conclusioni.

In conclusione, data una distribuzione statistica doppia, secondo 2 caratteri con in totale k x h combinazioni di modalità, abbiamo:

– 1 distribuzione doppia delle frequenze congiunte, con appunto k x h= 3 x 3= 9 elementi;

– 2 distribuzioni marginali;

– h ( nel nostro caso uguale a 3) distribuzioni parziali di X;

– k (nel nostro caso uguale a 3) distribuzioni parziali di Y.

Leggi anche: Il Dynamic Business Model Canvas: breve introduzione

Avatar photo
Fabrizio Turi

Di Ostuni ( Br ) laureato in Economia Aziendale presso l'Universita degli studi di Bari , Business Advisor - Consulente aziendale per lo sviluppo d'impresa.

Nessun commento

Lascia un commento

Your email address will not be published.

Il Progresso Magazine Online Logo

 

Associazione culturale “THE PROGRESS 2.0”
Direzione-Redazione-Amministrazione
Via teatro Mercadante, 7
70022 Altamura (Ba)
mail: [email protected]

SEGUICI SU