Media, varianza, coefficiente di variazione e chi-quadro di una distribuzione doppia
Su un campione di 55 individui è stata rilevata la classe di età e quale mezzo di trasporto utilizzano usualmente per andare al lavoro:
a) Calcolare la media aritmetica, la mediana e la varianza dell’età.
b) Calcolare la media e la varianza dell’età dei soggetti che utilizzano l’automobile.
c) E’ più variabile l’età degli individui che usano l’automobile rispetto a coloro che usano il treno? Si giustifichi la risposta.
d) Calcolare un opportuno indice di associazione tra l’età e il mezzo di trasporto utilizzato e commentare il risultato.
Soluzione
Indicando con \(X\) l’età e con \(Y\) il mezzo di trasporto, calcoliamo i valori centrali \(m_i\) per ogni classe di età, le frequenze marginali di riga (ovvero i totali delle frequenze per ogni classe di età \(n_{.j}\)) e le frequenze marginali di colonna (ovvero i totali delle frequenze per ogni mezzo di trasporto \(n_{i.}\)):
a) Media aritmetica di \(X\):
\[\mu_x=\frac{\sum_{i=1}^3m_i\cdot n_{i.}}{n}=\frac{24\cdot 15+40\cdot 25+ 57.5\cdot 15}{55}=40.41\]
Varianza di \(X\):
\[\sigma_x^2=\frac{\sum_{i=1}^3m_i^2\cdot n_{i.}-n\cdot \mu_x^2}{n}=\frac{24^2\cdot 15+40^2\cdot 25+ 57.5^2\cdot 15-55\cdot 40.41^2}{55}=153.17\]
Mediana di \(X\):
Troviamo la classe mediana calcolando le frequenze relative \(f_r\) (\(n_{i.}/n\)) e le frequenze relative cumulate come fatto nell’esercizio 1 (METTERE LINK ESERCIZIO 1 POLITO):
Come si vede dalla tabella soprastante, la classe mediana è \(30-50\) perchè corrisponde al primo valore della frequenza cumulata che supera 0.5. Dunque, il valore mediano è:
\[Me(X)=30+(50-30)\frac{0.5-0.27}{0.73-0.27}=40\]
b) Si tratta di media e varianza di X condizionate ai soli valori di Y=Automobile. La seguente tabella ci mostra tale distribuzione condizionata:
Media condizionata di \(X\) condizionata a \(Y=Automobile\):
\[\mu_{x|Y=Automobile}=\frac{24\cdot 3+40\cdot 13+ 57.5\cdot 5}{21}=41.88\]
Varianza condizionata di \(X\) condizionata a \(Y=Automobile\):
\[\sigma_{x|Y=Automobile}^2=\frac{24^2\cdot 3+40^2\cdot 13+ 57.5^2\cdot 5-21\cdot 41.88^2}{21}=105.95\]
c) Analogamente a quanto fatto per gli utenti che usano l’autobus, estrapoliamo la distribuzione condizionata di quelli che vanno in treno:
Calcoliamo anche in questo caso:
Media condizionata di \(X\) condizionata a \(Y=Treno\):
\[\mu_{x|Y=Treno}=\frac{24\cdot 1+40\cdot 4+ 57.5\cdot 5}{10}=47.15\]
Varianza condizionata di \(X\) condizionata a \(Y=Automobile\):
\[\sigma_{x|Y=Treno}^2=\frac{24^2\cdot 1+40^2\cdot 4+ 57.5^2\cdot 5-10\cdot 47.15^2}{21}=127.60\]
Per sapere quale delle due distribuzioni è più variabile si calcola il coefficiente di variazione dato dalla formula:
\[CV=\frac{\sigma}{|\mu|}\]
Nel nostro caso avremo:
\[\begin{eqnarray*}
CV(Automobile)&=&\frac{\sigma_{x|Y=Automobile}}{|\mu_{x|Y=Automobile}|}=\frac{\sqrt{105.95}}{41.88}=0.2458\\
CV(Treno)&=&\frac{\sigma_{x|Y=Treno}}{|\mu_{x|Y=Treno}|}=\frac{\sqrt{127.60}}{47.15}=0.2396\end{eqnarray*}\]
Dai risultati ottenuti si vede che è leggermente più variabile l’età degli individui che utilizzano l’automobile.
d) Un opportuno indice di associazione tra l’età e il mezzo di trasporto è il Chi-quadrato (in simboli \(\chi^2\)), il quale ci consente di capire se la scelta del mezzo di trasporto dipende dall’età dell’individuo oppure le due cose sono del tutto indipendenti.
Per calcolare il Chi-Quadrato bisogna calcolare le frequenze attese (anche dette teoriche) \(\hat{n_{ij}}\) a partire dalle frequenze osservate \(n_{ij}\) come mostrano le tabelle qui sotto:
La formula di calcolo utilizzata è:
\[\hat{n_{ij}}=\frac{n_{i.}\cdot n_{.j}}{n}\]
Ad esempio, per la prima riga della tabella avremo:
\[\begin{eqnarray*}
\hat{n_{11}}&=&\frac{n_{1.}\cdot n_{.1}}{n}=\frac{15\cdot 21}{55}=5.73\\
\hat{n_{12}}&=&\frac{n_{1.}\cdot n_{.2}}{n}=\frac{15\cdot 15}{55}=4.09\\
\hat{n_{13}}&=&\frac{n_{1.}\cdot n_{.3}}{n}=\frac{15\cdot 10}{55}=2.73\\
\hat{n_{14}}&=&\frac{n_{1.}\cdot n_{.4}}{n}=\frac{15\cdot 9}{55}=2.45\end{eqnarray*}\]
Il Chi-quadro si calcola mediante la formula:
\[\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(n_{ij}-\hat{n_{ij}})^2}{\hat{n_{ij}}}\]
dove \(r=3\) è il numero di righe della tabella e \(c=4\) è il numero di colonne.
Inoltre si ha che:
\[0\leq \chi^2\leq n\cdot min\{(r-1),(c-1)\}\]
ossia
\[0\leq \chi^2\leq 110\]
Dal punto di vista computazionale possiamo semplificarci la vita utilizzando la seguente formula equivalente:
\[\begin{eqnarray*}
\chi^2&=&\sum_{i=1}^r\sum_{j=1}^c\frac{n_{ij}^2}{\hat{n_{ij}}}-n\\
&=& \frac{n_{11}^2}{\hat{n_{11}}}+\frac{n_{12}^2}{\hat{n_{12}}}+\dots +\frac{n_{33}^2}{\hat{n_{33}}}+\frac{n_{34}^2}{\hat{n_{34}}}-n=\\
&=&\frac{3^2}{5.73}+\frac{5^2}{4.09}+\dots +\frac{5^2}{2.73}+\frac{0^2}{2.45}-55=14.45\end{eqnarray*}\]
Essendo tale valore più vicino al valore minimo del chi-quadrato (cioè 0), l’età influenza debolmente il tipo di mezzo di trasporto scelto.
Grazie mille, veramente utilissimo in vista dell’esame!
salve,
forse ho trovato qualcosa sbagliata nel esercizio b:media condizionata di x….
il calcolo deve essere 24*3+40*13+57.5*5/21
cioe al posto di 15 deve essere cosi 13 non so speigare meglio
Ciao MOHAMAD, grazie per la correzione