Statistica – Economia La Sapienza – Esame 1 – Esercizio 3

Media, varianza, coefficiente di variazione e chi-quadro di una distribuzione doppia

Su un campione di 55 individui è stata rilevata la classe di età e quale mezzo di trasporto utilizzano usualmente per andare al lavoro:

a) Calcolare la media aritmetica, la mediana e la varianza dell’età.
b) Calcolare la media e la varianza dell’età dei soggetti che utilizzano l’automobile.
c) E’ più variabile l’età degli individui che usano l’automobile rispetto a coloro che usano il treno? Si giustifichi la risposta.
d) Calcolare un opportuno indice di associazione tra l’età e il mezzo di trasporto utilizzato e commentare il risultato.

Soluzione

Indicando con \(X\) l’età e con \(Y\) il mezzo di trasporto, calcoliamo i valori centrali \(m_i\) per ogni classe di età, le frequenze marginali di riga (ovvero i totali delle frequenze per ogni classe di età \(n_{.j}\)) e le frequenze marginali di colonna (ovvero i totali delle frequenze per ogni mezzo di trasporto \(n_{i.}\)):

a) Media aritmetica di \(X\):

\[\mu_x=\frac{\sum_{i=1}^3m_i\cdot n_{i.}}{n}=\frac{24\cdot 15+40\cdot 25+ 57.5\cdot 15}{55}=40.41\]

Varianza di \(X\):

\[\sigma_x^2=\frac{\sum_{i=1}^3m_i^2\cdot n_{i.}-n\cdot \mu_x^2}{n}=\frac{24^2\cdot 15+40^2\cdot 25+ 57.5^2\cdot 15-55\cdot 40.41^2}{55}=153.17\]

Mediana di \(X\):

Troviamo la classe mediana calcolando le frequenze relative \(f_r\) (\(n_{i.}/n\)) e le frequenze relative cumulate come fatto nell’esercizio 1 (METTERE LINK ESERCIZIO 1 POLITO):

Come si vede dalla tabella soprastante, la classe mediana è \(30-50\) perchè corrisponde al primo valore della frequenza cumulata che supera 0.5. Dunque, il valore mediano è:

\[Me(X)=30+(50-30)\frac{0.5-0.27}{0.73-0.27}=40\]

b) Si tratta di media e varianza di X condizionate ai soli valori di Y=Automobile. La seguente tabella ci mostra tale distribuzione condizionata:

Media condizionata di \(X\) condizionata a \(Y=Automobile\):

\[\mu_{x|Y=Automobile}=\frac{24\cdot 3+40\cdot 13+ 57.5\cdot 5}{21}=41.88\]

Varianza condizionata di \(X\) condizionata a \(Y=Automobile\):

\[\sigma_{x|Y=Automobile}^2=\frac{24^2\cdot 3+40^2\cdot 13+ 57.5^2\cdot 5-21\cdot 41.88^2}{21}=105.95\]

c) Analogamente a quanto fatto per gli utenti che usano l’autobus, estrapoliamo la distribuzione condizionata di quelli che vanno in treno:

Calcoliamo anche in questo caso:

 

Media condizionata di \(X\) condizionata a \(Y=Treno\):

\[\mu_{x|Y=Treno}=\frac{24\cdot 1+40\cdot 4+ 57.5\cdot 5}{10}=47.15\]

Varianza condizionata di \(X\) condizionata a \(Y=Automobile\):

\[\sigma_{x|Y=Treno}^2=\frac{24^2\cdot 1+40^2\cdot 4+ 57.5^2\cdot 5-10\cdot 47.15^2}{21}=127.60\]

Per sapere quale delle due distribuzioni è più variabile si calcola il coefficiente di variazione dato dalla formula:

\[CV=\frac{\sigma}{|\mu|}\]

Nel nostro caso avremo:

\[\begin{eqnarray*}
CV(Automobile)&=&\frac{\sigma_{x|Y=Automobile}}{|\mu_{x|Y=Automobile}|}=\frac{\sqrt{105.95}}{41.88}=0.2458\\
CV(Treno)&=&\frac{\sigma_{x|Y=Treno}}{|\mu_{x|Y=Treno}|}=\frac{\sqrt{127.60}}{47.15}=0.2396\end{eqnarray*}\]

Dai risultati ottenuti si vede che è leggermente più variabile l’età degli individui che utilizzano l’automobile.

d) Un opportuno indice di associazione tra l’età e il mezzo di trasporto è il Chi-quadrato (in simboli \(\chi^2\)), il quale ci consente di capire se la scelta del mezzo di trasporto dipende dall’età dell’individuo oppure le due cose sono del tutto indipendenti.
Per calcolare il Chi-Quadrato bisogna calcolare le frequenze attese (anche dette teoriche) \(\hat{n_{ij}}\) a partire dalle frequenze osservate \(n_{ij}\) come mostrano le tabelle qui sotto:

La formula di calcolo utilizzata è:

\[\hat{n_{ij}}=\frac{n_{i.}\cdot n_{.j}}{n}\]

Ad esempio, per la prima riga della tabella avremo:

\[\begin{eqnarray*}
\hat{n_{11}}&=&\frac{n_{1.}\cdot n_{.1}}{n}=\frac{15\cdot 21}{55}=5.73\\
\hat{n_{12}}&=&\frac{n_{1.}\cdot n_{.2}}{n}=\frac{15\cdot 15}{55}=4.09\\
\hat{n_{13}}&=&\frac{n_{1.}\cdot n_{.3}}{n}=\frac{15\cdot 10}{55}=2.73\\
\hat{n_{14}}&=&\frac{n_{1.}\cdot n_{.4}}{n}=\frac{15\cdot 9}{55}=2.45\end{eqnarray*}\]

Il Chi-quadro si calcola mediante la formula:

\[\chi^2=\sum_{i=1}^r\sum_{j=1}^c\frac{(n_{ij}-\hat{n_{ij}})^2}{\hat{n_{ij}}}\]

dove \(r=3\) è il numero di righe della tabella e \(c=4\) è il numero di colonne.

Inoltre si ha che:

\[0\leq \chi^2\leq n\cdot min\{(r-1),(c-1)\}\]

ossia

\[0\leq \chi^2\leq 110\]

Dal punto di vista computazionale possiamo semplificarci la vita utilizzando la seguente formula equivalente:

\[\begin{eqnarray*}
\chi^2&=&\sum_{i=1}^r\sum_{j=1}^c\frac{n_{ij}^2}{\hat{n_{ij}}}-n\\
&=& \frac{n_{11}^2}{\hat{n_{11}}}+\frac{n_{12}^2}{\hat{n_{12}}}+\dots +\frac{n_{33}^2}{\hat{n_{33}}}+\frac{n_{34}^2}{\hat{n_{34}}}-n=\\
&=&\frac{3^2}{5.73}+\frac{5^2}{4.09}+\dots +\frac{5^2}{2.73}+\frac{0^2}{2.45}-55=14.45\end{eqnarray*}\]

Essendo tale valore più vicino al valore minimo del chi-quadrato (cioè 0), l’età influenza debolmente il tipo di mezzo di trasporto scelto.

A cura di Samuel Leanza

2 thoughts on “Statistica – Economia La Sapienza – Esame 1 – Esercizio 3

  1. salve,
    forse ho trovato qualcosa sbagliata nel esercizio b:media condizionata di x….
    il calcolo deve essere 24*3+40*13+57.5*5/21
    cioe al posto di 15 deve essere cosi 13 non so speigare meglio

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *