Statistica – Economia La Sapienza – Esame 3 – Esercizio 1

Per un campione casuale di 15 studenti universitari che hanno superato un determinato esame, vengono rilevati il voto conseguito (espresso in trentesimi), il numero di ore dedicate allo studio della materia e il libro di testo adottato dal titolare dell’insegnamento; le informazioni raccolte sono di seguito riportate:

tabella1

a) Con riferimento al voto conseguito e ai due gruppi di studenti individuati dal libro di testo, verificare la proprietà associativa della media aritmetica e la regola di scomposizione della devianza.
b) Assumendo valida l’ipotesi di omoschedasticità, verificare se, nelle popolazioni di riferimento e al livello di significatività del 5%, i voti medi conseguiti dai due gruppi di studenti possano ritenersi uguali, o se invece siano condizionati dal testo adottato.
c) Stimare la retta di regressione che esprime il voto in funzione del numero di ore di studio e determinarne il grado di adattamento ai dati. Verificare poi che la relazione stimata sia significativa, al livello \(\alpha=0,01\) e fornire l’intervallo di valori ammissibili per il p-value del test.

Soluzione

a) Indichiamo con V la variabile “voto conseguito” calcoliamo le medie aritmetiche marginali del voto per i gruppi di studenti A e B:

\(M(V|A)=\frac{21+30+2\cdot 18+20+25}{6}=22\)
\(M(V|B)=\frac{21+24+19+30+2\cdot 22+28+23+27}{9}=24\)

e la media totale dei voti:

\(M(V)=\frac{21+30+2\cdot 18+20+25+21+24+19+30+2\cdot 22+28+23+27}{15}=23.2\)

La proprietà associativa della media aritmetica è verificata se la media totale dei voti è uguale alla media ponderata delle medie dei voti per i singoli gruppi di studenti A e B, ossia:
\(M(V)=\frac{(M(V|A)\cdot n_1+(M(V|B)\cdot n_2}{n}\)
dove \(n_1\) è il numero di studenti del gruppo A, \(n_2\) è il numero di studenti del gruppo B e \(n=n_1+n_2\) è il numero totale degli studenti.
Infatti otteniamo:

\(M(V)=\frac{22\cdot 6+24\cdot 9}{15}=23.2\)

che coincide con il risultato della media totale dei voti precedentemente ricavata.

Adesso verifichiamo che vale la regola della scomposizione della devianza, calcolando la devianza totale utilizzando la formula ridotta
\(\begin{eqnarray} DEV_{tot}&=&\sum\limits_{i=1}^2\sum\limits_{j=1}^{n_i}v_{ij}^2-n\cdot M(V)^2 =21^2+30^2+2\cdot 18^2+\\
&+&20^2+25^2+21^2+24^2+19^2+30^2+2\cdot 22^2+\\
&+&28^2+23^2+27^2-15\cdot 23.2^2=228.4\end{eqnarray}\)

la devianza tra i gruppi

\(\begin{eqnarray}
DEV_{tra}&=&n_1[M(V|A)-M(V)]^2+n_2[M(V|B)-M(V)]^2=\\
&=&6(22-23.2)^2+9(24-23.2)^2=14.4\end{eqnarray}\)

e infine la devianza entro i gruppi
\(\begin{eqnarray}
DEV_{entro}&=&\sum\limits_{i=1}^2\sum\limits_{j=1}^{n_i}(x_{ij}-M(X|A_i))^2=\\
&=&(21-22)^2+(30-22)^2+(18-22)^2+\\
&=&(18-22)^2+(20-22)^2+(25-22)^2+\\
&=&(21-24)^2+(24-24)^2+(19-24)^2+\\
&=&(30-24)^2+(22-24)^2+(28-24)^2+\\
&=&(23-24)^2+(27-24)^2+(22-24)^2=214\end{eqnarray}\)

Vediamo che risulta \(DEV_{tot}=228.4=14.4+214\).

b) L’omoschedasticità é un’ipotesi fondamentale per poter correttamente confrontare due o più gruppi di dati.
Supposta vera tale ipotesi, possiamo condurre un test di ipotesi sulla differenza tra due valori medi. Si tratta di un test bilaterale con sistema di ipotesi associato

$$\begin{cases}
H_0: \mu_A-\mu_B = 0\\
H_0: \mu_A-\mu_B \neq 0\end{cases}$$

Calcoliamo dapprima le varianze campionarie corrette dei due gruppi di dati:
\(\begin{eqnarray}
s_A^2 &=&\frac{21^2+30^2+\dots +25^2-6\cdot 22^2}{5}=22\\
s_B^2 &=&\frac{21^2+24^2+\dots +22^2-9\cdot 24^2}{8}=13\end{eqnarray}\)

e successivamente la varianza congiunta data da:

\(S^2=\frac{(n_A-1)\cdot s_A^2+(n_B-1)\cdot s_B^2}{n_A+n_B-2}=\frac{5\cdot 22+ 8\cdot 13}{13}=16.4615\)

Dato che siamo in presenza di piccoli campioni con varianze incognite, la statistica test è una t di Student:

\(T_{test}=\frac{\overline{x}_A-\overline{x}_B}{\sqrt{S^2\left (\frac{1}{n_A}+\frac{1}{n_B}\right )}}=\frac{22-24}{\sqrt{16.4615\left (\frac{1}{6}+\frac{1}{9}\right )}}=-0.9353\)

dove \(\overline{x}_A\) e \(\overline{x}_B\) sono rispettivamente \(M(V|A)\) e \(M(V|B)\).

Essendo i gradi di libertà \(\nu=13\), il valore critico che leggiamo sulle tavole della distribuzione t di Student corrispondente al livello di significatività \(\alpha=0.05\) è \(t_{0.025}(13)=2.160\).

Poichè \(|T_{test}|=0.9353 < t_{0.025}(13)=2.160\) non possiamo rifiutare \(H_0\), quindi la accettiamo.

c) Stimare la retta di regressione (vedi qui teoria e formule) significa trovare i coefficienti \(b_0\) e \(b_1\) della retta \(V=b_0+b_1O\).

Indichiamo con V la variabile dipendente “voto” e con O la variabile indipendente “numero di ore di studio”.
Relativamente a O, dobbiamo calcolare il valore medio

\(M(O)=\frac{180+220+\dots +160+140}{15}=166\)

la varianza corretta:

\(VAR(O)=\frac{180^2+220^2+\dots +160^2+140^2-15\cdot 166^2}{14}=1086.4286\)

e per finire, la covarianza tra la variabile voto V e la variabile numero di ore di studio O:

\(COV(V,O)=\frac{21\cdot 180+30\cdot 220+\dots +27\cdot 160+22\cdot 140-15\cdot 166\cdot 23.2}{14}=85.8571\)

Dunque otteniamo il coefficiente angolare

\(b_1=\frac{85.8571}{1086.4286}=0.0790\)

e l’intercetta

\(b_0 = 23.2-0.0790\cdot 166=10.0815\)

La retta di regressione è: \(V=10.0815+0.0790\cdot O\).

Il grado di adattamento ai dati è dato dal coefficiente di regressione al quadrato ossia:

\(R^2=\frac{COV(V,O)^2}{VAR(V)\cdot VAR(O)}=\frac{85.8571^2}{16.3143\cdot 1086.4286}=0.4159\)

dove \(VAR(V)=\frac{DEV_{tot}}{14}=16.3143\)

Per verificare che il modello trovato sia significativo, dobbiamo condurre un test di ipotesi sul coefficiente angolare della retta di regressione. Il sistema di ipotesi bilaterale è:

\(\begin{cases}
H_0: \beta_1 = 0\\
H_1: \beta_1\neq 0\end{cases}\)

Calcoliamo la varianza dell’errore del modello (una sorta di varianza congiunta tra V e O):

\(s_e^2=\frac{14\cdot 16.3143-0.0790^2\cdot 14\cdot 1086.4286}{13}=10.2673\)

e la varianza dell’errore dello stimatore del coefficiente angolare

\(s_{b_1}^2=\frac{10.2673}{14\cdot 1086.4286}=0,000675\)

La statistica test è

\(T_{test}=\frac{|b_1|}{s_{b_1}}=\frac{0.0790}{\sqrt{0,000675}}=3.0407\)

Essendo infine i gradi di libertà \(\nu = 13\), il valore critico corrispondente a un livello \(\alpha=0.01\) è \(t_{0.005}(13)=3.012\)

Dato che \(T_{test}=3.0407 > t_{0.005}(13)=3.012\) si rifiuta \(H_0\).

Dalla tavola della distribuzione t di Student si vede che l’intervallo dei valori ammissibili per il p-value del test è \(2\cdot[0,0.025]=[0,0.05]\) ossia i valori di \(\alpha\) tali che \(P(T_{test}>\alpha\).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *