Statistica – Economia Unical Cosenza – Esame 1 – Esercizio 2

Studio di un modello di regressione lineare multipla

Una nota azienda italiana ha commissionato una indagine di mercato allo scopo di individuare i fattori che influenzano la vendita di un particolare formato di pasta da 500 gr da essa prodotta. A tal fine è stato selezionato un campione di 64 ipermercati su tutto il territorio nazionale rispetto ai quali si sono rilevate le vendite mensili (in migliaia di euro) \(Y\), assunta come variabile dipendente dalla spesa per pubblicità in migliaia di euro dell’ipermercato (\(X_1\)), fatturato mensile complessivo dell’ipermercato in migliaia di euro (\(X_2\)), prezzo in euro del formato di pasta (\(X_3\)). Si adatta un modello di regressione lineare multipla. Le principali sintesi dei dati vengono di seguito riportate:

Inoltre è noto \(R^2=0.782\)
a) Si calcoli la significatività del modello nel suo complesso al livello \(\alpha=0.05\) specificando esplicitamente l’ipotesi nulla da verificare.
b) Si calcoli la significatività dei singoli coefficienti al livello \(\alpha=0.01\) specificando esplicitamente l’ipotesi nulla da verificare. Si indichino quali variabili eventualmente scartare dal modello commentando i risultati ottenuti.
c) Si adatti un modello ridotto con intercetta in cui \(Y\) dipende solo da \(X_1\). Sapendo che per tale modello si ha che \(R^2=0.776\), si confronti per mezzo di un opportuno test per \(\alpha=0.01\) il modello ridotto con quello completo specificando esplicitamente l’ipotesi nulla e commentando i risultati ottenuti.

Soluzione

Leggiamo e interpretiamo dapprima i dati presenti nelle due tabelle.
Indichiamo

  • \(n=64\) (numerosità del campione)
  • \(k=3\) (numero di variabili indipendenti o regressori)
  • \(\overline{y}=44410.92\) (media campionaria di \(Y\))
  • \(\overline{x}_1=17175.43\) (media campionaria di \(X_1\))
  • \(\overline{x}_2=6055.35\) (media campionaria di \(X_2\))
  • \(\overline{x}_3=2.27\) (media campionaria di \(X_3\))
  • \(s_{y}=1583.45\) (deviazione standard campionaria di \(Y\))
  • \(s_{x_1}=886.64\) (deviazione standard campionaria di \(X_1\))
  • \(s_{x_2}=805.32\) (deviazione standard campionaria di \(X_2\))
  • \(s_{x_3}=1.06\) (deviazione standard campionaria di \(X_3\))
  • \(b_0=9615.08\) (stima dell’intercetta \(\beta_0\))
  • \(b_1=1.53\) (stima del coefficiente \(\beta_1\))
  • \(b_2=1.47\) (stima del coefficiente \(\beta_2\))
  • \(b_3=-175.52\) (stima del coefficiente \(\beta_3\))
  • \(s_{b0}=7654.85\) (deviazione standard di \(b_0\))
  • \(s_{b1}=0.11\) (deviazione standard di \(b_1\))
  • \(s_{b2}=1.26\) (deviazione standard di \(b_2\))
  • \(s_{b3}=901.42\) (deviazione standard di \(b_3\))

Detto \(Y=b_0+b_1X_1+b_2X_2+b_3X_3\) l’espressione del modello di regressione multipla stimato, andando a sostituire i coefficienti stimati otteniamo:

\[Y=9615.08+1.53X_1+1.47X_2-175.52X_3\]

a) Calcolare la significatività complessiva del modello vuol dire condurre un test di ipotesi in cui le ipotesi nulla e alternativa sono:

\[\begin{cases}
H_0: \beta_1=\beta_2=\beta_3=0\\
H_1: \mbox{Almeno un } \beta_i\neq 0,\ i=1,2,3\end{cases}\]

Questo equivale a testare se vi è dipendenza lineare tra la variabile dipendente \(Y\) e le variabili indipendenti o regressori \(X_i,\ i=1,2,3\)

Tale tipo di test è chiamato test \(F\) o test di Fisher dato che la statistica test che viene utilizzata ha distribuzione di fisher con gradi di libertà:

  • \(\nu_1=k=3\) (gradi di libertà del numeratore)
  • \(\nu_2=n-k-1=60\) (gradi di libertà del denominatore)

e la sua espressione è:

\[F=\frac{s_{reg}^2}{s_e^2}=\frac{SQR/k}{SQE/(n-k-1)}\]

dove

  • \(s_{reg}^2\) è la varianza di regressione di \(Y\),
  • \(s_e^2\) è la varianza di dispersione o residua di \(Y\),
  • \(SQR\) è la somma dei quadrati spiegata ossia la devianza spiegata o della regressione
  • \(SQE\) è la somma dei quadrati residui ossia la devianza residua

(Ricordiamo a tal proposito che la famosa scomposizione della devianza totale, ossia \(SST=SQR+SQE\)).

 

La formula appena data però, non ci consente di calcolare \(F\), ma possiamo esprimerla in funzione del coefficiente di determinazione \(R\):

\[F=\frac{R^2/\nu_1}{(1-R^2)/\nu_2}=\frac{0.782/3}{(1-0.782)/60}=71.74\]

Per concludere, calcoliamo il valore critico che delimita l’area della regione ammissibile al livello \(\alpha=0.05\) consultando le tavole della distribuzione di Fisher:

\[F_{\alpha,\nu_1,\nu_2}=F_{0.05,3,60}=2.76\]

Rifiuterò \(H_0\) se \(F>F_{\alpha,\nu_1,\nu_2}\), quindi dato che

\[F=71.74>F_{\alpha,\nu_1,\nu_2}=2.76\]

rifiutiamo \(H_0\) affermando che il test è significativo, ovvero c’è dipendenza lineare tra \(Y\) e almeno 1 dei tre regressori.

b)La significatività dei singoli coefficienti consiste nel condurre un test d’ipotesi bilaterale per ciascuno dei coefficienti del tipo:

\[\begin{cases}
H_0: \beta_i=0\\
H_1: \beta_i\neq 0\end{cases}\]

Si trova, dunque, la statistica test:

\[T_i=\frac{b_i}{s_{b_i}}\]

dove \(T_i\) ha distribuzione di Student con \(n-k-1=60\) gradi di libertà e il valore critico al livello \(\alpha=0.01\) è:

\[t_{\frac{\alpha}{2},n-k-1}=t_{0.005,60}=2.66\]

E infine otteniamo l’esito del test: si rifiuta \(H_0\) se \[|T_i|>t_{\frac{\alpha}{2},n-k-1}\]

Eseguiamo il test per \(b_1\):

\[\begin{cases}
H_0: \beta_1=0\\
H_1: \beta_1\neq 0\end{cases}\]

\[T_i=\frac{b_1}{s_{b_1}}=\frac{1.53}{0.11}=13.9091> t_{0.005,60}=2.66\]

per cui rifiuto \(H_0\), ossia, posso affermare che il coefficiente \(b_1\) è significativamente non nullo.

Eseguiamo il test per \(b_2\):

\[\begin{cases}
H_0: \beta_2=0\\
H_1: \beta_2\neq 0\end{cases}\]

\[T_i=\frac{b_2}{s_{b_2}}=\frac{1.47}{1.26}=1.1667 < t_{0.005,60}=2.66\]

per cui non rifiuto \(H_0\), ossia, non posso affermare che il coefficiente \(b_2\) sia significativamente non nullo.

Eseguiamo il test per \(b_3\):

\[\begin{cases}
H_0: \beta_3=0\\
H_1: \beta_3\neq 0\end{cases}\]

\[|T_i|=\frac{|b_3|}{|s_{b_3}|}=\frac{|-175.52|}{901.42}=0.1947 < t_{0.005,60}=2.66\]

per cui non rifiuto \(H_0\), ossia, non posso affermare che il coefficiente \(b_3\) sia significativamente non nullo.

Visto che \(\beta_2\) e \(\beta_3\) non sono significativamente diversi da 0, possiamo scartare dal modello i regressori corrispondenti \(X_2\) e \(X_3\) studiando cosi un modello ridotto con la sola variabile indipendente \(X_1\).

c) Adattare un modello ridotto in cui \(Y\) dipende solo da \(X_1\) significa trovare due numeri \(a\) e \(b\) tali che si possa stabilire la seguente relazione:

\[Y=a+bX_1\]

Si tratta di un modello di regressione lineare semplice i cui parametri si ricavano applicando il metodo dei minimi quadrati e precisamente risolvendo il seguente sistema:

\[\begin{cases}
b=\frac{s_{x_1,y}}{s_{x_1}^2}\\
a=\overline{y}-b\cdot\overline{x}_1\end{cases}\]

dove \(s_{x_1,y}\) è la covarianza tra \(X_1\) e \(Y\). Tale covarianza non è direttamente calcolabile ma possiamo sfruttare il fatto che in un modello di regressione lineare semplice vale:

\[R^2=r_{x_1,y}^2=\frac{s_{x_1,y}^2}{s_{x_1}^2\cdot s_y^2}\]

dove \(r_{x_1,y}\) è il coefficiente di correlazione tra \(X_1\) e \(Y\).

Infatti, da quest’ultima ricavando la formula inversa, possiamo calcolare la covarianza suddetta:

\[s_{x_1,y}=R\cdot s_{x_1}\cdot s_y=\sqrt{0.776}\cdot 886.64\cdot 1583.45=1236751.7547\]

A questo punto, riprendendo il sistema di prima, troviamo i parametri della retta di regressione:

\[\begin{cases}
b=\frac{s_{x_1,y}}{s_{x_1}^2}=\frac{1236751.7547}{886.64^2}=1.5732\\
a=\overline{y}-b\cdot\overline{x}_1=44410.92-1.5732\cdot 17175.43=17390.5335\end{cases}\]

Dunque il modello richiesto è

\[Y=17390.5335+1.5732X_1\]

Confrontiamo tale modello con quello completo di cui ai punti a) e b) tramite il seguente test di ipotesi:

\[\begin{cases}
H_0: \beta_2=\beta_3=0\\
H_1: \mbox{Almeno un } \beta_i\neq 0,\ i=2,3\end{cases}\]

L’ipotesi nulla afferma che le variabili \(X_2\) e \(X_3\) non sono utili a spiegare la relazione lineare con la variabile dipendente \(Y\). In altre parole, sotto l’ipotesi nulla vale il modello ridotto \(Y=a+bX_1\).

Indicato con \(h\) il numero di regressori in \(H_0\), la statistica test utilizzata in questo caso è una \(F\) di Fisher con

  • \(\nu_1=h=2\) (gradi di libertà del numeratore)
  • \(\nu_2=n-k-1=60\) (gradi di libertà del denominatore)

e la sua espressione è

\[F=\frac{(SQR-SQR_r)/\nu_1}{SQE/\nu_2}=\]

dove \(SQR\) ed \(SQE\) sono la devianza spiegata e residua del modello completo e \(SQR_r\) è la devianza spiegata del modello ridotto.
Inoltre, sappiamo che:

\[\begin{eqnarray*}
SQR_r &=& s_{reg_r}^2\cdot (n-1)=b^2\cdot s_{x_1}^2\cdot 63=122575328.3759\\
SQT &=& s_y^2\cdot (n-1)=1583.45^2\cdot 63=157960775.8575\\
SQR &=& R^2\cdot SQT=0.782\cdot 157960775.8575=123525326.7206\\
SQE &=& SQT-SQR=157960775.8575-123525326.7206=34435449.1369\end{eqnarray*}\]

Così otteniamo il valore di \(F\):

\[F=\frac{(123525326.7206-122575328.3759)/2}{34435449.1369/60}=0.8276\]

Al livello \(\alpha=0.01\) il valore critico con cui confrontare la statistica \(F\) è:

\[F_{\alpha,\nu_1,\nu_2}=F_{0.01,2,60}=4.98\]

Da cui, poichè \(F=0.8276 < F_{\alpha,\nu_1,\nu_2}=4.98\), l’ipotesi nulla non può essere rifiutata e quindi le variabili \(X_2\) e \(X_3\) possono essere escluse dal modello di regressione.

A cura di Samuel Leanza

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *