R-quadrato è una misura statistica che rappresenta la proporzione della varianza per una variabile dipendente spiegata da una variabile o variabili indipendenti in un modello di regressione. Varia da 0 a 1, indicando la bontà di adattamento del modello.
Comprendere R-quadrato
Definizione e Interpretazione
- Intervallo di Valori: I valori di R-quadrato variano da 0 a 1.
- Interpretazione:
- Un R-quadrato di 0 significa che il modello non spiega alcuna variabilità dei dati di risposta attorno alla loro media.
- Un R-quadrato di 1 indica che il modello spiega tutta la variabilità dei dati di risposta attorno alla loro media.
- Un valore più vicino a 1 implica un miglior adattamento, mentre un valore più vicino a 0 indica un cattivo adattamento.
Calcolo di R-quadrato
R-quadrato può essere calcolato usando la seguente formula:
R² = 1 – (SSres / SStot)
- SSres: La somma dei quadrati dei residui (le differenze tra i valori osservati e quelli previsti).
- SStot: La somma totale dei quadrati (la varianza dei dati osservati).
Esempio di R-quadrato
Consideriamo un’analisi di regressione lineare semplice in cui vogliamo analizzare la relazione tra il numero di ore studiate e i punteggi ottenuti in un esame.
- Supponiamo di avere i seguenti dati:
- Ore Studiate: [1, 2, 3, 4, 5]
- Punteggi Ottenuti: [50, 55, 65, 70, 80]
- Supponiamo che il modello di regressione lineare ci fornisca i punteggi previsti.
- La somma dei quadrati dei residui (SSres) può essere calcolata come segue:
– Punteggi Previsti: [52, 57, 62, 67, 72] – Residui: [50-52, 55-57, 65-62, 70-67, 80-72] = [-2, -2, 3, 3, 8] – SSres = (-2)² + (-2)² + (3)² + (3)² + (8)² = 4 + 4 + 9 + 9 + 64 = 90 - La somma totale dei quadrati (SStot) è calcolata come:
– PunSCORE medio = (50 + 55 + 65 + 70 + 80) / 5 = 62
– SStot = (50-62)² + (55-62)² + (65-62)² + (70-62)² + (80-62)² = 144 + 49 + 9 + 64 + 324 = 590 - Sostituendo i valori nella formula di R-quadrato:
R² = 1 – (90 / 590) ≈ 0.846
Questo significa che circa il 84.6% della variabilità nei punteggi dell’esame può essere spiegata dal numero di ore studiate, indicando una forte relazione tra le due variabili.