R 2 ajustado

R2 ajustado
Supongamos que contamos con dos modelos:
Modelo 1:
Modelo 2:
¿Cuál de los dos modelos ajusta mejor a los datos?
Recordamos: Bondad del Ajuste
1
Miramos SRC* para cada modelo
SRC* 1:
SRC* 2:
En principio, no hay razones para pensar que el segundo modelo sea
mejor que el primero.
Y sin embargo, su R2 generalmente será mayor.
2
Entonces, cuando comparemos estos modelos, probablemente
lleguemos a la conclusión de que el segundo es mejor, aunque no
necesariamente sea cierto.
Solución: el R2 ajustado (
)
Donde n es la cantidad de observaciones y k es la cantidad de
parámetros que estimamos.
El
impone una penalidad por agregar variables al modelo.
3
Notar que a medida que aumentamos la cantidad de variables X
→ SRC disminuye (por construcción)
→ (n-k) también disminuye (dado que aumenta la cantidad de
parámetros a estimar)
Entonces si bien el numerador disminuye, el denominador también. El
efecto total sobre SRC/(n-k) es incierto. Estamos penalizando por la
inclusión de variables.
→ Al agregar una variable independiente, (n-k) siempre cae en 1
=? → depende de cuán relevante sea la variable que agregamos. Cuanto
más relevante, más cae SRC al aumentar una variable.
4
Intuición: si X explica mucho de Y entonces SRC va a caer mucho. Si cae más
que la caída por el aumento en K, entonces el segundo término va a disminuir y
por lo tanto el
va a aumentar.
Entonces, un aumento del
depende de cuánto explique la X. Porque si explica
poco, el efecto “matemático” de reducción de SRC se va a ver compensado por
la disminución en el denominador.
→ Siempre
aumenta
Nota Importante:
El R2 ajustado no puede interpretarse como el % de la variabilidad total de Y explicada por
el modelo. Para esa interpretación sigue siendo válido el R2 sin ajustar. El R2 ajustado se
usa para comparar el ajuste de modelos que difieren en el número de variables
5