En estadística, el factor de inflación de la varianza (FIV, a veces también conocido por su nombre en inglés, variance inflation factor, y de ahí VIF) cuantifica la intensidad de la multicolinealidad en un análisis de regresión normal de mínimos cuadrados. Proporciona un índice que mide hasta qué punto la varianza (el cuadrado de la desviación estándar estimada) de un coeficiente de regresión estimado se incrementa a causa de la colinealidad.
Definición
Consideremos el siguiente modelo lineal con k variables independientes
- Y = β0 + β1 X1 + β2 X 2 + ... + βk Xk + ε.
El error estándar de la estimación de βj es la raíz cuadrada del elemento j+1 de la diagonal de s2(X′X)−1, donde s es la raíz del error cuadrático medio (RECM) (recordemos que RECM2 es un estimador insesgado de la varianza, , del término del error, ε); X es la matriz de diseño de la regresión -una matriz en la que Xi, j+1 es el valor de la j enésima variable independiente para el i enésimo caso u observación, o dicho de otro modo, cada una de las columnas de X es el vector de observaciones de la variable j; y siendo Xi, 1 (donde hemos hecho j=0, por lo que estamos hablando de la primera columna) el vector constante con todos sus valores iguales a 1 para todo i (esta primera columna es la "variable" asociada a la ordenada en el origen, β0) -. Resulta que el cuadrado de este error estándar, la varianza estimada de la estimación de βj, puede expresarse de manera equivalente como:
donde Rj2 es el coeficiente de determinación R2 de la regresión lineal múltiple de Xj sobre otras covariables (una regresión que no involucra la variable dependiente Y) y son los estimadores de los βj. Esta identidad separa las influencias de varios factores diferentes sobre la varianza del estimador del coeficiente:
- s2: cuanto mayor sea la dispersión en los datos de la representación de la regresión, proporcionalmente mayor será la varianza en los estimadores de los coeficientes.
- n: cuanto mayor sea el tamaño de la muestra, proporcionalmente menor resultará la varianza en los estimadores del coeficiente.
- : cuanto mayor sea la variabilidad en una covariable particular, proporcionalmente menor será la varianza del estimador del coeficiente correspondiente.
El factor que queda, 1 / (1 − Rj2), es el factor de inflación de la varianza. Expresa todas las demás causas que influyen sobre la incertidumbre de los estimadores de los coeficientes.
Cálculo y análisis
Se pueden calcular los k factores de inflación de la varianza diferentes (uno para cada Xi) en tres pasos:
Primer paso
En primer lugar se realiza una regresión de mínimos cuadrados que tenga a Xi como una función de las demás variables explicativas de la primera ecuación.
Si i = 1, por ejemplo, la ecuación sería:
donde c0 es una constante y e es el error.
Segundo paso
En segundo lugar, se calcula el factor de inflación de la varianza para con la siguiente fórmula:
donde R2i es el coeficiente de determinación de la ecuación de regresión del primer paso, con en el lado izquierdo y el resto de variables predictivas en el derecho.
Tercer paso
Se analiza la magnitud de la multicolinealidad considerando el tamaño de . Si , la multicolinealidad es alta.[1]
Referencias
- ↑ Kutner, M. H.; Nachtsheim, C. J.; Neter, J. (2004). Applied Linear Regression Models (4th edición). McGraw-Hill Irwin.
Bibliografía
- Backhaus, K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin u. a., 13. Auflage 2013, S.93–96. ISBN 978-3-642-16490-3