Prueba de Goldfeld–Quandt

En estadística, el test de Goldfeld-Quandt (por Stephen Goldfeld y Richard E. Quandt) comprueba la homocedasticidad en un análisis de regresión. Para ello, divide un conjunto de datos en dos partes o grupos, por lo cual a veces esta prueba se denomina prueba de dos grupos. La prueba Goldfeld-Quandt es una de las dos pruebas propuestas por Stephen Goldfeld y Richard Quandt en un artículo publicado en 1965. Tanto el método paramétrico como el no paramétrico se describen en dicho documento, pero por lo general se llama "prueba Goldfeld-Quandt" al primero.

Prueba

editar
 
Una prueba paramétrica para la igualdad de la varianza puede ser visualizada por la indexación de los datos por alguna variable, la eliminación de puntos de datos en el centro y la comparación de las desviaciones medias de la parte izquierda y derecha.

En el contexto de una regresión múltiple (o una regresión univariante), la hipótesis que se quiere probar es que la varianza de los errores de la regresión no es constante, pero está monótonamente relacionada con una variable explicativa preidentificada. Por ejemplo, si se obtienen datos sobre ingreso y consumo, se puede construir una regresión del consumo en función del ingreso. Si la varianza aumenta a medida que aumenta el ingreso, se puede usar el ingreso como variable explicativa. De no ser así, se puede elegir una tercera variable (por ej., riqueza o último período de ingresos).

Prueba paramétrica

editar

La prueba paramétrica consiste en la realización de diferentes análisis de mínimos cuadrados en dos subconjuntos del conjunto de datos original. Estos subconjuntos se especifican de tal modo que en uno queden las observaciones en las que la variable explicativa preidentificada tiene los valores más bajos, y en el otro las de los valores más altos. No es necesario que los subconjuntos sean del mismo tamaño, ni que contengan entre ambos el total de las observaciones. La prueba paramétrica presupone que los errores tienen una distribución normal. Se supone además que las matrices de diseño para los dos subconjuntos de datos son de rango completo. La estadística de prueba usada es la relación de las medias de los errores residuales cuadrados para las regresiones en los dos subconjuntos. Esta estadística de prueba corresponde a una prueba F de igualdad de varianzas, y puede ser tanto unilateral como bilateral según que se conozca o no la dirección de la supuesta relación de la varianza de error de la variable explicativa.

Cuanto mayor sea el número de observaciones que se reduzcan en el "medio" de la ordenación, mayor será el poder de la prueba, pero disminuirá el grado de libertad del estadístico de prueba. Como resultado de esta desventaja, es habitual que en la prueba de Goldfeld-Quandt se reduzca el tercio medio de observaciones y que esta reducción disminuya a medida que crece el tamaño de la muestra.

Prueba no paramétrica

editar
 
La prueba no paramétrica se puede visualizar mediante la comparación del número de "picos" en los residuos de una regresión ordenada contra una variable pre-identificado con el número de picos surgirían al azar. La cifra más baja se proporciona solo para comparación, ninguna parte de la prueba consiste en la comparación visual con una estructura de error homocedástico hipotético.

La segunda prueba que se propone en el documento es no paramétrica, de modo que no se basa en la suposición de que los errores tienen una distribución normal. Para esta prueba se aplica un modelo de regresión para todo el conjunto de datos . Los cuadrados de los residuos se clasifican de acuerdo con el orden de la variable explicativa preidentificada. El estadístico de prueba que se utiliza para probar la homogeneidad es el número de picos en esta lista, es decir, el recuento del número de casos en los que un residuo al cuadrado es mayor que todos los cuadrados de los residuos anteriores. Los valores críticos para esta estadística de prueba se establecen mediante un argumento relacionado con las pruebas de permutación.

Ventajas y desventajas

editar

La prueba paramétrica de Goldfeld-Quandt proporciona un diagnóstico simple e intuitivo de los errores heteroscedásticos de un modelo de regresión univariante o multivariante. Sin embargo, presenta algunos inconvenientes en ciertos casos o comparada con otros diagnósticos. En primer lugar, requiere que los datos se ordenen de menor a mayor de acuerdo con una variable explicativa conocida. Si la estructura errónea depende de una variable desconocida o no observada, la prueba Goldfeld-Quandt ofrece poca orientación. Además, la varianza de error debe ser una función monótona de la variable explicativa especificada. Por ejemplo, si se trata de una función cuadrática que relaciona la variable explicativa con la varianza del error, la prueba Goldfeld-Quandt puede aceptar incorrectamente la hipótesis nula de errores homocedásticos.

Solidez

editar

Desafortunadamente, la prueba Goldfeld-Quandt no es muy sólida para errores de especificación. Detecta errores no homocedásticos, pero no puede distinguir entre una estructura de error heteroscedástico y un problema de especificación subyacente, como la especificación de una forma funcional incorrecta o la omisión de una variable. Jerry Thursby propuso una modificación de la prueba Goldfeld-Quandt usando una variante de la prueba de RESET de Ramsey con el fin de incrementar la solidez.

Propiedades de muestras pequeñas

editar

Herbert Glejser, en su artículo de 1969 en que describía la prueba Glejser, incluye un pequeño experimento para probar la potencia y la sensibilidad de la prueba Goldfeld-Quandt. Sus resultados muestran un limitado éxito de la prueba Goldfeld-Quandt, excepto en los casos de "heteroscedasticidad pura", en los que la varianza sólo se puede describir como una función de la variable explicativa subyacente.