Modelos de regresión múltiple postulados y no postulados

En estadística un modelo de regresión múltiple no postulado es uno de los métodos de regresión lineal.

Modelo

editar

Un modelo relaciona una o varias variables que hay que explicar Y a unas variables explicativas X, por una relación funcional Y = F (X)

  • Un modelo físico es un modelo explicativo sostenido por una teoría.
  • Un modelo estadístico, al contrario, es un modelo empírico nacido de datos disponibles, sin conocimientos a priori sobre los mecanismos en juego. Podemos sin embargo integrar en eso ecuaciones físicas (en el momento del pretratamiento de datos).

Disponemos de n de observaciones (i = 1,…, n ) de p variables. La ecuación de regresión se escribe:

 

donde

  • εi es el error del modelo;
  • a0, a1, …, ap son los coeficientes del modelo que hay que estimar.

El cálculo de los coeficientes a j y del error del modelo, a partir de las observaciones, es un problema bien dominado (ver Regresión lineal).

Más delicado es la elección de las variables que entran en este modelo. Puede ser postulado o no postulado.

Modelo postulado

editar

Solo los coeficientes del modelo precedente de regresión son dirigidos por los datos, la estructura polinómica del modelo es impuesta por el utilizador (según su peritaje del problema), que postula a priori:

  • El tipo de modelo: lineal o polinómico, y el grado del polinomio,
  • las variables que entrarán en el modelo.

Ejemplo de modelo polinómico con dos variables explicativas:  



01

El problema de la selección de las variables explicativas

editar

Cuando el número de variables explicativas es grande, puede hacerse que ciertas variables sean correlacionadas. En este caso hay que eliminar los doblones. El software utiliza para hacerlo métodos de selección paso a paso (ascendientes, descendentes o mixtos).

Sin embargo la calidad del modelo final repone en gran parte en la elección de las variables, y del grado del polinomio.

Modelo no postulado

editar

El modelo no postulado es al contrario totalmente dirigido por los datos , tanto su estructura matemática como sus coeficientes. La selección de las variables explicativas no pide conocimiento a priori sobre el modelo: se efectúa entre un conjunto muy grande de variables, comprendiendo:

  • Variables explicativas simples: A, B, C, (propuestas por los expertos del campo considerado y cuyo número p puede ser superior a n
  • Interacciones o acoplamiento de estas variables, por ejemplo « A*B » (producido cruzado sobre variables centradas reducidas), pero también « interacciones lógicas » tal « A y B », « A o B », « A y B medios », « A si B es fuerte »,« A si B es medio », « A si B es débil », etc.;
  • Funciones de estas variables': por ejemplo cos (A) o cualquier función sinusoidal amortiguada o ampliada, función periódica no sinusoidal, efecto de umbral, etc.


La selección se produce antes del cálculo de los coeficientes de la regresión según el principio siguiente:

Buscamos el factor o la interacción o la función mejor correlada a la respuesta. Habiéndolo encontrado, buscamos el factor o la interacción mejor correlada al residuo no explicado por la correlación precedente; etc. Este método pretende no contar dos veces la misma influencia, cuando los factores son correlados, y a ordenarlos por importancia decreciente.

La lista por orden de importancia decreciente encontrada y clasificada, no puede contar más términos que desconocidas (n). Si se guarda sólo un término en el modelo, deberá ser la primera de la lista. Si se guarda dos, serán ambos primeros, etc.

En efecto ya que cada uno de los términos de la lista explica el residuo no explicado por los precedentes, los últimos explican posiblemente solo el ruido. ¿ Cuál criterio de parada escoger?

El número de términos conservados en el modelo puede ser, por ejemplo, el que minimiza el error estándar de predicción SEP (Standard error of Prediction), o el que maximiza el F de Fisher. Este número de término puede también ser escogido por el utilizador a partir de consideraciones físicas.


Ejemplo: suponemos que el conjunto de las « variables explicativas » candidatas es {A,B,C,D,E,F,G}, y que el modelo obtenido es :
Y = constante + a.A + b.(« E et G ») + c.(« D y F medios »)
Observamos que:
* las variables B y C, no pertinentes, no figuran en el modelo
* la variable A apareció como término simple
* las variables E y G de una parte, y D y F, por otra parte, aparecen solo como « interacciones lógicas ».


Este modelo « parsimonioso », es decir conteniendo pocos términos (aquí tres), contrata 5 variables, y estará pegado mejor a la realidad física que un modelo polinómico. En efecto la conjunción « E y G » que significa « E y G fuertes simultáneamente » es encontrado más a menudo en la realidad física (ejemplo: la catálisis en química) que un término polinómico de tipo E.G.

Descomposición armónica

editar

Un modelo no postulado será también eficaz en la descomposición armónica de las series.

En efecto, el principio se aplica también bien en caso de muestreo irregular (donde los métodos de tipo media móvil, ARIMA o Box y Jenkins son hechos caer en falta) que en los casos no estacionarios (donde Análisis armónico no se aplica). Permite descubrir y desenredar las interferencias de ciclos diversos y estacionalidad con roturas de tendencias en escalón, en V, roturas logísticas, motivos periódicos, y acontecimientos accidentales tales como picos aislados o pedazos de ondas.

Referencias

editar

[1] Lesty M. (1999) Une nouvelle approche dans le choix des régresseurs de la régression multiple en présence d’interactions et de colinéarités. La revue de Modulad, n°22, janvier 1999, pp. 41-77

[2] Lesty M. (2002) La recherche des harmoniques, une nouvelle fonction du logiciel CORICO. La revue de Modulad, n°29, juin 2002, pp. 39-77