Regresión logística multinomial

En estadística, la regresión logística multinomial generaliza el método de regresión logística para problemas multiclase, es decir, con más de dos posibles resultados discretos.^[1] Es decir, se trata de un modelo que se utiliza para predecir las probabilidades de los diferentes resultados posibles de una distribución categórica como variable dependiente, dado un conjunto de variables independientes (que pueden ser de valor real, valor binario, categórico-valorado, etc.)

La regresión logística multinomial se conoce por una variedad de otros nombres, incluyendo regresión multiclase LR, la regresión multinomial,^[2] función SoftMax regression, Logit multinomial, clasificador de máxima entropía (MaxEnt), etc.^[3]

Introducción

La regresión logística multinomial se utiliza cuando la variable dependiente en cuestión es nominal (equivalente categórica, lo que significa que puede incluirse en una de un conjunto de categorías que se excluyen) y para los cuales hay más de dos categorías. Algunos ejemplos serían:

¿Qué tan importante será un estudiante de universidad, teniendo en cuenta sus calificaciones, sus gustos, etc.?
¿Qué tipo de sangre tiene una persona, teniendo en cuenta los resultados de varias pruebas de diagnóstico?
En una aplicación de marcación del teléfono móvil de manos libres, que el nombre de persona se hablaba, dado diversas propiedades de la señal de voz?
¿Qué candidato tendrá el voto de una persona, teniendo en cuenta determinadas características demográficas?
¿En qué país se localizará una empresa, dadas las características de la empresa y de los distintos países candidatos?^[4]

Estos son todos ejemplos de clasificación estadística. Todos ellos tienen en común una variable dependiente que se predijo que proviene de una de un conjunto limitado de artículos que no pueden ser ordenados de manera significativa, así como un conjunto de variables independientes (también conocidas como características), que se utilizan para predecir la variable dependiente. La regresión logit es una solución particular al problema de clasificación que asume que una combinación lineal de las características observadas y algunos parámetros específicos del problema puede ser utilizadas para determinar la probabilidad de cada resultado, en particular de la variable dependiente. Los mejores valores de los parámetros para un problema determinado se determinan a partir de algunos datos de entrenamiento (por ejemplo, algunas personas para quienes se conocen tanto los resultados de las pruebas de diagnóstico como los tipos de sangre o algunos ejemplos de palabras conocidas).

Supuestos

El modelo logístico multinomial supone que los datos son específicos del caso; Es decir, cada variable independiente tiene un valor único para cada caso. El modelo logístico multinomial también supone que la variable dependiente no puede ser perfectamente pronosticada a partir de las variables independientes para ningún caso. Al igual que con otros tipos de regresión, no es necesario que las variables independientes sean estadísticamente independientes entre sí (a diferencia, por ejemplo, en un clasificador ingenuo de Bayes); sin embargo, se supone que la colinealidad es relativamente baja, ya que resulta difícil diferenciar entre el impacto de varias variables si no es así.^[5]

Si el logit multinomial se utiliza para modelar elecciones, se basa en el supuesto de independencia de alternativas irrelevantes (IIA), lo que no siempre es deseable. Este supuesto establece que las probabilidades de preferir una clase sobre otra no dependen de la presencia o ausencia de otras alternativas "irrelevantes". Por ejemplo, las probabilidades relativas de viajar en automóvil o en autobús al trabajo no cambian si se agrega una bicicleta como una posibilidad adicional. Esto permite que la elección de K alternativas se modele como un conjunto de opciones binarias independientes de K- 1, en la que una alternativa se elige como un "pivote" y la otra K-1 se compara con ella, una a la vez. La hipótesis IIA es una hipótesis central en la teoría de la elección racional; sin embargo, numerosos estudios en psicología muestran que los individuos a menudo violan esta suposición cuando toman decisiones. Un ejemplo de un caso de problema surge si las opciones incluyen un automóvil y un autobús azul. Supongamos que la proporción de probabilidades entre los dos es 1:1. Ahora, si se introduce la opción de un bus rojo, una persona puede ser indiferente entre un bus rojo y uno azul, y por lo tanto puede exhibir una relación de probabilidades coche: bus azul: bus rojo de 1:0.5:0.5, manteniendo así una proporción de 1:1 de automóvil: cualquier autobús mientras adopta una relación de automóvil: azul de 1:0.5. Aquí la opción del autobús rojo no era, de hecho, irrelevante, porque un autobús rojo era un sustituto perfecto para un autobús azul.

Si el logit multinomial se usa para modelar elecciones, en algunas situaciones puede imponer demasiadas restricciones en las preferencias relativas entre las diferentes alternativas. Es especialmente importante tener en cuenta este punto si el análisis pretende predecir cómo cambiarían las opciones si desapareciera una alternativa (por ejemplo, si un candidato político se retira de una carrera de tres candidatos). Se pueden usar otros modelos como el logit anidado o el probit multinomial en tales casos, ya que permiten la violación del IIA.^[6]

Referencias

↑ Greene, William H., Econometric Analysis, fifth edition, Prentice Hall, 1993: 720-723.
↑ Friedman, Jerome; Hastie, Trevor; Tibshirani, Rob (2010). «Regularization paths for generalized linear models via coordinate descent». Journal of Statistical Software 33 (1).
↑ A comparison of algorithms for maximum entropy parameter estimation. Sixth Conf. on Natural Language Learning (CoNLL). 2002. pp. 49-55. Archivado desde el original el 1 de noviembre de 2013.
↑ Harrell, F. E. (2001). Regression modeling strategies: with applications to linear models, logistic regression, and survival analysis. Springer.
↑ Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.
↑ Baltas, G.; Doyle, P. (2001). «Random Utility Models in Marketing Research: A Survey». Journal of Business Research 51 (2): 115-125. doi:10.1016/S0148-2963(99)00058-2.

Datos: Q1650843

[1] Greene, William H., Econometric Analysis, fifth edition, Prentice Hall, 1993: 720-723.

[2] Friedman, Jerome; Hastie, Trevor; Tibshirani, Rob (2010). «Regularization paths for generalized linear models via coordinate descent». Journal of Statistical Software 33 (1).

[malouf-3] A comparison of algorithms for maximum entropy parameter estimation. Sixth Conf. on Natural Language Learning (CoNLL). 2002. pp. 49-55. Archivado desde el original el 1 de noviembre de 2013.

[4] Harrell, F. E. (2001). Regression modeling strategies: with applications to linear models, logistic regression, and survival analysis. Springer.

[5] Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 9780471528890.

[6] Baltas, G.; Doyle, P. (2001). «Random Utility Models in Marketing Research: A Survey». Journal of Business Research 51 (2): 115-125. doi:10.1016/S0148-2963(99)00058-2.

[1]

[2]

[3]

[4]

[5]

[6]