Distribución de Pareto
En teoría de la probabilidad y en estadística, la distribución Pareto es una distribución de probabilidad continua con dos parámetros, que tiene aplicación en disciplinas como la sociología, la geofísica y la economía.[1] Fue formulada por el ingeniero civil, economista y sociólogo Vilfredo Pareto, aunque en ciertas áreas de estudio se hace referencia a la ley de Bradford. Cabe señalar que el equivalente discreto de la distribución Pareto es la distribución zeta (la ley de Zipf).
Pareto | ||
---|---|---|
Funciones de densidad de probabilidad para diferentes α (k) con xm = 1. El eje horizontal es el parámetro x. Como α → ∞ la distribución se aproxima δ(x − xm) donde δ es la delta de Dirac. Función de densidad de probabilidad | ||
Funciones de densidad de distribución para diferentes α (k) con xm = 1. El eje horizontal es el parámetro x. Función de distribución de probabilidad | ||
Parámetros |
escala (real) forma (real) | |
Dominio | ||
Función de densidad (pdf) | ||
Función de distribución (cdf) | ||
Media | ||
Mediana | ||
Moda | ||
Varianza | ||
Coeficiente de simetría | ||
Curtosis | ||
Entropía | ||
Función generadora de momentos (mgf) | No existe | |
Función característica | ||
Cuando la distribución de Pareto es usada en un modelo sobre la distribución de riqueza, el parámetro es conocido como índice de Pareto.
Definición
editarNotación
editarSi es una variable aleatoria continua con distribución Pareto con parámetros y entonces escribimos .
Función de densidad
editarLa función de densidad de una variable aleatoria es
para .
Probabilidad acumulada
editarLa función de distribución de una variable aleatoria es, para ,
Propiedades
editarSi entonces la variable aleatoria satisface algunas propiedades.
Media
editarLa media de la variable aleatoria es
con .
Varianza
editarLa varianza de la variable aleatoria
para .
Momentos
editarEl -ésimo momento sólo está definido para y en tal caso es
Función generadora de momentos
editarLa función generadora de momentos es
y está definida para valores .
Caso degenerado
editarLa función de la delta de Dirac es un caso límite de la densidad de Pareto:
Distribución simétrica
editarPuede definirse una Distribución de Pareto Simétrica según:[2]
Distribución Generalizada de Pareto
editarPareto Generalizado | ||
---|---|---|
Parámetros |
localización (real) | |
Dominio |
| |
Función de densidad (pdf) |
| |
Función de distribución (cdf) | ||
Media | ||
Mediana | ||
Varianza | ||
La familia de distribuciones generalizadas de Pareto (GPD) tienen tres parámetros y .
La función de probabilidad acumulada es
Para , con , y con , donde es el parámetro localización, es el parámetro escala y es el parámetro forma. Nótese que algunas referencias toman el parámetro forma como .
La función de densidad de probabilidad es:
o
de nuevo, para , y si
Ocurrencia y aplicaciones
editarGeneral
editarVilfredo Pareto utilizó originalmente esta distribución para describir la asignación de la riqueza entre los individuos, ya que parecía mostrar bastante bien la forma en que una mayor parte de la riqueza de cualquier sociedad es propiedad de un porcentaje menor de las personas de esa sociedad. También lo utilizó para describir la distribución de la renta.[4] Esta idea se expresa a veces de forma más sencilla como el principio de Pareto o la "regla del 80-20", que dice que el 20% de la población controla el 80% de la riqueza.[5] Sin embargo, la regla del 80-20 corresponde a un valor particular de α, y de hecho, los datos de Pareto sobre los impuestos británicos sobre la renta en su Cours d'économie politique indican que aproximadamente el 30% de la población tenía alrededor del 70% de los ingresos. La función de densidad de probabilidad (PDF) al principio de este artículo muestra que la "probabilidad" o fracción de la población que posee una pequeña cantidad de riqueza por persona es bastante alta, y luego disminuye constantemente a medida que aumenta la riqueza. (Sin embargo, la distribución de Pareto no es realista para la riqueza del extremo inferior. De hecho, el patrimonio neto puede ser incluso negativo). Esta distribución no se limita a describir la riqueza o la renta, sino muchas situaciones en las que se encuentra un equilibrio en la distribución de lo "pequeño" a lo "grande". Los siguientes ejemplos se consideran a veces como una distribución de Pareto aproximada:
- Los tamaños de los asentamientos humanos (pocas ciudades, muchas aldeas/pueblos)[6][7]
- Distribución de los tamaños de los archivos del tráfico de Internet que utiliza el protocolo TCP (muchos archivos pequeños, pocos archivos grandes[6]
- Tasas de error en los Unidades de disco duro[8]
- Clusters de condensado de Bose-Einstein cerca del cero absoluto[9]
- Los valores de las reservas de petróleo en los yacimientos petrolíferos (unos pocos grandes yacimientos, muchos pequeños yacimientos)[6]
- La distribución de la longitud en los trabajos asignados a los superordenadores (unos pocos grandes, muchos pequeños)[10]
- La rentabilidad estandarizada de los precios de las acciones individuales[6]
- Los tamaños de las partículas de arena[6]
- El tamaño de los meteoritos
- La gravedad de las grandes pérdidas por fallecimiento en el negocio de Seguros, para ciertas líneas de negocio como la responsabilidad civil general, el automóvil comercial y la compensación de los trabajadores.[11][12]
- Cantidad de tiempo que un usuario en el servicio Steam pasará jugando a diferentes juegos. (Algunos juegos se juegan mucho, pero la mayoría no se juegan casi nunca) [3]
- En hidrología la distribución de Pareto se aplica a eventos extremos como las precipitaciones máximas anuales de un día y las descargas de los ríos.[13] y además para describir épocas de sequía.[14][15] La imagen azul ilustra un ejemplo de ajuste de la distribución de Pareto a las precipitaciones máximas anuales de un día clasificadas mostrando también la banda de confianza del 90% basada en la distribución binomial. Los datos de las precipitaciones se representan mediante posición de trazado como parte del análisis de la frecuencia acumulada.
- En la fiabilidad de la distribución de los servicios eléctricos (el 80% de los minutos de los clientes interrumpidos se producen en aproximadamente el 20% de los días de un año determinado).
Software
editarSe puede usar software y un programa de computadora para el ajuste de una distribución de probabilidad, incluyendo la de Pareto, a una serie de datos:
- Easy fit Archivado el 23 de febrero de 2018 en Wayback Machine., "data analysis & simulation"
- ModelRisk, "risk modelling software"
- Ricci distributions, fitting distrubutions with R, Vito Ricci, 2005
- Risksolver, automatically fit distributions and parameters to samples
- StatSoft distribution fitting Archivado el 30 de agosto de 2012 en Wayback Machine.
- CumFreq, sin costo, incluye intervalos de confianza a base de la distribución binomial
Bibliografía
editar- Barry C. Arnold (1983). Pareto Distributions, International Co-operative Publishing House, Burtonsville, Maryland. ISBN 0-899974-012-1.
- Christian Kleiber and Samuel Kotz (2003). Statistical Size Distributions in Economics and Actuarial Sciences, New York:Wiley. xi+332 pp. ISBN 0-471-15064-9.
- Lorenz, M. O. (1905). "Methods of measuring the concentration of wealth". Publications of the American Statistical Association. 9: 209–219.
Referencias
editar- ↑ Guerriero, V. (2012). «Power Law Distribution: Method of Multi-scale Inferential Statistics». Journal of Modern Mathematics Frontier. Archivado desde el original el 21 de febrero de 2018. Consultado el 30 de octubre de 2017.
- ↑ Grabchak, M. & Samorodnitsky, D. «Do Financial Returns Have Finite or Infinite Variance? A Paradox and an Explanation». pp. 7-8.
- ↑ CumFreq software para adecuación de distribuciones de probabilidad [1]
- ↑ Pareto, Vilfredo, Cours d'Économie Politique: Nouvelle édition par G.-H. Bousquet et G. Busino, Librairie Droz, Ginebra, 1964, pp. 299-345. Libro original archivado
- ↑ Para una población de dos cuantiles, en la que aproximadamente el 18% de la población posee el 82% de la riqueza, el índice de Theil toma el valor 1.
- ↑ a b c d e Reed, William J. (2004). «La doble distribución pareto-lognormal - Un nuevo modelo paramétrico para las distribuciones de tamaño». Communications in Statistics - Theory and Methods 33 (8): 1733-53. S2CID 13906086. doi:10.1081/sta-120037438. Parámetro desconocido
|citeseerx=
ignorado (ayuda) - ↑ Reed, William J. (2002). «On the rank‐size distribution for human settlements». Journal of Regional Science 42 (1): 1-17. S2CID 154285730. doi:10.1111/1467-9787.00247.
- ↑ Schroeder, Bianca; Damouras, Sotirios; Gill, Phillipa (24 de febrero de 2010). pdf «Understanding latent sector error and how to protect against them». 8th Usenix Conference on File and Storage Technologies (FAST 2010). Consultado el 10 de septiembre de 2010. «We experimented with 5 different distributions (Geometric, Weibull, Rayleigh, Pareto, and Lognormal), that are commonly used in the context of system reliability, and evaluated their fit through the total squared differences between the actual and hypothesized frequencies (χ2 statistic). We found consistently across all models that the geometric distribution is a poor fit, while the Pareto distribution provides the best fit.»
- ↑ Yuji Ijiri; Simon, Herbert A. (May 1975). «Some Distributions Associated with Bose–Einstein Statistics». Proc. Natl. Acad. Sci. USA 72 (5): 1654-57. Bibcode:1975PNAS...72.1654I. PMC 432601. PMID 16578724. doi:10.1073/pnas.72.5.1654.
- ↑ {Cite journal|last1=Harchol-Balter|first1=Mor|author1-link=Mor Harchol-Balter|last2=Downey|first2=Allen|date=August 1997|title=Exploiting Process Lifetime Distributions for Dynamic Load Balancing|url=https://users Archivado el 15 de julio de 2013 en Wayback Machine.. soe.ucsc.edu/~scott/courses/Fall11/221/Papers/Sync/harcholbalter-tocs97.pdf|journal=ACM Transactions on Computer Systems|volume=15|issue=3|pages=253-258|doi=10.1145/263326.263344|s2cid=52861447}
- ↑ Kleiber y Kotz (2003): p. 94.
- ↑ Seal, H. (1980). «Probabilidades de supervivencia basadas en distribuciones de demanda de Pareto». ASTIN Bulletin 11: 61-71. doi:10.1017/S0515036100006620.
- ↑ Oosterbaan, R.J. (1994). «Chapter 6 Frequency and Regression Analysis». En Ritzema, H.P., ed. Drainage Principles and Applications, Publication 16. Wageningen, The Netherlands: International Institute for Land Reclamation and Improvement (ILRI). pp. 175-224. ISBN 90-70754-33-9.
- ↑ Burke, Eleanor J.; Perry, Richard H.J.; Brown, Simon J. (2010). «An extreme value analysis of UK drought and projections of change in the future». Journal of Hydrology 388: 131. doi:10.1016/j.jhydrol.2010.04.035.
- ↑ CumFreq, software para el análisis de frecuencias acumulativas y el ajuste de la distribución de probabilidad [2]