Estadísticos de orden

En Estadística, el estadístico de orden kº es igual al k-ésimo valor más pequeño de una muestra estadística.[1]​ Junto con los estadísticos de rango, los estadísticos de orden son una de las herramientas fundamentales de la estadística no paramétrica y de inferencia .

Hay casos especiales importantes de los estadísticos de orden: el mínimo y el máximo valor de una muestra, y (con algunas calificaciones discutidas a continuación) la mediana y otros cuantiles de muestra .

Cuando se utiliza la Teoría de Probabilidad para analizar estadísticos de orden de muestras aleatorias a partir de una distribución continua, la función de distribución acumulativa se usa para reducir el análisis al caso de estadísticas de orden de la distribución uniforme.

Notación y ejemplos

editar

Por ejemplo, supongamos que se observan o son registrados 4 números, lo que resulta en una muestra de tamaño 4. Si los valores de la muestra son

6, 9, 3, 8,

que por lo general se denominan

 

donde el subíndice i in   simplemente indica el orden en el que se registraron las observaciones y se supone por lo general no son significativos. Un caso en el que el orden es significativo es cuando las observaciones son parte de una serie de tiempo.

Los estadísticas de orden se indican

 

donde el subíndice (i) entre paréntesis indica el orden º del estadística de la muestra i.

El primer estadístico de orden (o estadístico de orden más pequeño) es siempre el mínimo de la muestra, es decir,

 

donde, tras una convención común, se utilizan letras mayúsculas para hacer referencia a variables aleatorias, y las letras minúsculas (como arriba) para los valores reales observados.

Del mismo modo, para una muestra de tamaño n, el n-ésimo estadístico de orden n (o más grande estadístico de orden) es el máximo, es decir:

 

El rango de la muestra es la diferencia entre el máximo y el mínimo. Note que es una función de los estadísticos de orden:

 

Un dato importante similar en el análisis exploratorio de los datos que se relaciona simplemente con las estadísticas de orden es el rango intercuartílico de la muestra.

La mediana de la muestra puede ser o puede no ser un estadístico, ya que hay un único elemento medio sólo cuando el número n de observaciones es impar . Más precisamente, si n = 2m+1 para algunos m, entonces la mediana de la muestra es   y así es un estadístico de orden. Por otro lado, cuando n es incluso, n = 2m y hay dos valores medios,   and  , y la mediana de la muestra es una función de los dos (por lo general el promedio) y por lo tanto no es un estadística orden. Observaciones similares valen para todos los cuantiles de la muestra.

Análisis probabilístico

editar

Teniendo en cuenta todas las variables aleatorias X1, X2..., Xn, los estadísticas de orden X(1), X(2), ..., X(n) también son variables aleatorias, definidas por la clasificación de los valores ( Realizaciones ) de X1, ..., Xn creciente.

Cuando las variables aleatorias X1, X2..., Xn forman una muestra de que son independientes e idénticamente distribuidos. Este es el caso tratado a continuación. En general, las variables aleatorias X1, ..., Xn pueden surgir mediante un muestreo de más de una población. Entonces ellos son independientes , pero no necesariamente idénticamente distribuidas, y su distribución de probabilidad conjunta está dada por el teorema Bapat-Beg.

A partir de ahora, asumiremos que las variables aleatorias que se consideran son continuos y, cuando sea conveniente, también vamos a asumir que tienen una función de densidad de probabilidad (es decir, que son absolutamente continua). Las peculiaridades del análisis de las distribuciones de masas para la asignación de puntos (en particular, las distribuciones discretas) se discuten al final.

Distribuciones de probabilidad de estadísticas de orden

editar

En esta sección mostramos que las estadísticas de orden de la distribución uniforme en el intervalo unidad tienen distribuciones marginales pertenecientes a la distribución Beta familia. También damos un método sencillo para derivar la distribución conjunta de cualquier número de estadísticas de orden y, finalmente, traducir estos resultados para distribuciones continuas arbitrarias utilizando el CDF .

Suponemos que toda esta sección   es una muestra aleatoria extraída de una distribución continua con cdf  . Denotando   se obtiene la muestra aleatoria correspondiente   de la norma de distribución uniforme. Tenga en cuenta que las estadísticas de orden también satisfacen  .

Estadísticas de orden de la muestra de una distribución uniforme

editar

La probabilidad de la estadística para   caer en el intervalo   e igual a:[2]

 

es decir, el k-ésimo orden estadística de la distribución uniforme es una Beta variable aleatoria.[2][3]

 

La prueba de estos estados es el siguiente. Para   a ser de entre u y u + du, es necesario que exactamente k - 1 elementos de la muestra son más pequeños que U, y que al menos uno es entre U y U + D U. La probabilidad de que más de uno es en este último intervalo es ya O (du ^ 2) , Así que tenemos que calcular la probabilidad de que exactamente k - 1, 1 y n - k observaciones caen en los intervalos  ,   y   respectivamente. Esto es igual a (consulte la distribución multinomial para más detalles)

 

y el resultado sigue. La media de esta distribución es k / (n + 1).

La distribución conjunta de las estadísticas de orden de la distribución uniforme

editar

Del mismo modo, para i <j, la función de densidad de probabilidad conjunta de las dos estadísticas de orden de U(i) < U(j) puede ser demostrado ser

 

que es (hasta términos de orden superior  ) La probabilidad de que i − 1, 1, j − 1 − i, 1 and n − j elementos de la muestra j caigo en los intervalos  ,  ,  ,  ,  , respectivamente

Una de las razones en una forma totalmente análoga para derivar las distribuciones de conjuntos de orden superior. Quizás sorprendentemente, la densidad conjunta de los estadísticos de orden de tanaño n resulta ser constante:

 

Una manera de entender esto es que la muestra no ordenada tiene densidad constante igual a 1, y que hay n! diferentes permutaciones de la muestra correspondiente a la misma secuencia de estadísticas de orden. Esto está relacionado con el hecho de que 1 / n! es el volumen de la región  .

Estadísticas de orden de la muestra de una distribución Erlang

editar

La transformada de Laplace de estadísticas de orden de la muestra a partir de una distribución de Erlang a través de un método de recuento de ruta.[4]

La distribución de los estadísticos de orden en el caso general

editar

Si una variable posee una distribución absolutamente continua FX, entonces admite una densidad de probabilidad tal que  , y en las fórmulas anteriores pueden practicarse las substituciones:

 ,    

para derivar las funciones de densidad de probabilidad (FDPs) para los estadísticos de orden de una muestra de tamaño n tomada de la distribución de X:

 
  donde  
  donde  

Aplicaciones

editar

Dentro de las aplicaciones más interesantes, se puede destacar el artículo [5]​ donde se cuantifica el riesgo de la cola derecha de una variable aleatoria a través de la esperanza de la n-i reclamaciones más grandes dentro de una cartera de negocio.

Referencias

editar
  1. David, H. A.; Nagaraja, H. N. (2003). Order Statistics. Wiley Series in Probability and Statistics. doi:10.1002/0471722162. ISBN 9780471722168. edit
  2. a b Gentle, James E. (2009), Computational Statistics, Springer, p. 63, ISBN 9780387981444 ..
  3. Jones, M. C. (2009), «Kumaraswamy’s distribution: A beta-type distribution with some tractability advantages», Statistical Methodology 6 (1): 70-81, doi:10.1016/j.stamet.2008.04.001, «As is well known, the beta distribution is the distribution of the m’th order statistic from a random sample of size n from the uniform distribution (on (0,1)).» .
  4. Hlynka, M.; Brill, P. H.; Horn, W. (2010). "A method for obtaining Laplace transforms of order statistics of Erlang random variables". Statistics & Probability Letters 80: 9. doi:10.1016/j.spl.2009.09.006.
  5. Castaño-Martinez, A.; Pigueiras, G.; Sordo, M.A. (2019). "On a family of risk measures based on largest claims". Insurance: Mathematics and Economics 86. https://doi.org/10.1016/j.insmatheco.2019.02.003