Coeficiente de correlación de rango de Kendall

En estadística, el coeficiente de correlación de rango de Kendall, comúnmente conocido como coeficiente τ de Kendall (con la letra griega τ, tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ.

Es una medida de correlación de rango: la semejanza en el ordenamiento de los datos cuando se clasifican en rangos por cada una de las cantidades. Su nombre referencia a Maurice Kendall, quién lo desarrolló en 1938, aunque Gustav Fechner había propuesto una medida similar en el contexto de series de tiempo en 1897.[1][2]

Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, la posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre los dos variables, y bajo cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de -1) entre las dos variables.

Tanto de Kendall y de Spearman pueden formularse como casos especiales de un coeficiente de correlación general .

Definición

editar

Sea   un conjunto de observaciones de las variables aleatorias conjuntas X e Y, de modo que todos los valores de (   ) y (   ) son únicos (los vínculos se ignoran por simplicidad). Cualquier par de observaciones   y  , dónde  , se dice que son un par concordante si el orden de clasificación de   y   está de acuerdo: es decir, si ambos   e   o ambos   e   ; de lo contrario se dice que son discordantes .

El coeficiente τ de Kendall se define como:

  [3]

Donde   es el coeficiente binomial para la cantidad de formas de elegir dos elementos de   elementos.

Propiedades

editar

El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1   ≤   τ   ≤   1)

  • Si la concordancia entre las dos clasificaciones es perfecto (es decir, son iguales) el coeficiente tiene el valor 1.
  • Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es la inversa de la otra), el coeficiente tiene un valor −1.
  • Si X e Y son independientes, entonces esperaríamos que el coeficiente sea aproximadamente cero.
  • Una expresión explícita para el coeficiente de rango de Kendall es   .

Prueba de hipótesis

editar

El coeficiente de rango de Kendall a menudo se usa como estadística de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse como dependientes estadísticamente. Esta prueba es no paramétrica, ya que no se basa en suposiciones sobre las distribuciones de X o Y o la distribución de ( X, Y ).

Bajo la hipótesis nula de independencia de X e Y, la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no puede caracterizarse en términos de distribuciones comunes, pero puede calcularse exactamente para muestras pequeñas; para muestras más grandes, es común usar una aproximación a la distribución normal, con media cero y varianza:

  .[4]

Contabilidad de empates

editar

Un par   se dice que está empatado si   o   ; un par empatado no es ni concordante ni discordante. Cuando surgen pares vinculados en los datos, el coeficiente puede modificarse de varias maneras para mantenerlo en el rango [−1,   1]:

La prueba estadística Tau indica la fuerza de asociación de las tabulaciones cruzadas. Ambas variables tienen que ser ordinales. Tau-a no hará ningún ajuste ante empates. Se define como:

 

donde nc, nd y n0 se definen como en la siguiente sección.

La estadística Tau-b, a diferencia de Tau-a, hace ajustes ante empates.[5]​ Los valores de Tau-b varían de −1 (asociación negativa al 100% o inversión perfecta) a +1 (asociación positiva al 100% o acuerdo perfecto). Un valor de cero indica la ausencia de asociación.

El coeficiente Kendall Tau-b se define como:

 

dónde

 

Tenga en cuenta que algunos software estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas por eficiencia computacional, con el doble del número 'habitual' de pares concordantes y discordantes.[6]

Tau-c (también llamado Stuart-Kendall Tau-c)[7]​ es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares).[8]​ Por lo tanto, use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable podría puntuarse en una escala de 5 puntos (muy buena, buena, promedio, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.

El coeficiente Kendall Tau-c se define como:[8]

 

dónde

 

Pruebas de significancia

editar

Cuando dos cantidades son estadísticamente independientes, la distribución de   no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para   la siguiente estadística,  , se distribuye aproximadamente como un estándar normal cuando las variables son estadísticamente independientes:

 

Por lo tanto, para probar si dos variables son estadísticamente dependientes, uno calcula   y encuentra la probabilidad acumulativa de una distribución normal estándar en   . Para una prueba de 2 colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, uno rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.

Se deben agregar numerosos ajustes a   al contabilizar los empates. La siguiente estadística,  , tiene la misma distribución que la distribución  , y nuevamente es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:

 

dónde

 

Esto a veces se conoce como la prueba de Mann-Kendall.[9]

Algoritmos

editar

El cálculo directo del numerador.  , implica dos iteraciones anidadas, caracterizadas por el siguiente pseudocódigo:

numerador := 0
for i := 2..N do
  for j := 1..(i - 1) do
    numerador := numerador + signo(x[i] - x[j]) × signo(y[i] - y[j])
return numerador

Aunque es rápido de implementar, este algoritmo es   en complejidad y se vuelve muy lento en muestras grandes. Se puede usar un algoritmo más sofisticado[10]​ construido sobre el algoritmo Merge Sort para calcular el numerador en tiempo  .

Comience ordenando sus puntos de datos por la primera cantidad,   y secundariamente (entre empates en   ) por la segunda cantidad,  . Con este ordenamiento inicial   no está ordenado, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría una Bubble Sort para ordenar esta   inicial. Un algoritmo mejorado de clasificación por mezcla, con complejidad  , se puede aplicar para calcular el número de intercambios,  , eso sería requerido por un Bubble Sort para ordenar   . Entonces el numerador para   se calcula como:

 

dónde   se calcula como   y  , pero con respecto a los empates conjuntos en   y   .

Un ordenamiento por mezcla divide los datos que se ordenarán   en dos mitades aproximadamente iguales   y  , ordena cada mitad recursivamente y luego combina las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:

 

dónde   y   son las versiones ordenadas de   y   y   caracteriza el Bubble Sort swap-equivalente para una operación de fusión.   se calcula como se muestra en el siguiente pseudocódigo:

 function M(L[1..n], R[1..m]) is
  i := 1
  j := 1
  nSwaps := 0
  while i ≤ n and j ≤ m do
    if R[j] < L[i] then
      nSwaps := nSwaps + n - i + 1
      j := j + 1
    else
      i := i + 1
  return nSwaps 

Un efecto secundario de los pasos anteriores es que uno termina con una versión ordenada de   y una versión ordenada de   . Con esto, los factores   y   usados para calcular   se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.

Implementaciones de software

editar

Véase también

editar

Referencias

editar
  1. Kendall, M. (1938). «A New Measure of Rank Correlation». Biometrika 30 (1–2): 81-89. doi:10.1093/biomet/30.1-2.81. 
  2. Kruskal, W. H. (1958). «Ordinal Measures of Association». Journal of the American Statistical Association 53 (284): 814-861. doi:10.2307/2281954. 
  3. Nelsen, R.B. (2001), «Coeficiente de correlación de rango de Kendall», en Hazewinkel, Michiel, ed., Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
  4. Prokhorov, A.V. (2001), «Coeficiente de correlación de rango de Kendall», en Hazewinkel, Michiel, ed., Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
  5. Agresti, A. (2010). Analysis of Ordinal Categorical Data (Second edición). New York: John Wiley & Sons. ISBN 978-0-470-08289-8. 
  6. IBM (2016). IBM SPSS Statistics 24 Algorithms. IBM. p. 168. Consultado el 31 de agosto de 2017. 
  7. Berry, K. J.; Johnston, J. E.; Zahran, S.; Mielke, P. W. (2009). «Stuart's tau measure of effect size for ordinal variables: Some methodological considerations». Behavior Research Methods 41 (4): 1144-1148. PMID 19897822. doi:10.3758/brm.41.4.1144. 
  8. a b Stuart, A. (1953). «The Estimation and Comparison of Strengths of Association in Contingency Tables». Biometrika 40 (1–2): 105-110. doi:10.2307/2333101. 
  9. Glen_b. «Relationship between Mann-Kendall and Kendall Tau-b». 
  10. Knight, W. (1966). «A Computer Method for Calculating Kendall's Tau with Ungrouped Data». Journal of the American Statistical Association 61 (314): 436-439. doi:10.2307/2282833. 

Otras lecturas

editar

Enlaces externos

editar