Distancia de energia

La distancia de energía es una distancia estadística entre distribuciones de probabilidad. Si X y Y son dos vectores aleatorios independientes en Rd con funciones de distribución acumulada (cdf) F y G respectivamente, la distancia de energía entre las distribuciones F y G se define mediante la raíz cuadrada de

donde (X, X', Y, Y') son variables aleatorias independientes, siendo X y X' distribuidas de acuerdo a F, Y e Y' según G, es el operador esperanza, y || . || denota la norma euclidiana usual. La distancia de energía satisface todos los axiomas de una distancia, por tanto, la distancia de energía caracteriza la igualdad de distribuciones, esto es, D(F,G) = 0 si y sólo si F = G. La noción de distancia de fue introducida inicialmente en 1985 por Gábor J. Székely, quién demostró para el caso unidimensional la siguiente relación:

que muestra la equivalencia con la distancia de Harald Cramér.


Para una prueba elemental de esta equivalencia, véase por ejemplo Székely (2002).[1]

En dimensiones más altas (p>1), como la distancia de energía es invariante ante rotaciónes, mientras la distancia de Cramér no lo es, el test estadístico asociado al problema de testear la igual de distribución entre dos muestras no es de distribución libre.

Generalización a espacios métricos

editar

El concepto de distancia de energía puede generalizarse a un contexto más general de espacios métricos. Sea   un espacio métrico con sigma álgebra de Borel  . Denotemos mediante   denotar la colección de todas medidas de probabilidad en el espacio medible  . Si μ y ν son medidas de probabilidad en  , entonces la distancia de energía, entre los elementos aleatorios μ y ν, viene dado por la raíz cuadrada de

 

En general, la expresión anterior no es necesariamente positiva, por ello tenemos que introducir restricciones adicionales sobre la métrica, como que la métrica   sea de tipo fuertemente negativo.[2]​ Bajo estas condiciones, podemos caracterizar la igual de distribución entre las variables aleatorias, la distancia de energía es cero si y sólo si X=Y (en distribución). Todo espacios euclidianos e incluso, los espacios de Hilbert separables son de tipo fuertemente negativo.[3]

En la literatura de los métodos kernels en el campo del aprendizaje de máquina, hay una equivalencia entre las distancias derivadas con los métodos kernel de incrustación y la distancia de energía.[4][5]​ Esta equivalencia puede encontrarse tanto a nivel poblacional como muestral.

Estadístico de la distancia de energía

editar

Un concepto estadístico relacionado, es el concepto del estadístico de la distancia de energía,[6]​ acuñado por el profesor Gábor J. Székely en 1980, en diferentes conferencias tanto en su país natal de Hungría, como en distintas universidad norteamericanas: MIT, Yale, y Columbia. Este concepto está basado en la idea de la energía potencial del newton.[7]​ La noción de la energía potencial estadística se basea en considerar las observaciones estadísticas como cuerpos celestiales, y ver el estadístico como una energía potencial estadística qué es cero sólo cuándo la hipótesis nula del estadístico de contraste es cierta. El estadístico de la distancia energía puede ser visto también como una distancia entre muestras aleatorias.

Constrastar la igual de distribución entre dos muestras aleatorias

editar

Consideremos la hipótesis nula que las variables aleatorias, X e Y, tienen las mismas distribuciones de probabilidad:  . Dadas dos muestras aleatorias de X e Y, respectivamente:

 , e,  

consideremos las siguientes medias aritméticas entre las distancias de los elementos muéstrales:

. 

La distancia de energía muestral se define mediante:

 

Uno puede probar que el estadístico muestral anterior se comparta como una verdadera distancia estadística entre los elementos muéstrales. En la práctica con fines de probar la consistencia del test estadístico asociado, consideramos el siguiente estadístico de contraste normalizado por el tamaño de la muestra de cada muestra:

 

Como el estadístico de contraste se puede escribir como un V-estadístico, se puede probar que el estadístico anterior, converge distribucionalmente a una forma cuadrática de variables aleatorias normales e independientes entre sí. Bajo la hipótesis alternativa, el estadístico anterior diverge con probabilidad igual a 1. Esto muestra que el test estadístico asociado al estadístico de contraste anterior es ómnibus.[8]

Bondad de ajuste

editar

De acuerdo a las ideas de la distancia de energía, podemos definir un test de bondad de ajuste. En particular, el método de bondad de ajuste con la distancia de energía viene específicado mediante

 

donde X y X' son variables aleatorias independientes e idénticamente distribuidos según la distribución especificada en la hipótesis nula, y  . La condición para que el procedimiento de bondad de ajuste sea ómnibus es la existencia de momentos de orden   en la variable aleatoria X. Bajo la hipótesis nula, la distribución asintótica de Q_n es de nuevo una forma cuadrática de variables aleatorias Gaussianas. Bajo una hipótesis alternativa, Qn diverge a infinito con probabilidad 1, y por tanto el estadístico de contraste define un test ómnibus.

En el caso relevante de testear si una distribución es gaussiana,[9]​ el software necesario se encuentra públicamente disponible en el paquete de R energy.

Aplicaciones

editar

Las aplicaciones de la distancia de energía incluyen entre otras:

Referencias

editar
  1. E-Statistics: The energy of statistical samples (2002) PDF Archivado el 20 de abril de 2016 en Wayback Machine.
  2. Klebanov, L. B. (2005) N-distances and their Applications, Karolinum Press, Charles University, Prague.
  3. Lyons, R. (2013). «Distance Covariance in Metric Spaces». The Annals of Probability 41 (5): 3284-3305. arXiv:1106.5758. doi:10.1214/12-aop803. 
  4. Sejdinovic, D.; Sriperumbudur, B.; Gretton, A.; Fukumizu, K. (2013). «Equivalence of distance-based and RKHS-based statistics in hypothesis testing». The Annals of Statistics 41 (5): 2263-2291. arXiv:1207.6076. doi:10.1214/13-aos1140. 
  5. Shen,Cencheng; Vogelstein,Joshua T. (2018). The Exact Equivalence of Distance and Kernel Methods for Hypothesis Testing. arXiv:1806.05514. 
  6. G. J. Szekely and M. L. Rizzo (2013). Energy statistics: statistics based on distances. Journal of Statistical Planning and Inference Volume 143, Issue 8, August 2013, pp. 1249-1272.
  7. Székely, G.J. (2002) E-statistics: The Energy of Statistical Samples, Technical Report BGSU No 02-16.
  8. G. J. Szekely and M. L. Rizzo (2004). Testing for Equal Distributions in High Dimension, InterStat, Nov. (5). Reprint Archivado el 5 de agosto de 2011 en Wayback Machine..
  9. a b Székely, G. J.; Rizzo, M. L. (2005). «A new test for multivariate normality». Journal of Multivariate Analysis 93 (1): 58-80. doi:10.1016/j.jmva.2003.12.002.  Reprint Archivado el 5 de agosto de 2011 en Wayback Machine.
  10. Székely, G. J. and Rizzo, M. L. (2005) Hierarchical Clustering via Joint Between-Within Distances: Extending Ward's Minimum Variance Method, Journal of Classification, 22(2) 151–183
  11. Varin, T., Bureau, R., Mueller, C. and Willett, P. (2009). «Clustering files of chemical structures using the Szekely-Rizzo generalization of Ward's method». Journal of Molecular Graphics and Modelling 28 (2): 187-195. PMID 19640752. doi:10.1016/j.jmgm.2009.06.006.  "eprint".
  12. M. L. Rizzo and G. J. Székely (2010). DISCO Analysis: A Nonparametric Extension of Analysis of Variance, Annals of Applied Statistics Vol. 4, No. 2, 1034–1055. arΧiv:1011.2288
  13. Szekely, G. J. and Rizzo, M. L. (2004) Testing for Equal Distributions in High Dimension, InterStat, Nov. (5). Reprint Archivado el 5 de agosto de 2011 en Wayback Machine..
  14. Albert Y. Kim; Caren Marzban; Donald B. Percival; Werner Stuetzle (2009). «Using labeled data to evaluate change detectors in a multivariate streaming environment». Signal Processing 89 (12): 2529-2536. ISSN 0165-1684. doi:10.1016/j.sigpro.2009.04.011.  Preprint:TR534.
  15. Székely, G. J., Rizzo M. L. and Bakirov, N. K. (2007). "Measuring and testing independence by correlation of distances", The Annals of Statistics, 35, 2769–2794. arΧiv:0803.4101
  16. Székely, G. J. and Rizzo, M. L. (2009). "Brownian distance covariance", The Annals of Applied Statistics, 3/4, 1233–1308. arΧiv:1010.0297
  17. Klebanov L.B. A class of Probability Metrics and its Statistical Applications, Statistics in Industry and Technology: Statistical Data Analysis, Yadolah Dodge, Ed. Birkhauser, Basel, Boston, Berlin, 2002,241-252.
  18. Statistics and Data Analysis, 2006, 50, 12, 3619-3628Rui Hu, Xing Qiu, Galina Glazko, Lev Klebanov, Andrei Yakovlev Detecting intergene correlation changes in microarray analysis: a new approach to gene selection, BMCBioinformatics, Vol.10, 20 (2009), 1-15.
  19. Yuanhui Xiao, Robert Frisina, Alexander Gordon, Lev Klebanov, Andrei Yakovlev Multivariate Search for Differentially Expressed Gene Combinations BMC Bioinformatics, 2004, 5:164; Antoni Almudevar, Lev Klebanov, Xing Qiu, Andrei Yakovlev Utility of correlation measures in analysis of gene expression, In: NeuroRX, 2006, 3, 3, 384-395; Klebanov Lev, Gordon Alexander, Land Hartmut, Yakovlev Andrei A permutation test motivated by microarray data analysis
  20. Viktor Benes, Radka Lechnerova, Lev Klebanov, Margarita Slamova, Peter Slama Statistical comparison of the geometry of second-phase particles, Materials Characterization , Vol. 60 (2009 ), 1076 - 1081.
  21. E. Vaiciukynas, A. Verikas, A. Gelzinis, M. Bacauskiene, and I. Olenina (2015) Exploiting statistical energy test for comparison of multiple groups in morphometric and chemometric data, Chemometrics and Intelligent Laboratory Systems, 146, 10-23.