Ley de Benford

observación sobre la distribución de frecuencia de los dígitos iniciales en muchos conjuntos de datos numéricos de la vida real

La ley de Benford (por el físico Frank Benford[1]​), también conocida como la ley del primer dígito, asegura que, en gran variedad de conjuntos de datos numéricos que existen en la vida real, la primera cifra es 1 con mucha más frecuencia que el resto de los números. Además, según crece este primer dígito, menos probable es que se encuentre en la primera posición. La ley también asegura cierta frecuencia para los siguientes dígitos.

Distribución de los primeros dígitos según la ley de Benford. Cada barra representa un dígito, y la altura de la barra es el porcentaje de números que comienzan por ese dígito

Esta ley se puede aplicar a muchos hechos relacionados con el mundo natural o con elementos sociales: facturas, artículos en revistas, números de puerta, precios, número de habitantes, tasas de mortalidad, longitud de los ríos, etcétera.[2]

Historia

editar

En 1881 el astrónomo y matemático Simon Newcomb observó que las primeras páginas de las tablas de logaritmos estaban manifiestamente más usadas que las finales. Dedujo que aparentemente los dígitos iniciales de los números (al menos los utilizados en su trabajo por quienes habían consultado las tablas) no son equiprobables, sino que el 1 aparece como dígito inicial más frecuente, seguido del 2, etc. hasta el 9 que es el menos frecuente. Mediante un breve e ingenioso razonamiento, aunque sin presentar realmente un argumento formal ni fórmula matemática, Newcomb enunció verbalmente una relación o ley logarítmica: “la ley de probabilidad de la ocurrencia de números es tal que las mantisas de sus logaritmos son equiprobables”[3]​ de la que derivó probabilidades para el valor del primer dígito más significativo. Sin embargo, no presentó evidencia estadística para esta distribución de los dígitos.[4]

En 1938, y de manera independiente, el físico Frank Benford observó el mismo fenómeno en las tablas de logaritmos y realizó una comprobación empírica sobre un total de 20.229 números agrupados en 20 muestras de gran diversidad: áreas fluviales, constantes y magnitudes físicas y químicas, funciones matemáticas e incluso números de direcciones de personas y tomados de portadas de revistas.[2]​ A partir de los resultados empíricos Benford postuló una “ley de los números anómalos” para la probabilidad de que el primer dígito sea d. Esta ley logarítmica se conoce como “ley de Benford”.

Formulación matemática

editar

Diremos que un conjunto de números cumple la ley de Benford si, al escribirlo en notación decimal, la primera cifra significativa es d con probabilidad  . Con primera cifra significativa nos referimos al primer dígito (el más a la izquierda) distinto de 0.

Podemos formular una ley para las dos primeras cifras: la probabilidad de que las dos primeras cifras no nulas sean igual a n, con   es igual a  . De un modo similar se puede enunciar una ley para las tres primeras cifras, para las cuatro primeras cifras, etc.

Para el caso de una sucesión  , se dice que es Benford si cumple con las probabilidades antes descritas a largo plazo, es decir, si   para cada  .[5]

Las sucesiones surgidas de ecuaciones en recurrencia lineales cumplen (bajo hipótesis bastante generales) la ley de Benford. Esto en particular incluye a las sucesiones del tipo   (progresiones geométricas), siempre que   no sea una potencia de 10.[5]

Algunas propiedades

editar

La ley de Benford es la única distribución de probabilidad para el primer dígito que resulta invariante por escalas. Esto significa que si tomamos un conjunto de datos que cumple con la ley de Benford y los multiplicamos a todos por una constante k, los números resultantes siguen verificando la ley. Recíprocamente, si un conjunto de números tiene esa propiedad sobre la aparición del primer dígito (la frecuencia de aparición de cada dígito como primera cifra significativa no cambia al multiplicarlos por una constante) entonces cumple la ley de Benford.[4]

Para saber cuál es el primer dígito de un número n, lo que se hace es dividir a n entre 10k-1 (donde k es el número de cifras que tiene n) y observar en cuál de los intervalos [1,2), [2,3), ..., [9,10) cae ese resultado. Se puede pensar en el resultado de esa división como una variable aleatoria con dominio [1,10). Una propiedad que caracteriza a la ley de Benford es la siguiente: una variable aleatoria X con recorrido [1,10) sigue la ley de Benford si y solo si   se distribuye uniformemente en [0,1].[6]

Explicación

editar

La propiedad de invariancia de escala puede dar una explicación intuitiva para el porqué del cumplimiento de la ley de Benford para ciertos tipos de datos. Por ejemplo, si se mide la longitud de todos los ríos y arroyos del mundo, la frecuencia de aparición del primer dígito no debería ser distinta si se mide en metros, yardas, pies u otra medida de longitud. Como la única distribución que cumple con ser invariante respecto al cambio de escala, parecería lógico que sea la ley seguida por estos datos.

El hecho de que la primera cifra sea la cifra 1 con mayor frecuencia que las demás, puede ser entendido si se tiene en cuenta que se comienza a contar desde 1 (1, 2, 3,...) hasta llegar al 9, momento en que cada cifra tiene la misma probabilidad. Pero de 10 a 19 solo se tiene como primera cifra el 1, y solo cuando se llega al 99 todas las cifras tendrán la misma probabilidad de nuevo.

Los tipos de muestras que lo cumplen pueden tener orígenes muy diferentes. En general para datos ordinales que en algún momento se acaban (números de casas), la distribución ya es exponencial. Para el número de la última casa de la calle, la distribución también es exponencial, así como para los valores de bolsa, y esto es sabido desde el concepto de exponencial. El asunto del primer número es tomar la distribución de la primera década (1-9), que será exponencial, y montar encima el de la primera década pero de un orden superior (10-90), y así consecutivamente. El conjunto total siempre resultará exponencial.

Por supuesto, existen listas que no cumplen dicha ley, pero parece ser que si se toman términos al azar de varias listas que no cumplan el criterio de Benford en número suficiente para formar otra lista heterogénea, esta si tiende a cumplirla, dada una longitud suficiente.[7]

Momentos

editar

La media aritmética y los siguientes tres momentos estadísticos de mayor orden de una variable que sigue la distribución de Benford en base decimal (dígitos del 1 al 9) son:

De igual modo, los cuatro primeros momentos de la distribución de Benford para los dos primeros dígitos son:[8]

Asimismo, la correlación entre el primer y segundo dígito es ρ = 0.0561.

Aplicaciones

editar

Mark Nigrini en su tesis doctoral (1992) da una idea de cómo utilizar la ley de Benford para encontrar engaños en las declaraciones al fisco. Continuaría luego escribiendo varios artículos sobre el tema. Esta aplicación fue la que dio "fama" a una ley estadística que hasta ese momento solo se veía como una curiosidad.[6]​ Aplicaciones similares han sido realizadas para estudiar otras variables económicas.[9][10]

Otras aplicaciones han sido propuestas en diversas áreas, incluyendo genética[11]​ y fraudes en elecciones[12]​ (aunque la utilidad en este caso fue cuestionada).[13]

Desde 2007 varios equipos y centros de investigación europeos con software, a petición de las grandes firmas auditoras multinacionales miembros de IRM, DGUV, ISACA, IEEE e IIA; se dedicaron a identificar los elementos de dato cuyos valores no cumplen de Ley de Benford mediante métodos y modelos, derivando vertientes con la teoría del caos (fractales), teoría de valores extremos, con modelos estocásticos y bayesianos como Sorensen-Dice y desde 2008 utilizando dendrogramas para con esta última aplicar y lanzar el método Carrion-Vasiliou-GG en varios países y sectores (banco, gobierno, servicios, comercio a detalle, registro civil, seguro social, salud comunitaria, etc) como procesos de auditoría forense y detección de sospechas, por ejemplo en el otorgamiento de cédulas de identidad o pasaportes, conteo en proceso electoral, compras o contrataciones púbicas, control anti lavado de activos y de evasión de impuestos, control antidopaje deportivo entre otros, llegando a alcanzar más del 92% de exactitud contra los falsos positivos.

Posteriormente se sigue aplicando y retomando con las casas de software de auditoría (ACL, IDEA,[14]​ ARBUTUS,[15]​ IBM WATSON,[16]​ PICALO,[17]R, Python, la permanencia del módulo de la Ley de Benford con técnicas que afinen en la detección particular, para justificar en la práctica con los profesionales de auditoría e ingeniería al enfrentar con gran volumen de datos Bigdata como el método Carrion-Vasiliou-GG utilizando Dendrogramas, que motivó a software libre R poner a consideración en 2016 la nueva función "getSuspects" en su paquete benford.analysis[18]​ para validación de datos y análisis forense con la Ley de Benford.

Referencias

editar
  1. Benford, Frank (1938). «The Law of Anomalous Numbers». American Philosophical Society 78 (4): 551-572. 
  2. a b Paenza, Adrián (3 de mayo de 2009). «La ley de Benford». Página 12. Consultado el 8 de julio de 2017. 
  3. Newcomb, Simon (1881). «Note on the Frequency of Use of the Different Digits in Natural Numbers». American Journal of Mathematics 4 (1): 39-40. doi:10.2307/2369148. Consultado el 8 de julio de 2017. 
  4. a b Hill, Theodore (1995). «The Significant-Digit Phenomenon». American Mathematical Monthly 102 (4): 322-327. Consultado el 8 de julio de 2017. 
  5. a b Miller; Takloo-Bighash (2006). «Applications of Probability: Benford's Law and Hypothesis Testing». An invitation to modern theory number (en inglés). Princeton University Press. pp. 216-221. 
  6. a b Caputi, María (2016). «Ley de Benford o ley del primer dígito significativo». Ley de Benford (Trabajo final del Diploma de Matemática). Uruguay: Universidad de la República - ANEP. 
  7. «Explicación: ¿por qué funciona la ley de Benford en el mundo real?». Estadística para todos. 
  8. Suh, I. S.; Headrick, T. C. (2010). «A comparative analysis of the bootstrap versus traditional statistical procedures applied to digital analysis based on Benford's law». Journal of Forensic and Investigative Accounting 2 (2): 144-175. Archivado desde el original el 7 de octubre de 2018. Consultado el 12 de noviembre de 2020. 
  9. T. Worstall. «Greece Was Lying About Its Budget Numbers». Forbes. 
  10. Tarek elSehity; Erik Hoelzl; Erich Kirchler (2005). «Price developments after a nominal shock: Benford's Law and psychological pricing after the euro introduction». International Journal of Research in Marketing 22 (4): 471-480. Consultado el 8 de julio de 2017. 
  11. James L. Friarand; Terrance Goldman; Juan Pérez–Mercader (2012). «Genome Sizes and the Benford Distribution». Plos One 7 (5). doi:10.1371/journal.pone.0036624. Consultado el 8 de julio de 2017. 
  12. S.Battersby (24 de junio de 2009). «Statistics hint at fraud in Iranian election». New Scientist. Consultado el 8 de julio de 2017. 
  13. Joseph Deckert; Mikhail Myagkov; Peter C. Ordeshook (2010). «The Irrelevance of Benford’s Law for Detecting Fraud in Elections». University of Oregon and California Institute of Technology. Archivado desde el original el 19 de junio de 2017. Consultado el 8 de julio de 2017. 
  14. https://idea.caseware.com/products/idea/
  15. https://www.arbutussoftware.com/discover-prepare-manage-your-analytics-needs-with-arbutus-software
  16. https://www.ibm.com/watson-analytics
  17. https://pypi.org/project/picalo/
  18. https://cran.r-project.org/web/packages/benford.analysis/index.html

Enlaces externos

editar