Error estándar

propiedad estadística

El error estándar es la desviación estándar de la distribución muestral de un estadístico muestral.[1]​ El término se refiere también a una estimación de la desviación estándar, derivada de una muestra particular usada para computar la estimación.

Para un valor dado en una muestra aleatoria con un error distribuido normal, la imagen de arriba representa la proporción de muestras que pueden caer entre 0,1,2, y 3 desviaciones estándar por encima y por debajo del valor real.

Concepto

editar

La media muestral es el estimador usual de una media poblacional. Sin embargo, diferentes muestras escogidas de la misma población tienden en general a dar distintos valores de medias muestrales. El error estándar de la media (es decir, el error debido a la estimación de la media poblacional a partir de las medias muestrales) es la desviación estándar de todas las posibles muestras (de un tamaño dado) escogidos de esa población. Además, el error estándar de la media puede referirse a una estimación de la desviación estándar, calculada desde una muestra de datos que está siendo analizada al mismo tiempo.

En aplicaciones prácticas, el verdadero valor de la desviación estándar (o del error) es generalmente desconocido. Como resultado, el término "error estándar" se usa a veces para referirse a una estimación de esta cantidad desconocida. En tales casos es importante tener claro de dónde proviene, ya que el error estándar es solo una estimación. Desafortunadamente, esto no es siempre posible y puede ser mejor usar una aproximación que evite usar el error estándar, por ejemplo usando la estimación de máxima verosimilitud o una aproximación más formal derivada de los intervalos de confianza. Un caso bien conocido donde se pueda usar de forma apropiada puede ser en la distribución de Student para proporcionar un intervalo de confianza para una media estimada o diferencia de medias. En otros casos, el error estándar puede ser usado para proveer una indicación del tamaño de la incertidumbre, pero su uso formal o semi-formal para proporcionar intervalos de confianza o test debe ser evitado a menos que el tamaño de la muestra sea al menos moderadamente grande. Aquí el concepto "grande" dependerá de las cantidades particulares que vayan a ser analizadas.

En análisis de regresión, el término error estándar o error típico es también usado como la media de las diferencias entre la estimación por mínimos cuadrados y los valores dados de la muestra[2][3]

La relación entre el error estándar de la media y la desviación estándar es tal que, para un tamaño de muestra dado, el error estándar de la media es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra.[4]​ En otras palabras, el error estándar de la media es una medida de la dispersión de las medias muestrales alrededor de la media poblacional.

En el análisis de la regresión , el término "error estándar" se refiere a la raíz cuadrada de la estadística chi-cuadrada reducida o al error estándar para un coeficiente de regresión particular, como se usa, por ejemplo, en los intervalos de confianza.

Error estándar de la media

editar

Valor exacto

editar

Supongamos que una muestra estadísticamente independiente de   observaciones   se toma de una población estadística con una desviación típica de  . El valor medio calculado a partir de la muestra,  , tendrá asociado un error estándar sobre la media,  , dado por:[4]

 

donde

σ es la desviación estándar de la población
n es el tamaño (número de observaciones) de la muestra.

Prácticamente esto nos dice que cuando se intenta estimar el valor de una media poblacional, debido al factor  , reducir el error en la estimación en un factor de dos requiere adquirir cuatro veces más observaciones en la muestra; reducirlo en un factor de diez requiere cien veces más observaciones.

Estimación

editar

Como la desviación estándar de la población rara vez se conoce, el error estándar de la media suele estimarse como la desviación estándar de la muestra dividida por la raíz cuadrada del tamaño de la muestra (suponiendo la independencia estadística de los valores de la muestra).

 

donde

s es la desviación estándar de la muestra (i.e., la estimación de la desviación estándar de la población basada en la muestra), y
n es el tamaño (número de observaciones) de la muestra.

La fórmula del error estándar de la media puede alcanzarse desde lo que ya conocemos sobre la varianza de la suma de variables aleatorias independientes.[5]

  • Si   son   observaciones independientes de una población que tiene una media   y una desviación estándar  , entonces la varianza del total   es  .
  • La varianza de   debe ser  .
  • Y entonces la desviación estándar de   será  .
  • Por supuesto,   es la media de la muestra ( ).

Nota: El error estándar y la desviación estándar de muestras pequeñas tienden a infravalorar sistemáticamente el error estándar y la desviación estándar de la población: el error estándar de la media es un parámetro sesgado del error estándar de la población. Con n=2 la infravaloración puede ser del 25%, pero para n=6 la infravaloración es sólo del 5%.[6]

Precisión del estimador

editar

Cuando el tamaño de la muestra es pequeño, utilizar la desviación típica de la muestra en lugar de la desviación típica real de la población tenderá a subestimar sistemáticamente la desviación típica de la población y, por tanto, también el error típico. Con n = 2, la subestimación es de aproximadamente el 25%, pero para n = 6, la subestimación es sólo del 5%. Gurland y Tripathi (1971) proporcionan una corrección y una ecuación para este efecto.[7]​ Sokal y Rohlf (1981) dan una ecuación del factor de corrección para muestras pequeñas de n < 20.[8]

Derivación

editar

El error típico de la media puede derivarse de la varianza de una suma de variables aleatorias independientes,[9]​ dada la definición de varianza y algunas propiedades sencillas de la misma. Si   es una muestra de   observaciones independientes de una población con media   y desviación típica  , entonces podemos definir el total de

 

Supuestos y utilización

editar

Si se asume que los datos utilizados están distribuidos por la normal, los cuantiles de la distribución normal, la media de la muestra y el error estándar pueden ser usados para calcular intervalos de confianza aproximados para la media. Las siguientes expresiones pueden ser usadas para calcular los límites de confianza por encima y por debajo del 95%, donde   es igual a la media de la muestra,   es igual al error estándar para la media de la muestra, y 1,96 es el cuantil 0.975 de la distribución normal:

Por encima del 95% Límite =  
Por debajo del 95% Límite =  

En particular, el error estándar de una muestra estadística (como lo es de la media de la muestra) es la desviación estándar estimada del error en el proceso que ésta es generada. En otras palabras, el error estándar es la desviación estándar de la distribución muestral de la muestra estadística. La notación para el error estándar (del inglés) puede ser  ,   (por error estándar de "medida" (measurement) o "media" (mean)), o  .

Los errores estándar proporcionan una medida sobre la incertidumbre de las medidas de la muestra en un único valor que es usado a menudo porque:

  • Si el error estándar de varias cantidades individuales es conocido entonces el error estándar de alguna función matemática de esas cantidades puede ser fácilmente calculado en muchos casos:
    • Donde la distribución de probabilidad del valor es conocida, ésta puede ser usada para calcular una buena aproximación de un intervalo de confianza exacto.
    • Donde la distribución de probabilidad es desconocida, relaciones como la Desigualdad de Chebyshov o la desigualdad de Vysochanskiï–Petunin pueden ser usadas para calcular unos intervalos de confianza conservativos.
  • Como el tamaño de la muestra tiende a infinito, el teorema del límite central garantiza que la distribución de la media muestral es asintóticamente la distribución normal.

Error estándar de la regresión

editar

El error estándar de la regresión es el valor que muestra la diferencia entre los valores reales y los estimados de una regresión. Es utilizado para valorar si existe una correlación entre la regresión y los valores medidos. Muchos autores prefieren este dato a otros como el coeficiente de correlación lineal, ya que el error estándar se mide en las mismas unidades que los valores que se estudian. La fórmula[10]​ sería:

 

Siendo:

  •   los valores estimados
  •   los valores medidos
  •   el tamaño de la muestra

Aproximación de Student cuando el valor de σ es desconocido

editar

En muchas aplicaciones prácticas, el verdadero valor de σ es desconocido. Como resultado, necesitamos utilizar una distribución que tenga en cuenta esa dispersión de posibles σ. Cuando se sabe que la verdadera distribución subyacente es gaussiana, aunque con σ desconocida, entonces la distribución estimada resultante sigue la distribución t de Student. El error típico es la desviación típica de la distribución t de Student. Las distribuciones t son ligeramente diferentes de la gaussiana y varían en función del tamaño de la muestra. Las muestras pequeñas son algo más propensas a subestimar la desviación típica de la población y a tener una media que difiera de la media real de la población, y la distribución t de Student tiene en cuenta la probabilidad de estos eventos con colas algo más pesadas en comparación con una gaussiana. Para estimar el error estándar de una distribución t de Student basta con utilizar la desviación estándar muestral "s" en lugar de σ, y podríamos utilizar este valor para calcular intervalos de confianza.

Nota: La Distribución de probabilidad de Student se aproxima bien a la distribución de Gauss cuando el tamaño de la muestra es superior a 100. Para tales muestras se puede utilizar esta última distribución, que es mucho más sencilla.

Supuestos y uso

editar

Un ejemplo de cómo se utiliza   es para hacer intervalos de confianza de la media poblacional desconocida. Si la distribución muestral es normalmente distribuida, la media muestral, el error estándar y los cuantiles de la distribución normal pueden utilizarse para calcular intervalos de confianza para la verdadera media poblacional. Las siguientes expresiones pueden utilizarse para calcular los límites de confianza superior e inferior del 95%, donde   es igual a la media muestral,   es igual al error estándar para la media muestral, y 1,96 es el valor aproximado del punto 97,5 percentil de la distribución normal:

Límite superior del 95%   y
Límite inferior del 95%  

En concreto, el error típico de una estadística muestral (como la media muestral) es la desviación típica real o estimada de la media muestral en el proceso por el que se generó. En otras palabras, es la desviación típica real o estimada de la distribución muestral de la estadística muestral. La notación para el error estándar puede ser cualquiera de SE, SEM (para error estándar de medida o media), o SE.

Los errores estándar proporcionan medidas simples de la incertidumbre en un valor y se utilizan a menudo porque:

  • en muchos casos, si se conoce el error estándar de varias cantidades individuales, entonces se puede calcular fácilmente el error estándar de alguna función de las cantidades;
  • cuando se conoce la distribución de probabilidad del valor, se puede utilizar para calcular un intervalo de confianza exacto;
  • cuando se desconoce la distribución de probabilidad, se puede utilizar la desigualdad de Chebyshev o la desigualdad de Vysochanskiï-Petunin para calcular un intervalo de confianza conservador; y
  • a medida que el tamaño de la muestra tiende a infinito, el teorema del límite central garantiza que la distribución muestral de la media es asintóticamente normal.

Error típico de la media frente a la desviación típica

editar

En la literatura científica y técnica, los datos experimentales se resumen a menudo utilizando la media y la desviación típica de los datos de la muestra o la media con el error típico. Esto suele llevar a confusión sobre su intercambiabilidad. Sin embargo, la media y la desviación típica son estadísticas descriptivas, mientras que el error típico de la media es descriptivo del proceso de muestreo aleatorio. La desviación estándar de los datos de la muestra es una descripción de la variación en las mediciones, mientras que el error estándar de la media es una declaración probabilística sobre cómo el tamaño de la muestra proporcionará un mejor límite en las estimaciones de la media de la población, a la luz del teorema del límite central.[11]

En pocas palabras, el error estándar de la media muestral es una estimación de lo lejos que es probable que esté la media muestral de la media poblacional, mientras que la desviación estándar' de la muestra es el grado en que los individuos dentro de la muestra difieren de la media muestral.[12]​ Si la desviación típica de la población es finita, el error típico de la media de la muestra tenderá a cero al aumentar el tamaño de la muestra, porque la estimación de la media de la población mejorará, mientras que la desviación típica de la muestra tenderá a aproximarse a la desviación típica de la población al aumentar el tamaño de la muestra.

Véase también

editar

Referencias

editar
  1. Everitt, B.S. (2003) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
  2. Kenney, J. and Keeping, E.S. (1963) Mathematics of Statistics, van Nostrand, p. 187
  3. Zwillinger D. (1995), Standard Mathematical Tables and Formulae, Chapman&Hall/CRC. ISBN 0-8493-2479-3 p. 626
  4. a b Altman, Douglas G; Bland, J Martin (15 de octubre de 2005). «Standard deviations and standard errors». BMJ: British Medical Journal 331 (7521): 903. ISSN 0959-8138. PMC 1255808. PMID 16223828. doi:10.1136/bmj.331.7521.903. 
  5. T.P. Hutchinson, Essentials of statistical methods in 41 pages
  6. Gurland, J; Tripathi RC (1971). «A simple approximation for unbiased estimation of the standard deviation». American Statistician (American Statistical Association) 25 (4): 30-32. JSTOR 2682923. doi:10.2307/2682923. 
  7. Gurland, J; Tripathi RC (1971). «Una aproximación sencilla para la estimación insesgada de la desviación típica». American Statistician 25 (4): 30-32. JSTOR 2682923. 
  8. Sokal; Rohlf (1981). Biometría: Principles and Practice of Statistics in Biological Research (2nd edición). p. 53. ISBN 978-0-7167-1254-1. 
  9. Hutchinson, T. P. (1993). Essentials of Statistical Methods, in 41 pages. Adelaide: Rumsby. ISBN 978-0-646-12621-0. 
  10. Departments of Botany and of Statistics University of Wisconsin—Madison. «Estimation and Prediction». Archivado desde el original el 17 de mayo de 2017. Consultado el 2 de junio de 2015. 
  11. Barde, M. (2012). «Qué utilizar para expresar la variabilidad de los datos: ¿Desviación típica o error típico de la media?». Perspect. Clin. Res. 3 (3): 113-116. PMC 3487226. PMID 23125963. 
  12. Wassertheil-Smoller, Sylvia (1995). google.com/books?id=-PHiBwAAQBAJ&pg=PA40 Bioestadística y epidemiología: un manual para profesionales de la salud (Second edición). Nueva York: Springer. pp. 40-43. ISBN 0-387-94388-9. 

Enlaces externos

editar