Poder estadístico

probabilidad de que la hipótesis nula sea rechazada cuando la hipótesis alternativa es verdadera

La potencia de una prueba estadística o el poder estadístico es la probabilidad de que la hipótesis alternativa sea aceptada cuando la hipótesis alternativa es verdadera (es decir, la probabilidad de no cometer un error del tipo II). La potencia es en general una función de las distribuciones posibles, a menudo determinada por un parámetro, bajo la hipótesis alternativa. A medida que aumenta la potencia, las posibilidades de que se presente un error del tipo II disminuyen. La probabilidad de que ocurra un error de tipo II se conoce como la tasa de falsos negativos (β). Por lo tanto la potencia es igual a 1 - β, que también se conoce como la sensibilidad


El análisis de poder se puede utilizar para calcular el tamaño mínimo de la muestra necesario para que uno pueda detectar razonablemente un efecto de un determinado tamaño. El análisis de poder también se puede utilizar para calcular el tamaño del efecto mínimo que es probable que se detecte en un estudio usando un tamaño de muestra dado. Además, el concepto de alimentación se utiliza para hacer comparaciones entre diferentes procedimientos de análisis estadísticos: por ejemplo, entre uno paramétrico y una prueba no paramétrica de la misma hipótesis.

También existe el concepto de una función de potencia de una prueba, que es la probabilidad de rechazar la hipótesis nula cuando es verdadera.[1]

Antecedentes

editar

Los contrastes de hipótesis utilizan datos de muestras para evaluar o hacer inferencias acerca de una población estadística. En la configuración concreta de una comparación de dos muestras, el objetivo es evaluar si los valores medios de algún atributo obtenidos para los individuos en dos sub-poblaciones difieren. Por ejemplo, para probar la hipótesis nula de que las medias de las puntuaciones de hombres y mujeres en una prueba no difieren, las muestras de hombres y mujeres se dibujan, la prueba se aplica a ellos, y la puntuación media de un grupo se compara con la del otro grupo con una prueba estadística, como la z de dos muestras de la prueba. La potencia de la prueba es la probabilidad de que la prueba encuentre una diferencia estadísticamente significativa entre hombres y mujeres, en función del tamaño de la verdadera diferencia entre esas dos poblaciones. Tenga en cuenta que el poder es la probabilidad de encontrar una diferencia que existe, en oposición a la probabilidad de declarar una diferencia que no existe (que se conoce como un error de tipo I , o "falso positivo").

Factores que influyen en el poder

editar

La potencia estadística puede depender de un gran número de factores. Algunos de estos factores pueden ser particulares a una situación de prueba específica, pero, como mínimo, el poder depende casi siempre de los siguientes tres factores:

El criterio de relevancia es una declaración de lo improbable que debe ser un resultado positivo, si la hipótesis nula de no efecto es cierto, para la hipótesis nula sea rechazada. Los criterios más utilizados son las probabilidades de 0.05 (5%, 1 de cada 20), 0,01 (1%, 1 en 100), y 0.001 (0,1%, 1 en 1000). Si el criterio es de 0,05, la probabilidad de que los datos lo que implica un efecto al menos tan grande como el efecto observado cuando la hipótesis nula es verdadera debe ser inferior a 0,05, para la hipótesis nula de no efecto de ser rechazada. Una forma fácil de aumentar la potencia de una prueba es la realización de una prueba menos conservador utilizando un criterio de significancia mayor, por ejemplo 0.10 en lugar de 0.05. Esto aumenta la probabilidad de rechazar la hipótesis nula (es decir, la obtención de un resultado estadísticamente significativo) cuando la hipótesis nula es falsa, es decir, reduce el riesgo de un error de tipo II (falso negativo con respecto a si existe un efecto). Pero también aumenta el riesgo de obtener un resultado estadísticamente significativo (es decir, rechazar la hipótesis nula) cuando la hipótesis nula no es falsa, es decir, que aumenta el riesgo de un error de tipo I (falso positivo).

La magnitud del efecto de interés en la población se puede cuantificar en términos de un tamaño del efecto , donde hay mayor poder para detectar los efectos más grandes. Un tamaño del efecto puede ser una estimación directa de la cantidad de interés, o puede ser una medida estandarizada que también es responsable de la variabilidad en la población. Por ejemplo, en un análisis comparativo de los resultados en una población tratada y el control, la diferencia de los resultados significa que Y - X sería una medida directa de la magnitud del efecto, mientras que (Y - X) / σ donde σ es la desviación estándar común de la los resultados en los grupos tratados y de control, sería un tamaño del efecto estandarizado. Si se construye apropiadamente, un tamaño de efecto estandarizado, junto con el tamaño de la muestra, se determinan completamente el poder. Un no estandarizada (directa) tamaño del efecto rara vez será suficiente para determinar la potencia, ya que no contiene información sobre la variabilidad en las mediciones.

El tamaño de la muestra determina la cantidad de error de muestreo inherente a un resultado de la prueba. En igualdad de condiciones, los efectos son más difíciles de detectar en muestras más pequeñas. El aumento de tamaño de la muestra es a menudo la manera más fácil de aumentar la potencia estadística de una prueba.

La precisión con la que se miden los datos también influye en la potencia estadística. En consecuencia, la potencia a menudo se puede mejorar mediante la reducción del error de medición en los datos. Un concepto relacionado es el de mejorar la "fiabilidad" de la medida que se está evaluando (como en fiabilidad psicométrica ).

El diseño de un experimento o estudio observacional a menudo influye en el poder. Por ejemplo, en una situación de prueba de dos muestras con un tamaño total de la muestra n dado, lo óptimo es tener el mismo número de observaciones de las dos poblaciones que se comparan (siempre que las variaciones en las dos poblaciones son la misma). En el análisis de regresión y análisis de varianza , hay una extensa teoría y estrategias prácticas para la mejora de la energía basada en el establecimiento de forma óptima los valores de las variables independientes en el modelo.

Interpretación

editar

Aunque no existen normas formales para el poder (a veces referido como π), la mayoría de los investigadores evalúan el poder de sus pruebas con π = 0,80 como un estándar para la adecuación. Este convenio implica un intercambio de cuatro-a-uno entre la β-riesgo y la α-riesgo. (Β es la probabilidad de un error de tipo II; α es la probabilidad de un error de tipo I, 0.2 y 0.05 son valores convencionales para β y α). Sin embargo, habrá ocasiones en que esta ponderación de 4 a 1 es inapropiada. En medicina, por ejemplo, las pruebas son a menudo diseñadas de tal manera que no se producirán falsos negativos (errores de tipo II). Pero esto plantea inevitablemente el riesgo de obtener un falso positivo (un error de tipo I). La razón es que es mejor decirle a un paciente sano "es posible que hayamos encontrado algo, vamos a probar más", que decirle a un paciente enfermo "todo está bien" [2]

El análisis del poder es apropiado cuando la preocupación es con el rechazo correcto, o no, de una hipótesis nula. En muchos contextos, la cuestión es menos acerca de la determinación de si hay o no una diferencia, sino más bien con conseguir una más refinada estimación del tamaño del efecto poblacional. Por ejemplo, si se espera una correlación entre la inteligencia y el desempeño laboral de alrededor de 0,50, un tamaño de muestra de 20 nos dará una poder de aproximadamente 80% (alfa = 0,05, dos colas) para rechazar la hipótesis nula de correlación cero . Sin embargo, al hacer este estudio es probable que estemos más interesados en saber si la correlación es 0,30 o 0,60 o 0,50. En este contexto, necesitaríamos una muestra mucho más grande con el fin de reducir el intervalo de confianza de nuestra estimación a un rango que sea aceptable para nuestros propósitos. Técnicas similares a las empleadas en un análisis de la potencia tradicional se pueden utilizar para determinar el tamaño de muestra necesario para calcular la anchura del intervalo de confianza inferior a un valor dado.

Referencias

editar
  1. http://www.encyclopediaofmath.org/index.php?title=Power_function_of_a_test&oldid=14564
  2. Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press.