Población estadística
En estadística, una población es un conjunto de elementos o eventos similares que son de interés para alguna pregunta o experimento.[1][2] Una población estadística puede ser un grupo de objetos existentes (por ejemplo, el conjunto de todas las estrellas dentro de la Vía Láctea) o una hipotética y potencialmente infinita grupo de objetos concebidos como una generalización de la experiencia (por ejemplo, el conjunto de todas las manos posibles en un juego de póquer).[3] Un objetivo común del análisis estadístico es producir información sobre alguna población elegida.[4]
En la inferencia estadística, se elige un subconjunto de la población (una muestra estadística) para representar la población en un análisis estadístico.[5] La relación entre el tamaño de esta muestra estadística y el tamaño de la población se denomina fracción de muestreo. Entonces es posible estimar los parámetros de la población utilizando las estadísticas de muestra adecuadas.[6]
Por ejemplo, consideremos un estudio para estudiar el peso de 1.000 estudiantes en un gimnasio. Digamos que se eligen 50 individuos y se anotan sus respectivos pesos. La variable aleatoria a observar es el "peso". La población está formada por 1.000 estudiantes y la muestra está formada por los 50 estudiantes cuyos pesos fueron medidos. Lo que se espera es que esta muestra, si se elige adecuadamente, tenga características similares (llamadas parámetros ) a las de la población en estudio.
Historia y desarrollo del concepto
editarEl desarrollo del concepto de población estadística puede rastrearse hasta principios del siglo XVIII. Los cimientos de la estadística moderna fueron establecidos por matemáticos pioneros como John Graunt, quien estudió datos demográficos, y Thomas Bayes[7], cuyo trabajo en teoría de la probabilidad proporcionó un marco para entender el comportamiento de las poblaciones.[8]
La formalización de las poblaciones estadísticas como un elemento clave de la inferencia estadística surgió en el siglo XIX con el desarrollo de la teoría de la probabilidad por figuras como Pierre-Simon Laplace[9] y Carl Friedrich Gauss[10]. La introducción de la teoría de muestreo, particularmente a través del trabajo de Ronald A. Fisher y Jerzy Neyman, revolucionó la forma en que los investigadores abordaron los datos poblacionales y la estimación.
En el siglo XX, el creciente campo del muestreo por encuestas y el análisis de datos refinó aún más el concepto de poblaciones estadísticas. El advenimiento de herramientas computacionales permitió la simulación de poblaciones infinitas y estrategias de muestreo más complejas, ampliando la aplicabilidad de los estudios basados en poblaciones a diversos campos, incluyendo la economía, la medicina y las ciencias sociales.
Hoy en día, el concepto de población estadística sigue siendo fundamental en la investigación, moldeando metodologías para el muestreo, la prueba de hipótesis y la estimación en diversas disciplinas. La idea ha evolucionado junto con los avances en tecnología y teoría, ofreciendo tanto perspectivas prácticas como teóricas sobre cómo se comportan las poblaciones y cómo podemos inferir sus propiedades de manera precisa.
Tipos de poblaciones estadísticas
editarUna población estadística se refiere al conjunto completo de individuos, elementos o puntos de datos que comparten una característica común y son el objeto de un análisis estadístico. Es el grupo entero del cual se puede extraer una muestra y al cual se hacen inferencias estadísticas. El concepto de población estadística es central en los campos de la estadística, la probabilidad y la ciencia de datos, ya que forma la base para entender y estimar las propiedades de grupos más grandes a partir del análisis de subconjuntos más pequeños.[11]
Las poblaciones estadísticas pueden clasificarse en varios tipos según sus características:
Una población finita es un conjunto con un número limitado de elementos. Es la forma más directa de una población, a menudo vista en estudios donde el número de elementos o individuos es fijo y contado, como la población de una ciudad específica o la producción total de un producto industrial durante un año.[12]
Una población infinita se refiere a una población teórica o conceptual con un número ilimitado de elementos. En la práctica, estas poblaciones son difíciles de observar directamente, pero son útiles en la teoría estadística y la modelización, como la población de todos los resultados posibles en un proceso aleatorio o las posibles tiradas de un dado.[12]
En la investigación, distinguir entre poblaciones finitas e infinitas ayuda a determinar los métodos y fórmulas utilizados para los cálculos del tamaño de la muestra y las estimaciones de la varianza.[12] Para las poblaciones finitas, el muestreo sin reemplazo puede alterar las probabilidades, mientras que en las poblaciones infinitas estos efectos son insignificantes.[13]
La población objetivo se refiere al grupo de interés en un estudio, mientras que la población de muestreo es el subconjunto de la población objetivo que puede ser observado o medido de manera realista. Las discrepancias entre estas poblaciones pueden introducir sesgos en los análisis estadísticos.[14]
Una población homogénea consiste en elementos similares, donde la varianza entre ellos es pequeña, mientras que una población heterogénea contiene elementos diversos con diferencias sustanciales.[14] Esta última generalmente requiere técnicas de muestreo más complejas para asegurar una representación precisa.
Media
editarLa media poblacional, o valor esperado de la población, es una medida de tendencia central bien de una distribución de probabilidad o de una variable aleatoria caracterizada por la distribución.[15]
En una distribución de probabilidad discreta de una variable aleatoria X, la media es igual a la suma sobre cada valor posible ponderada por la probabilidad de ese valor; es decir, se calcula tomando el producto de cada valor posible x de X y su probabilidad p(x), y luego sumando todos estos productos, dando
Una fórmula análoga se aplica al caso de una distribución de probabilidad continua. No toda distribución de probabilidad tiene una media definida (véase la distribución de Cauchy como ejemplo). Además, la media puede ser infinita para algunas distribuciones.
Para una población finita, la media poblacional de una propiedad es igual a la media aritmética de la propiedad dada, considerando cada miembro de la población.[18] Por ejemplo, la media poblacional de la altura es igual a la suma de las alturas de cada individuo dividida por el número total de individuos. La media de la muestra puede diferir de la media de la población, especialmente en el caso de muestras pequeñas. La ley de los grandes números establece que cuanto mayor sea el tamaño de la muestra, más probable será que la media de la muestra se acerque a la media de la población.[19]
Subpoblación
editarUn subconjunto de una población que comparte una o más propiedades adicionales se denomina subpoblación[20]. Por ejemplo, si la población es toda egipcia, una subpoblación son todos hombres egipcios; si la población son todas las farmacias del mundo, una subpoblación son todas las farmacias de Egipto. Por el contrario, una muestra es un subconjunto de una población que no se elige para compartir ninguna propiedad adicional.
Las estadísticas descriptivas pueden producir resultados diferentes para diferentes subpoblaciones[21]. Por ejemplo, un medicamento en particular puede tener diferentes efectos en diferentes subpoblaciones, y estos efectos pueden ocultarse o descartarse si dichas subpoblaciones especiales no se identifican y examinan de forma aislada.
De manera similar, a menudo se pueden estimar parámetros con mayor precisión si se separan subpoblaciones: la distribución de alturas entre las personas se modela mejor considerando a hombres y mujeres como subpoblaciones separadas, por ejemplo.
Las poblaciones que constan de subpoblaciones pueden modelarse mediante modelos de mezcla, que combinan las distribuciones dentro de las subpoblaciones en una distribución de población general[22]. Incluso si las subpoblaciones están bien modeladas por modelos simples dados, la población general puede no ajustarse correctamente a un modelo simple dado; un ajuste deficiente puede ser evidencia de la existencia de subpoblaciones. Por ejemplo, dadas dos subpoblaciones iguales, ambas distribuidas normalmente, si tienen la misma desviación estándar, pero medias diferentes, la distribución general exhibirá una baja curtosis en relación con una única distribución normal: las medias de las subpoblaciones recaen sobre los hombros de la distribución general[23]. Si están suficientemente separados, estos forman una distribución bimodal; de lo contrario, simplemente tiene un pico ancho. Además, presentará sobredispersión en relación con una única distribución normal con la variación dada. Alternativamente, dadas dos subpoblaciones con la misma media, pero diferentes desviaciones estándar, la población general exhibirá una alta curtosis, con un pico más agudo y colas más pesadas (y, en consecuencia, hombros menos profundos) que una sola distribución[24].
Encuesta utilizando estocástica
editarPara describir al menos aproximadamente poblaciones que no se han registrado por completo, se utilizan métodos estocásticos[25], en particular estadísticas matemáticas. A partir de la recopilación de datos de una muestra que se supone representativa de la población, se extraen conclusiones sobre la población real que se busca. En la investigación empírica, esto se denomina, entre otras cosas, población o población objetivo.
Por ejemplo, en la investigación electoral no se pregunta a toda la población elegible sobre sus preferencias partidistas, sino que se recolecta una muestra cuyas características (edad, género, lugar de residencia, etc.) reflejan las condiciones que existen en la población. Los datos recogidos a través de encuestas utilizando una muestra se extrapolan a la población mediante métodos estadísticos y así producen un pronóstico electoral. En este caso, la población se define como la cantidad de personas que votarán por un partido específico (identificador) en una fecha electoral específica. En este caso, también se registra a toda la población contando todos los votos emitidos después de la elección real. Este ejemplo también deja claro que la descripción empírica de las poblaciones no siempre es independiente de la población real: la recopilación de pronósticos electorales por sí sola puede influir en el comportamiento electoral y, por tanto, en las poblaciones reales. El efecto es difícil de caracterizar y, por tanto, se considera indeseable en elecciones democráticas. Se evita en la medida de lo posible, por ejemplo no publicando previsiones electorales,[26]
La población objetivo definida (por ejemplo, todos los alemanes mayores de 18 años) a menudo no es idéntica a la población real de la que se extrae la muestra, por ejemplo para una encuesta electoral.[27] Esto se debe a que algunos elementos de la población tienen pocas posibilidades o ninguna de ser incluidos en la muestra que otros. Esto incluye personas en instituciones (por ejemplo, residencias de estudiantes , prisiones, cuarteles), personas móviles como barqueros del interior, pero también algunas personas sin hogar ( cobertura insuficiente ). En la práctica, la conclusión de la muestra a la población objetivo se ve influenciada adicionalmente por la falta de respuesta.(también conocido como abandono). Se refiere a la falta de respuesta a una encuesta por parte de elementos de la población que ya han sido incluidos en la muestra.
Véase también
editarReferencias
editar- ↑ «Glossary of statistical terms: Population». Statistics.com. Consultado el 22 de febrero de 2016.
- ↑ Feller, William (1950). Introduction to Probability Theory and its Applications, Vol I. Wiley. стр. 221. ISBN 0471257087.
- ↑ Weisstein, Eric W. «Población estadística». En Weisstein, Eric W, ed. MathWorld (en inglés). Wolfram Research.
- ↑ Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd edición). New York: Freeman. ISBN 978-0-7167-4773-4. Archivado desde el original el 9 de febrero de 2005. Consultado el 23 de enero de 2021.
- ↑ «Glossary of statistical terms: Sample». Statistics.com. Consultado el 22 de febrero de 2016.
- ↑ Ross, Sheldon M. (2019). Introduction to probability models (Twelfth edition of 1972 original edición). London: Academic Press. ISBN 978-0-12-814346-9. MR 3931305. doi:10.1016/C2017-0-01324-1.
- ↑ Bayes, T. An Essay towards Solving a Problem in the Doctrine of Chances. (1763) J. Millar 50 pag. ISBN: 978-1171265403
- ↑ Graunt, J. Natural and Political Observations Made upon the Bills of Mortality. (1662) William Godbid.
- ↑ Laplace, P. S. Théorie Analytique des Probabilités (Analytical Theory of Probability) (1812) Courcier 644 pag. ISBN: 978-1163156543
- ↑ Gauss, C. F. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solis Servatorum (Theory of the Motion of Heavenly Bodies Moving about the Sun in Conic Sections) (1809) E. Kummer 484 pag. ISBN: 978-3732617114
- ↑ Casella, G., & Berger, R. L. Statistical Inference (2002) Duxbury Press. 648 pag. ISBN: 978-0534243128
- ↑ a b c Cochran, W. G. Sampling Techniques (3rd ed.) (1977) John Wiley & Sons. 428 pag. ISBN: 978-0471162407
- ↑ Mood, A. M., Graybill, F. A., & Boes, D. C. Introduction to the Theory of Statistics (1974) McGraw-Hill Education 555 pag. ISBN: 978-0070421938
- ↑ a b Fisher, R. A. (1935). The Design of Experiments. (1935) Oliver & Boyd 278 pag. ISBN: 978-0412231800
- ↑ Feller, William (1950). Introduction to Probability Theory and its Applications, Vol I. Wiley. p. 221. ISBN 0471257087.
- ↑ Elementary Statistics by Robert R. Johnson and Patricia J. Kuby, p. 279
- ↑ Weisstein, Eric W. «Population Mean». mathworld.wolfram.com (en inglés). Consultado el 21 de agosto de 2020.
- ↑ OpenIntro Statistics, 3rd edition by Diez, Barr, and Cetinkaya-Rundel
- ↑ Schaum's Outline of Theory and Problems of Probability by Seymour Lipschutz and Marc Lipson, p. 141
- ↑ Shao, Jun (1998), Mathematical Statistics, Springer, ISBN 0-387-98674-X.
- ↑ Jaynes, E. T. (2007), Probability Theory: The logic of science (5 edición), Cambridge University Press, ISBN 978-0-521-59271-0.
- ↑ Bol'shev, Login Nikolaevich (2001), "Statistical estimator", Encyclopedia of Mathematics, EMS Press.
- ↑ Barbara Illowsky; Susan Dean (2014). Introductory Statistics. OpenStax CNX. ISBN 9781938168208.
- ↑ Kosorok, Michael (2008). Introduction to Empirical Processes and Semiparametric Inference. Springer Series in Statistics. Springer. ISBN 978-0-387-74978-5. doi:10.1007/978-0-387-74978-5.
- ↑ David Stirzaker (2005). Stochastic Processes and Models. Oxford University Press. p. 45. ISBN 978-0-19-856814-8.
- ↑ Surveys and polling. American Statistical Association. June 2020. [1]
- ↑ Rainer Schnell: Zur faktischen Grundgesamtheit bei „allgemeinen Bevölkerungsumfragen“: Undercoverage, Schwererreichbare und Nichtbefragbare. In: Kölner Zeitschrift für Soziologie und Sozialpsychologie. Band 43. Oldenbourg Wissenschaftsverlag, München 1991, S. 106–137.
Bibliografía
editar- Walter Assenmacher: Induktive Statistik. 1. Auflage. Springer, Berlin 2000, ISBN 978-3-540-67145-9, S. 185