En teoría de la probabilidad y estadística , la distribución hipergeométrica es una distribución de probabilidad discreta relacionada con muestreos aleatorios y sin reemplazo. Suponga que se tiene una población de
N
{\displaystyle N}
elementos de los cuales,
K
{\displaystyle K}
pertenecen a la categoría
A
{\displaystyle A}
y
N
−
K
{\displaystyle N-K}
pertenecen a la categoría
B
{\displaystyle B}
. La distribución hipergeométrica mide la probabilidad de obtener
x
{\displaystyle x}
(
0
≤
x
≤
K
{\displaystyle 0\leq x\leq K}
) elementos de la categoría
A
{\displaystyle A}
en una muestra sin reemplazo de
n
{\displaystyle n}
elementos de la población original.
Distribución Hipergeométrica Parámetros
N
∈
{
0
,
1
,
2
,
…
}
{\displaystyle N\in \{0,1,2,\dots \}}
K
∈
{
0
,
1
,
2
,
…
,
N
}
{\displaystyle K\in \{0,1,2,\dots ,N\}}
n
∈
{
0
,
1
,
2
,
…
,
N
}
{\displaystyle n\in \{0,1,2,\dots ,N\}\,}
Dominio
max
{
0
,
n
−
N
+
K
}
≤
x
≤
min
{
K
,
n
}
{\displaystyle \max\{0,n-N+K\}\leq x\leq \min\{K,n\}}
Función de probabilidad (fp)
(
K
x
)
(
N
−
K
n
−
x
)
(
N
n
)
{\displaystyle {{{K \choose x}{{N-K} \choose {n-x}}} \over {N \choose n}}}
Media
n
K
N
{\displaystyle nK \over N}
Moda
⌊
(
n
+
1
)
(
K
+
1
)
N
+
2
⌋
{\displaystyle \left\lfloor {\frac {(n+1)(K+1)}{N+2}}\right\rfloor }
Varianza
n
K
N
(
N
−
K
N
)
(
N
−
n
N
−
1
)
{\displaystyle {\frac {nK}{N}}\left({\frac {N-K}{N}}\right)\left({\frac {N-n}{N-1}}\right)}
Coeficiente de simetría
(
N
−
2
K
)
(
N
−
1
)
1
2
(
N
−
2
n
)
[
n
K
(
N
−
K
)
(
N
−
n
)
]
1
2
(
N
−
2
)
{\displaystyle {\frac {(N-2K)(N-1)^{\frac {1}{2}}(N-2n)}{[nK(N-K)(N-n)]^{\frac {1}{2}}(N-2)}}}
Curtosis
[
N
2
(
N
−
1
)
n
(
N
−
2
)
(
N
−
3
)
(
N
−
n
)
]
{\displaystyle \left[{\frac {N^{2}(N-1)}{n(N-2)(N-3)(N-n)}}\right]}
⋅
[
N
(
N
+
1
)
−
6
N
(
N
−
n
)
m
(
N
−
m
)
{\displaystyle \cdot \left[{\frac {N(N+1)-6N(N-n)}{m(N-m)}}\right.}
+
3
n
(
N
−
n
)
(
N
+
6
)
N
2
−
6
]
{\displaystyle +\left.{\frac {3n(N-n)(N+6)}{N^{2}}}-6\right]}
Función generadora de momentos (mgf)
(
N
−
K
n
)
2
F
1
(
−
n
,
−
K
;
N
−
K
−
n
+
1
;
e
t
)
(
N
n
)
{\displaystyle {\frac {{N-K \choose n}\scriptstyle {\,_{2}F_{1}(-n,-K;N-K-n+1;e^{t})}}{N \choose n}}\,\!}
Función característica
(
N
−
K
n
)
2
F
1
(
−
n
,
−
K
;
N
−
K
−
n
+
1
;
e
i
t
)
(
N
n
)
{\displaystyle {\frac {{N-K \choose n}\scriptstyle {\,_{2}F_{1}(-n,-K;N-K-n+1;e^{it})}}{N \choose n}}}
Función de Probabilidad
editar
Una variable aleatoria discreta
X
{\displaystyle X}
tiene una distribución hipergeométrica con parámetros
N
=
0
,
1
,
…
{\displaystyle N=0,1,\dots }
,
K
=
0
,
1
,
…
,
N
{\displaystyle K=0,1,\dots ,N}
y
n
=
0
,
1
,
…
,
N
{\displaystyle n=0,1,\dots ,N}
y escribimos
X
∼
HG
(
N
,
K
,
n
)
{\displaystyle X\sim \operatorname {HG} (N,K,n)}
si su función de probabilidad es
P
[
X
=
x
]
=
(
K
x
)
(
N
−
K
n
−
x
)
(
N
n
)
,
{\displaystyle \operatorname {P} [X=x]={\frac {{K \choose x}{N-K \choose n-x}}{N \choose n}},}
para valores de
x
{\displaystyle x}
comprendidos entre
max
{
0
,
n
−
N
+
K
}
{\displaystyle \max\{0,n-N+K\}}
y
min
{
K
,
n
}
{\displaystyle \min\{K,n\}}
; donde
N
{\displaystyle N}
es el tamaño de población,
n
{\displaystyle n}
es el tamaño de la muestra extraída,
K
{\displaystyle K}
es el número de elementos en la población original que pertenecen a la categoría deseada y
x
{\displaystyle x}
es el número de elementos en la muestra que pertenecen a dicha categoría.
La notación
(
b
a
)
=
b
!
a
!
(
b
−
a
)
!
{\displaystyle {b \choose a}={\frac {b!}{a!(b-a)!}}}
hace referencia al coeficiente binomial , es decir, el número de combinaciones posibles al seleccionar
a
{\displaystyle a}
elementos de un total
b
{\displaystyle b}
.
Si
X
∼
HG
(
N
,
K
,
n
)
{\displaystyle X\sim \operatorname {HG} (N,K,n)}
entonces puede demostrarse que
P
[
X
=
x
+
1
]
=
(
K
−
x
)
(
n
−
x
)
(
x
+
1
)
(
N
−
K
−
n
+
x
−
1
)
P
[
X
=
x
]
{\displaystyle {\begin{aligned}\operatorname {P} [X=x+1]&={\frac {(K-x)(n-x)}{(x+1)(N-K-n+x-1)}}\;\operatorname {P} [X=x]\end{aligned}}}
Si
X
∼
HG
(
N
,
K
,
n
)
{\displaystyle X\sim \operatorname {HG} (N,K,n)}
entonces
X
{\displaystyle X}
cumple algunas propiedades:
El valor esperado de la variable aleatoria
X
{\displaystyle X}
es
E
[
X
]
=
n
K
N
{\displaystyle \operatorname {E} [X]={\frac {nK}{N}}}
y su varianza está dada por
Var
[
X
]
=
n
K
N
(
N
−
K
N
)
(
N
−
n
N
−
1
)
{\displaystyle \operatorname {Var} [X]={\frac {nK}{N}}{\bigg (}{\frac {N-K}{N}}{\bigg )}{\bigg (}{\frac {N-n}{N-1}}{\bigg )}}
La distribución hipergeométrica es aplicable a muestreos sin reemplazo y la binomial a muestreos con reemplazo. En situaciones en las que el número esperado de repeticiones en el muestreo es presumiblemente bajo, puede aproximarse la primera por la segunda. Esto es así cuando N es grande y el tamaño relativo de la muestra extraída, n/N , es pequeño.
Distribuciones Relacionadas
editar
Si una variable aleatoria
X
∼
HG
(
N
,
K
,
1
)
{\displaystyle X\sim \operatorname {HG} (N,K,1)}
entonces
X
∼
Bernoulli
(
K
N
)
{\displaystyle X\sim \operatorname {Bernoulli} \left({\frac {K}{N}}\right)}
.
Si
X
∼
HG
(
N
,
K
,
n
)
{\displaystyle X\sim \operatorname {HG} (N,K,n)}
entonces
X
∼
Binomial
(
n
,
p
)
{\displaystyle X\sim \operatorname {Binomial} (n,p)}
cuando
N
→
∞
{\displaystyle N\to \infty }
y
K
→
∞
{\displaystyle K\to \infty }
de forma tal que
K
/
N
→
p
{\displaystyle K/N\to p}
.