超几何分布

的超几何分布直观地说，是从一组红色和蓝色的玻璃球中抽出的红色玻璃球数量的概率分布，不替换玻璃球。相比之下,二项分布测量红色弹珠的数量的概率分布替换弹珠。这对于观察到的信息不能再次出现的情况是有用的，比如扑克(和其他纸牌游戏)，在扑克游戏中，观察到的纸牌意味着它不会在手中再次出现。它也适用于许多二项分布有用的情况，包括风险管理和统计显著性。

内容

正式的定义
找到超几何分布
超几何分布的性质
实际应用
超几何检验
另请参阅

正式的定义

考虑一个人口和一个属性，其中属性具有两种互斥状态中的一种，并且总体中的每个成员都处于这两种状态中的一种。例如，属性可能是“超过/不到30岁”，“是不是律师”，“通过/不通过测试”，等等。此外，将对总体进行抽样没有替换，意味着抽牌不是独立的:每次抽牌都会影响下一次抽牌，因为每次抽牌都会减少人口规模。

考虑到人口的规模 $N$ 还有人数 $K$ 超几何分布衡量的是精确绘图的概率 $k$ 人们与所需的属性 $n$ 试用

例如，如果已知一袋弹珠中含有10个红色弹珠和6个蓝色弹珠，超几何分布可以用来计算3个弹珠中2个是红色的概率。

找到超几何分布

如果种群大小是 $N$ ，具有所需属性的人数为 $K$ ，而有 $n$ 抽象化，准确抽象化的概率 $k$ 人的理想属性是

$\文本{Pr}(X = k) = f(k;N, K, N) = \压裂{\ binom {K} {K} \ binom {N - K} {N - K}} {\ binom {N} {N}}。$

这个公式可以通过选择推导出来 $k$ 的 $K$ 可能成功 $K \ binom {K} {}$ 方式,然后选择 $(n - k)$ 的 $(n - k)$ 可能的失败 $\ binom {n - k} {n - k}$ ，并最终占总数 $\ binom {N} {N}$ 可能的 $n$ 人吸引。

一袋弹珠中有13颗红色弹珠和8颗蓝色弹珠。如果从袋子里取出5颗弹珠，得到的超几何分布是什么?

这里，种群大小是 $13 + 8 = 21$ ,有 $13$ 带有所需属性(红色)的对象，共有5次绘制。上面的公式可以直接应用:

$\开始{对齐}\文本{Pr}(X = 0) = f(0;5) 21日13日= \压裂{\ binom {13} {0} \ binom {8} {5}} {\ binom{21}{5}} & \大约.003 \ \ \文字{公关}(X = 1) = f (1;5) 21日13日= \压裂{\ binom {13} {1} \ binom {8} {4}} {\ binom{21}{5}} & \大约.045 \ \ \文字{公关}(X = 2) = f (2;5) 21日13日= \压裂{\ binom {13} {2} \ binom {8} {3}} {\ binom{21}{5}} & \大约.215 \ \ \文字{公关}(X = 3) = f (3;5) 21日13日= \压裂{\ binom {13} {3} \ binom {8} {2}} {\ binom{21}{5}} & \大约.394 \ \ \文字{公关}(X = 4) = f (4;5) 21日13日= \压裂{\ binom {13} {4} \ binom {8} {1}} {\ binom{21}{5}} & \大约打击\ \ \文字{公关}(X = 5) = f (5;5) 21日13日= \压裂{\ binom {13} {5} \ binom {8} {0}} {\ binom{21}{5}} & \大约.063。\ \ _ \广场结束{对齐}$

这可以用图形来表示:

超几何分布的性质

有几个重要的值可以给出关于特定概率分布的信息。最重要的是:

的的意思是,或期望值，给出了人们从大量重复试验中预期的平均值的有用信息。
的中位数分布的另一种衡量集中趋势的方法，当分布包含离群值(例如，特别大/小的值)使平均值具有误导性。
的模式一个分布的值是发生概率最高的值。
的方差分布衡量的是数据的“分布”程度。相关的是标准偏差，方差的平方根，由于与数据单位相同，所以很有用。

其中三个值——平均值、众数和方差——对于超几何分布通常是可以计算的。然而，中位数通常不能确定。

均值是直观的，就像a的均值一样二项分布：

的均值 $f (k;N, K, N)$ 是 $\压裂{nK} {N}。$

模式要复杂得多:

的模式 $f (k;N, K, N)$ 是 $\ \ lfloor \离开压裂{(n + 1) (K + 1)} {n + 2} \ \ rfloor。$

方差的影响甚至更大:

的方差 $f (k;N, K, N)$ 是 $n \压裂{K} {n} \压裂{n - K} {n} \压裂{n n} {n}。$

同样值得注意的是，正如预期的那样，每个事件的概率 $k$ 合计为1:

$\ sum_ {k = 0} ^ {n} f (k;N, K, N) = \ sum_ {K = 0} ^ {N} \压裂{\ binom {K} {K} \ binom {N - K} {N - K}} {\ binom {N} {N}} = 1,$

这是什么结果范德蒙的身份．

此外，这个问题的对称性给出了以下等式:

$K \压裂{\ binom {K} {} \ binom {N - K} {N - K}} {\ binom {N} {N}} = \压裂{\ binom {N} {K} \ binom {N N} {K次方}}{\ binom {N} {K}}。$

实际应用

就像在介绍中提到的，纸牌游戏是超几何分布使用的绝佳例证。下面是一个例子:

在德州扑克游戏中，玩家每人发两张私人牌，五张社区牌面朝上。每个玩家用自己的两张私人牌和五张社区牌做出最好的5张牌。某一特定玩家打出黑桃同花(即5黑桃)的概率是多少?

这种情况可以用超几何分布来模拟，即总体大小为52(纸牌数量)，具有所需属性(黑桃)的物体数量为13，共抽7次。玩家需要至少5次成功，所以概率是

$\{对齐}开始f (5;7) + f(52岁,13日6;7) + f(52岁,13日7;7) 52岁,13日& = \压裂{\ binom {13} {5} \ binom {39} {2}} {\ binom{52}{7}} + \压裂{\ binom {13} {6} \ binom {39} {1}} {\ binom{52}{7}} + \压裂{\ binom {13} {7} \ binom {39} {0}} {\ binom {52} {7 }} \\\\ &\ 大约0.0076。\ \ _ \广场结束{对齐}$

一旦已经观察到一些信息，它也可以使用。下面是另一个例子:

鲍勃在玩德州扑克，他的两张私人牌都是黑桃。他拿到黑桃同花的概率是多少?

这种情况可以用超几何分布来模拟，即总体大小为50(剩余纸牌的数量)，剩余具有所需属性(黑桃)的物体的数量为11，共抽5次。玩家至少需要3次成功，所以概率是

$\{对齐}开始f (3;5) + f(50, 11日4;50岁,11日,5)+ f (5;5) & = 50, 11日\压裂{\ binom {11} {3} \ binom {39} {2}} {\ binom{50}{5}} + \压裂{\ binom {11} {4} \ binom {39} {1}} {\ binom{50}{5}} + \压裂{\ binom {11} {5} \ binom {39} {0}} {\ binom {50} {5 }} \\\\ &\ 大约0.064。\ \ _ \广场结束{对齐}$

超几何检验

的超几何检验用于确定统计显著性的画 $k$ 从大小种群中获得具有所需属性的对象 $N$ 与 $K$ 具有所需属性的对象总数。换句话说，它检验一个样本是真正随机的，还是过度(或过少)代表了一个特定的人口。

有关……

内容