超几何分布
的超几何分布直观地说,是从一组红色和蓝色的玻璃球中抽出的红色玻璃球数量的概率分布,不替换玻璃球。相比之下,二项分布测量红色弹珠的数量的概率分布替换弹珠。这对于观察到的信息不能再次出现的情况是有用的,比如扑克(和其他纸牌游戏),在扑克游戏中,观察到的纸牌意味着它不会在手中再次出现。它也适用于许多二项分布有用的情况,包括风险管理和统计显著性。
正式的定义
考虑一个人口和一个属性,其中属性具有两种互斥状态中的一种,并且总体中的每个成员都处于这两种状态中的一种。例如,属性可能是“超过/不到30岁”,“是不是律师”,“通过/不通过测试”,等等。此外,将对总体进行抽样没有替换,意味着抽牌不是独立的:每次抽牌都会影响下一次抽牌,因为每次抽牌都会减少人口规模。
考虑到人口的规模 还有人数 超几何分布衡量的是精确绘图的概率 人们与所需的属性 试用
例如,如果已知一袋弹珠中含有10个红色弹珠和6个蓝色弹珠,超几何分布可以用来计算3个弹珠中2个是红色的概率。
找到超几何分布
如果种群大小是 ,具有所需属性的人数为 ,而有 抽象化,准确抽象化的概率 人的理想属性是
这个公式可以通过选择推导出来 的 可能成功 方式,然后选择 的 可能的失败 ,并最终占总数 可能的 人吸引。
一袋弹珠中有13颗红色弹珠和8颗蓝色弹珠。如果从袋子里取出5颗弹珠,得到的超几何分布是什么?
这里,种群大小是 ,有 带有所需属性(红色)的对象,共有5次绘制。上面的公式可以直接应用:
这可以用图形来表示:
超几何分布的性质
有几个重要的值可以给出关于特定概率分布的信息。最重要的是:
- 的的意思是,或期望值,给出了人们从大量重复试验中预期的平均值的有用信息。
- 的中位数分布的另一种衡量集中趋势的方法,当分布包含离群值(例如,特别大/小的值)使平均值具有误导性。
- 的模式一个分布的值是发生概率最高的值。
- 的方差分布衡量的是数据的“分布”程度。相关的是标准偏差,方差的平方根,由于与数据单位相同,所以很有用。
其中三个值——平均值、众数和方差——对于超几何分布通常是可以计算的。然而,中位数通常不能确定。
均值是直观的,就像a的均值一样二项分布:
的均值 是
模式要复杂得多:
的模式 是
方差的影响甚至更大:
的方差 是
同样值得注意的是,正如预期的那样,每个事件的概率 合计为1:
这是什么结果范德蒙的身份.
此外,这个问题的对称性给出了以下等式:
实际应用
就像在介绍中提到的,纸牌游戏是超几何分布使用的绝佳例证。下面是一个例子:
在德州扑克游戏中,玩家每人发两张私人牌,五张社区牌面朝上。每个玩家用自己的两张私人牌和五张社区牌做出最好的5张牌。某一特定玩家打出黑桃同花(即5黑桃)的概率是多少?
这种情况可以用超几何分布来模拟,即总体大小为52(纸牌数量),具有所需属性(黑桃)的物体数量为13,共抽7次。玩家需要至少5次成功,所以概率是
一旦已经观察到一些信息,它也可以使用。下面是另一个例子:
鲍勃在玩德州扑克,他的两张私人牌都是黑桃。他拿到黑桃同花的概率是多少?
这种情况可以用超几何分布来模拟,即总体大小为50(剩余纸牌的数量),剩余具有所需属性(黑桃)的物体的数量为11,共抽5次。玩家至少需要3次成功,所以概率是
超几何检验
的超几何检验用于确定统计显著性的画 从大小种群中获得具有所需属性的对象 与 具有所需属性的对象总数。换句话说,它检验一个样本是真正随机的,还是过度(或过少)代表了一个特定的人口。