二项分布
正式的定义
求二项分布
确定二项分布很简单,但计算起来很繁琐。如果有 伯努利试验,每个试验都有一个概率 成功的概率,那么准确的概率 成功是
它被写成 ,表示随机变量 等于 ,或者 ,用参数表示二项分布 和 .
以上公式是由精确选择推导出来的 的 成功的考验是存在的 选择,然后考虑每一次成功的试验都有一个概率 每一次被标记为失败的试验都有一个概率 导致失败的可能性。的二项式系数 借用二项分布的名字。
考虑一枚带有概率的正面朝上的加权硬币 .如果硬币被抛5次,得到的二项分布是什么?
这个二项式实验包括5个试验,a 价值的 ,成功的次数为0、1、2、3、4或5次。因此,以上公式直接适用:
值得注意的是,最可能的结果是抛一个头,这将在下面讨论分布模式时进一步探讨。
这可以用图示表示,如下表所示:
二项分布的性质
有几个重要的值可以提供关于特定概率分布的信息。最重要的几点如下:
- 的的意思是,或期望值,提供了关于人们从大量重复试验中期望得到的平均结果的有用信息。
- 的中位数是集中趋势的另一个度量,当分布包含离群值(即特别大/小的值)使平均值具有误导性。
- 的模式一个分布的值是具有最高发生概率的值。
- 的方差分布度量数据的“散布”程度。相关的是标准偏差,方差的平方根,由于与数据的单位相同,所以很有用。
这些值中的三个——平均值、众数和方差——对于二项分布通常是可计算的。然而,中位数通常是不确定的。
二项分布的均值是直观的:
的均值 是
换句话说,如果一枚非均匀硬币有概率抛向正面 是翻 时间,预期的结果将是 正面。
让 是代表伯努利试验概率的随机变量 的成功。然后 通过定义。通过线性的期望,
可以使用类似的策略来确定方差:
的方差 是 .
自方差为添加剂,可使用与上述类似的证明:
因为一个伯努利试验的方差是 .
然而,这种模式稍微复杂一些。在大多数情况下,模式是 ,但如果 都是整数吗 和 是模式。此外,在一些琐碎的例子中 和 ,模式为0和 分别。
的模式 是
实际应用
二项分布适用于大多数情况,在这种情况下,一个特定的目标结果是已知的,通过指定目标为“成功”,而其他任何目标为“失败”。下面是一个例子:
骰子滚动3次。没有6出现的概率是多少?
在这个二项式实验中,掷出6以外的任何数都是成功的,掷出6就是失败的。因为有三次试验,期望的概率是
这也可以通过指定掷出6表示成功,掷出其他任何东西表示失败来实现。那么期望的概率是
就像之前。
二项分布在分析一系列潜在结果时也很有用,而不仅仅是分析某个特定结果的概率:
小部件制造商知道他生产的小部件有20%是有缺陷的。如果他每天生产10件产品,其中最多两件产品有缺陷的概率是多少?
在这个二项式实验中,制造一个可工作的部件是成功的,而制造一个有缺陷的部件则是失败的。制造商需要至少8次成功,使概率
这个例子还说明了与直觉的重要冲突:通常,当要求10个部件中有8个部件没有缺陷时,人们期望80%的成功率是合适的。然而,以上计算表明,80%的成功率只会导致至少8次成功,少于68%的时间!
由于一个相关的原因,这个计算特别重要:由于制造商知道他的错误率和他的配额,他可以使用二项分布来确定他必须生产多少产品,以获得足够高的概率满足他的无缺陷产品配额。
二项测试
与最后一节的最后一个音符有关二项测试是否有检测方法统计显著性.最常见的是,它被用来拒绝一致性的原假设;例如,它可以用来表示硬币或骰子是不公平的。换句话说,它用来表明给定的数据在公平的假设下是不可能的,因此假设很可能是错误的。
一枚硬币被抛100次,结果是61次正面和39次反面。硬币公平吗?
零假设是硬币是均匀的,在这种情况下,抛至少61次正面的概率是
或 .
确定这一结果是否具有统计学意义取决于所需的置信水平;这足以在5%的水平上拒绝零假设,而不是1%的水平。由于最常用的置信水平是5%,这通常被认为足以得出硬币是不公平的结论。