泊松分布
使用条件
泊松分布只有在几个条件成立时才适用。
泊松分布条件:
- 一个事件可以在一个时间段内发生任意次数。
- 独立事件发生。换句话说,如果一个事件发生了,它不会影响同一时间段内另一个事件发生的概率。
- 发生的速率是恒定的;也就是说,速率不随时间变化。
- 事件发生的概率与时间周期的长度成正比。例如,一个事件在2小时内发生的概率应该是在1小时内发生的概率的两倍。
例如,泊松分布适用于建模一个办公室在中午时段将收到的电话数量,如果他们知道在这段时间内平均每小时4个电话。
- 虽然平均是4个电话,但理论上他们可以在这段时间内接到任意数量的电话。
- 事件实际上是独立的,因为没有理由期望一个呼叫者影响另一个呼叫者的机会。
- 可以假定发生率是恒定的。
- 我们可以合理地假设(例如)前半小时接到电话的概率与后半小时接到电话的概率相同。
当然,这种情况并不是绝对的完美的泊松分布的理论拟合。例如,办公室当然不可能在这段时间内接到一万亿的电话,因为只有不到一万亿的人活着可以打电话。实际上,这种情况非常接近,泊松分布可以很好地模拟这种情况的行为。
下面的问题给出了泊松分布是如何推导出来的:
泊松分布的概率
假设一种情况遵循泊松分布,有一个公式可以计算观察到的概率 的任何非负整数值 .
让 是离散随机变量它表示在给定时间段内观察到的事件数量。让 是期望值(平均) .如果 服从泊松分布,则观测概率 在这个时间段内发生的事件是
在哪里 是欧拉数.
在世界杯上,平均每场比赛进2.5球。用泊松分布对这种情况建模,概率是多少 在比赛中进球?
在这种情况下, .以上公式直接适用:
的值没有上限 对于这个公式,虽然概率迅速接近0 增加。
泊松分布可以用来计算“小于”和“大于”的概率规则的总和而且补充的概率.
统计学家记录驶近十字路口的车辆数量。他发现平均每分钟有1.6辆车经过这个路口。
假设接近该交叉口的汽车数量服从泊松分布,一分钟内3辆或更多汽车接近该交叉口的概率是多少?
对于这个问题, 这个问题的目标是找到 一分钟内有3辆或3辆以上汽车接近十字路口的概率。的值没有上限 这个概率不能直接计算出来。然而,它的补充, 可以算给吗
因此,在一分钟内有3辆或3辆以上汽车接近路口的概率是近似的
泊松分布的其他应用来自于更多的开放式问题。例如,它可以用来帮助确定呼叫中心所需的人员数量。
呼叫中心平均每5分钟接到4.5个呼叫。每个代理可以在5分钟内处理其中一个调用。如果收到一个电话,但没有业务代表可以接听,那么该来电者将被保持。假设呼叫遵循泊松分布,使呼叫在最多10%的时间内处于保持状态所需的最小座席数量是多少?
为了使所有电话都能接听,值班的座席数量应大于或等于所接电话的数量。如果 是否已接电话数 那么是代理的数量吗 应该这样设置吗 或者说,
平均通话次数是4.5次,所以
如果目标是确保少于10%的电话被保持,那么 特工应该值班。
泊松分布的性质
的期望值对泊松分布的估计不足为奇,因为每个泊松分布都是由它的期望值定义的。
泊松随机变量期望值:
给定一个离散随机变量 它遵循带参数的泊松分布 这个变量的期望值为
根据定义期望值,
在哪里 仅仅意味着 的一个可能值是随机变量 .把这个应用到泊松分布上,
在重新调节 和泰勒级数 是使用。
的方差泊松分布的近似也很方便简单。
泊松随机变量方差:
给定一个离散随机变量 它遵循带参数的泊松分布 这个变量的方差是
证明涉及到例行的(但计算密集的)计算 .然后用这个公式方差
我们有 .
的模式只是稍微复杂一点:
泊松随机变量模态:
如果 非整数时,带参数的泊松分布的模式 是 .否则,这两个 而且 是模式。
泊松随机变量中位数:
中位数 具有参数的泊松分布 满足
两个独立泊松随机变量的和是一个泊松随机变量。
独立泊松随机变量和:
让 而且 为带参数的泊松随机变量 而且 ,分别。如果 而且 是独立的,那么 是一个带参数的泊松随机变量 它的分布可以用公式来描述
此外,泊松分布可以被认为是极限情况二项分布.如果有 独立的试验, 试验成功的概率,和 保持不变,那么这个二项分布将表现为泊松分布 趋向于无穷。
泊松极限定理:
作为 趋于无穷时, 方法 这样 是一个常数 带参数的二项分布 而且 近似为带参数的泊松分布 :
这可以通过考虑力矩产生函数的收敛意味着分布的收敛这一事实来证明。
实际应用
泊松分布的经典例子是普鲁士士兵意外被马踢致死的数量,因为这是泊松分布应用于现实世界大数据集的第一个例子。在20年的时间里观察了10个军团,总共200次观察,122名士兵在此期间被马踢死。问题是在一年内预计会有多少人死亡,这被证明是用泊松分布很好的模拟出来的 与
#的死亡 | 预测% | 预期发生次数 | 实际发生次数 |
0 | 54.34 | 108.67 | 109 |
1 | 33.15 | 66.29 | 65 |
2 | 10.11 | 20.22 | 22 |
3. | 2.05 | 4.11 | 3. |
4 | 0.32 | 0.63 | 1 |
5 | 0.04 | 0.08 | 0 |
6 | 0.01 | 0.01 | 0 |
对这些数据的解释是重要的:因为泊松分布衡量的是在统计随机性假设下事件的频率,预期分布与实际数据的一致性表明,实际数据确实是由于随机性。如果实际数据导致的死亡人数比预期的要多得多,就应该寻找另一种解释(例如训练不足、敌人的巧妙阴谋等)。
泊松分布在确定给定时间段内发生一定数量事件的概率时也很有用。例如,如果一个办公室平均每小时接到12个电话,他们可以计算出在一小时内接到至少20个电话的概率为
这意味着他们通常只需要足够的员工来处理20个电话就可以了。当然,阈值的选择取决于上下文;例如,急诊室可能仍然希望手头有额外的工作人员。
简而言之,应用程序的列表非常长。下面是最近研究的服从泊松分布的部分现象列表[1]:
- 一个给定的DNA链上每时间单位的突变数量
- 一个月内申请破产的数量
- 一小时内到达洗车店的人数
- 每天网络故障的次数
- 24小时内数据中心的文件服务器病毒感染数
- 每10万飞行小时中空客330飞机发动机关闭的次数
- 在给定的一小时内到达免预约诊所的哮喘患者的数量
- 每天进入麦当劳的饥饿人数
- 在给定的生产时间内与工作有关的事故的数量
- 人口:在一定时期内出生、死亡、结婚、离婚、自杀和杀人的人数
- 每月打电话投诉服务问题的客户数量
- 每分钟访问一个网站的人数
- 5分钟内拨打消费者热线的电话数
- 小企业每分钟的电话数
- 堪萨斯州收费公路上1月份凌晨3点到4点之间每分钟到达收费站的人数。
另请参阅
参考文献
西新英格兰大学。泊松概率分布的应用.检索自2016年2月9日http://www.aabri.com/SA12Manuscripts/SA12083.pdf。