泊松分布
使用条件
泊松分配仅适用于几个条件持有。
泊松分布的条件:
- 活动可以在时间段内发生任何次数。
- 事件独立发生。换句话说,如果发生事件,它不会影响在同一时间段内发生的另一个事件的概率。
- 发生率是恒定的;也就是说,速率不会根据时间改变。
- 事件发生的概率与时间的长短成正比。例如,事件在2小时内发生的可能性应该是事件在1小时内发生的两倍。
例如,如果他们知道他们在该时间段期间每小时平均4个电话,则泊松分发适合建模办公室将在中午时间接收的电话。
- 虽然平均值是4个电话,但它们在理论上可以在该时间段内获得任何呼叫。
- 事件有效地独立,因为没有理由期望呼叫者影响另一个人呼叫的机会。
- 可以假设出现率是恒定的。
- 假设(例如)前半小时内接听电话的概率是合理的,与最终半小时接到呼叫的可能性相同。
当然,这种情况不是绝对的完美的泊松分布的理论适合。例如,办公室在时间段期间肯定无法接收亿万的呼叫,因为少于一万亿人民活着拨打电话。实际上,这种情况足够接近,泊松分销做得很好地建模情况的行为。
下面的问题给出了泊松分布是如何衍生的一个想法:
泊松分布的概率
鉴于这种情况遵循泊松分布,有一种公式,可以计算观察的可能性 的任意非负整数值在一段时间内的事件 .
让 是离散随机变量这表示在给定时间段内观察到的事件数量。让 是期望值(平均)的 .如果 服从泊松分布,则观测概率 时间段的事件是
在哪里 是欧拉数.
在世界杯中,平均每场比赛进球2.5个进球。用泊松分布建模这种情况,有什么可能性 目标是在比赛中得分?
在这种情况下, .上述式直接应用:
的值没有上限 对于该公式,虽然概率快速接近0 增大。
泊松分布可用于计算“小于”和“超过”的概率法治和补充的概率.
统计学家记录接近交叉路口的汽车数量。他发现平均每分钟都有1.6辆汽车接近十字路口。
假设这种交叉路口的汽车数量遵循泊松分布,3个或更多辆汽车在一分钟内接近交叉口的可能性是什么?
对于这个问题, 这个问题的目标是找到 有3辆或更多辆汽车在一分钟内接近交叉路口的概率。由于价值没有上限 此概率不能直接计算。但是,它的补充, 可以计算给予
因此,一分钟内有3辆或3辆以上的汽车接近十字路口的概率近似为
泊松分布还有其他一些应用,它们来自于更开放的问题。例如,它可以用来帮助确定呼叫中心所需的人员数量。
呼叫中心平均每5分钟接收4.5次呼叫。每个座席可以在5分钟内处理其中一个呼叫。如果接到了电话,但没有业务代表可以接听,那么该来电者将被保持。假设呼叫遵循泊松分布,需要多少值班人员才能使呼叫在最多10%的时间内处于等待状态?
为了让所有呼叫所采取的呼叫,值班的代理人数应大于或等于收到的呼叫数量。如果 是收到的呼叫数量 是代理的数量,然后 应该设定这样 或者说,
平均呼叫数是4.5,所以
如果目标是确保持有不到10%的呼叫,那么 应该有特工值班。
泊松分布的性质
的期望值泊松分布应该不令人惊讶,因为每个泊松分布由其预期价值定义。
Poisson随机变量的预期价值:
给定一个离散随机变量 遵循与参数的泊松分布 这个变量的期望值是
通过定义期望值,
在哪里 仅仅意味着 其中一个可能的值是随机变量 .应用这种泊松分布,
在重新调节 和泰勒系列 是使用。
的方差泊松分布也方便地简单。
泊松随机变量方差:
给定一个离散随机变量 遵循与参数的泊松分布 这个变量的方差是
证据涉及例程(但计算密集的)计算 .然后使用公式方差
我们有 .
的模式只是稍微复杂一些:
泊松随机变量的方式:
如果 不是整数,具有参数的泊松分布的模式 是 .否则,无论是 和 是模式。
Poisson随机变量的中位数:
中位数 与参数的泊松分布 满足
两个独立泊松随机变量的总和是泊松随机变量。
独立泊松随机变量的总和:
让 和 是具有参数的泊松随机变量 和 , 分别。如果 和 是独立的,然后 是一个带参数的泊松随机变量 它的分布可以用公式描述
此外,泊松分布可以被认为是极限情况二项分布.如果有 独立试验, 试验成功的概率是多少 保持不变,那么这种二项分布将表现为泊松分布 接近无限。
泊松限制定理:
作为 趋于无穷时, 方法 这样 是一个常数 带参数的二项分布 和 近似为带参数 :
这可以通过考虑时刻生成函数的收敛意味着分布的收敛来证明这一点可以证明。
实际应用
泊松分布的典型例子是普鲁士士兵不慎被马踢死亡,由于是泊松分布的应用到真实世界的大型数据集的第一个例子的数量。十军团观察到超过20年,共计200个观察,122名士兵被马踢在这段时间内死亡。现在的问题是有多少人死亡可以预期在一段一年,这原来是由泊松分布能够良好地建模 与
死亡数量 | 预测% | 预期的出现数量 | 实际发生次数 |
0 | 54.34 | 108.67 | 109. |
1 | 33.15 | 66.29 | 65. |
2 | 10.11 | 20.22 | 22. |
3. | 2.05 | 4.11 | 3. |
4 | 0.32 | 0.63 | 1 |
5 | 0.04 | 0.08 | 0 |
6 | 0.01 | 0.01 | 0 |
对这一数据的解释很重要:因为泊松分布测量的是在统计随机性假设下事件发生的频率,预期分布与实际数据的一致性表明,实际数据确实是由随机性造成的。如果实际数据造成的死亡人数超过预期,则应寻求另一种解释(例如,训练不足、巧妙而狡猾的敌人阴谋等)。
泊松分布在确定特定时间段发生的概率时也是有用的。例如,如果办公室平均每小时12个呼叫,则可以计算在一小时内接收至少20个呼叫的可能性
这意味着他们可以放心地让手头的员工只处理20个电话。当然,阈值的选择取决于环境;例如,急诊室可能仍然希望有额外的人手。
总之,应用程序列表很长。的最近研究现象的部分列表[1]服从泊松分布是如下所示:
- 每次单位单位DNA的给定链中的突变数量
- 一个月内提交的破产人数
- 一小时内洗车的抵达数量
- 每天的网络故障数量
- 在24小时内,数据中心的文件服务器病毒感染数量
- 每10万飞行小时,空客330飞机引擎关闭次数
- 一个小时内到达无预约诊所的哮喘患者人数
- 每天进入麦当劳餐厅的饥饿人数
- 在给定的生产时间上有关的工作事故数量
- 一段时间内出生、死亡、结婚、离婚、自杀和谋杀的人数
- 每月打电话投诉服务问题的客户数量
- 每分钟访问一个网站的人数
- 拨打消费者热线在5分钟内的数
- 小企业每分钟的电话数
- 在下午3点之间的抵达抵达的抵达人数。和下午4点1月份在堪萨斯州的股票代。
另请参阅
参考
西新英格兰大学。泊松概率分布的应用.2016年2月9日从http://www.aabri.com/SA12Manuscripts/SA12083.pdf检索。