正态分布
这个正态分布,也称为高斯分布,是A.概率分布通常用于模拟现象,如物理特征(例如高度,重量等)和测试分数。由于其形状,它通常被称为钟形曲线:
很大程度上中心极限定理,即使基础分布已知为非正态分布,正态分布也是适当的近似值。这是方便的,因为正态分布很容易获得估计;这个经验法则表示68%的正态分布建模数据落在平均值的1个标准偏差内,95%落在2个标准偏差内,99.7%落在3个标准偏差内。出于显而易见的原因,经验法则有时也被称为68-95-99.7法则。
此外,正态分布表现出许多优良的简化特性,其中许多特性可以从上图中观察到。它是对称和单峰的,这意味着平均值、中位数和模式他们都是平等的。此外,它还有“细长的尾巴”,直观上意味着它“逐渐变细”,正式上意味着它有一个久星病0。
内容
正规性与中心极限定理
许多物理现象,如身高和体重,密切关注正常分布。由于正常分布到处都是正常的,这一目了如量,这一点逆向推动,但显然不可能具有负高度,但正常的分布具有足够的尾部,这些概率可以忽略不计。
直觉上,正态分布足够“好”以至于我们期望它自然发生,除非有充分的理由相信不是这样。这种直觉是由中心极限定理,哪些说明:
平均值的概率分布 独立,相同分布(IID)随机变量会聚到大型的正态分布
事实上 通常足以观察到收敛。直观地说,这意味着可以表示为独立因素组合的特征可以用正态分布很好地表示。例如,如果我们投掷一枚硬币多次,人头的数量可以被视为许多iid的总和随机变量因此,由钟曲线表示良好:
许多自然现象也可以以这种方式进行建模。例如,测量仪器(例如望远镜)的准确性可以被视为许多独立部分的制造功效的组合,因此是通过正态分布建模的良好候选者。
正常分布在抽样中特别有用,因为中央极限定理还意味着平均分布简单随机样本是正常的。例如,如果我们轮询了许多选民,他们是否喜欢(价值1)或不喜欢(价值0)一位政治家,只要选民是独立的,那么政治家的批准评级将正常分布无论选民对他们的意见(他们的意见会影响分布的平均值和方差,但不是其形状)。这对Pollssers有用,因为可以使用下一节中的经验规则来相对容易地完成“错误的边缘”。
值得注意的是,并非所有现象都能很好地用正态分布来建模。即使一种现象可能表现为许多因素的组合,如果其中一个因素超过其他因素,那么分布通常也不正常。
历史测验的学生分数可能是非正常的,因为他们的表现是他们在课堂前读取材料的主导。分布可能是左偏移的。
同样,如果因素不是独立的-e.g。如果上述示例中的选民可以在回答之前听到彼此的回答,那么正常通常也会分解。
2008年的金融危机是可谓的,这些金融危机是由长期遵守股票价格正常的假设造成的,其实仍有畜群心理促使迅速升起/降价。贡献因素之间的依赖性导致分布,尾部的分布比正常分布在一起。
一般来说,这些是粗略的拇指规则,以确定正常性假设是否合适:
拥有 | 失败 |
相似分布的合并 | 由一个(或少数)特定分布主导 |
贡献因素是独立的 | 贡献因素之间的依赖性 |
样本选择是一致随机的 | 样本选择与先前的选择相关 |
更正式地,有几种统计测试,最值得注意的是Pearson的Chi Squared测试,以确定正态性假设是否有效。
经验法则
这个经验法则, 或者68-95-99.7规则,指出,正常分布建模的68%的数据在2个标准偏差范围内的平均值,95%的标准偏差范围内下降,而在3个标准偏差范围内为99.7%。例如,IQ旨在具有100的平均值和15的标准偏差,这意味着68%的人之间有IQ 和 95%的人的智商在70到130之间,99.7%的人的智商在55到145之间。
这使得正常分布易于获得快速估计,这对于轮询目的特别有用,因为可以简单地报告为错误的误差 标准偏差(例如,候选人的审批评级可能为70% 3%). 对于更精确和更一般的计算,我们使用 -得分:
这个 -观察的分数是偏离其平均值的标准偏差数。正式地,如果 是分布的标准偏差, 是分布的平均值,和 那么价值是多少
例如, -智商分数为121的分数为 .该值在许多统计测试中使用,最常见的是 -测试.通过计算钟曲线下的区域,a -score提供随机变量的概率,该分布具有小于的值 -得分。
A. -score表通常采用以下形式,其中列确定了百分点 -score和行确定第十个和单位数字。
.00 | .01 | .02 | .03 | .04 | .05 | .06 | .07 | .08 | .09 | |
-3.4 | .0003 | .0003 | .0003 | .0003 | .0003 | .0003 | .0003 | .0003 | .0003 | .0002 |
-3.3. | .0005 | .0005 | .0005 | .0004 | .0004 | .0004 | .0004 | .0004 | .0004 | .0003 |
-3.2 | .0007 | .0007 | .0006 | .0006 | .0006 | .0006 | .0006 | .0005 | .0005 | .0005 |
-3.1. | .0010 | .0009 | .0009 | .0009 | .0008 | .0008 | .0008 | .0008 | .0007 | .0007 |
-3.0 | .0013 | .0013 | .0013 | .0012 | .0012 | .0011 | .0011 | .0011 | .0010 | .0010 |
–2.9 | .0019 | .0018 | .0018 | .0017 | .0016 | .0016 | .0015 | .0015 | .0014 | .0014 |
–2.8 | .0026 | .0025 | .0024 | .0023 | .0023 | .0022 | .0021 | .0021 | .0020 | .0019 |
–2.7 | .0035 | .0034 | .0033 | .0032 | .0031 | .0030 | .0029 | .0028 | .0027 | .0026 |
–2.6 | .0047 | .0045 | .0044 | .0043 | .0041 | .0040 | .0039 | .0038 | .0037 | .0036 |
–2.5 | .0062 | .0060 | .0059 | .0057 | .0055 | .0054 | .0052 | .0051 | .0049 | .0048 |
–2.4 | .0082 | .0080 | .0078 | .0075 | .0073 | .0071 | .0069 | .0068 | .0066 | .0064 |
–2.3 | .0107 | .0104 | .0102 | .0099 | .0096 | .0094 | .0091 | .0089 | .0087 | .0084 |
–2.2 | .0139 | .0136 | .0132 | .0129 | .0125 | .0122 | .0119 | .0116 | .0113 | .0110 |
–2.1 | .0179 | .0174 | .0170 | .0166 | .0162 | .0158 | .0154 | .0150 | .0146 | .0143 |
–2.0 | .0228 | .0222 | .0217 | .0212 | .0207 | .0202 | .0197 | .0192 | .0188 | .0183 |
-1.9 | .0287 | .0281 | .0274 | .0268 | .0262 | .0256 | .0250 | .0244 | .0239 | .0233 |
-1.8. | .0359 | .0351 | .0344 | .0336 | .0329 | .0322 | .0314 | .0307 | .0301 | .0294 |
-1.7 | .0446 | .0436 | .0427 | .0418 | .0409 | .0401 | .0392 | .0384 | .0375 | .0367 |
-1.6. | .0548 | .0537 | .0526 | .0516 | .0505 | .0495 | .0485 | .0475 | .0465 | .0455 |
-1.5 | .0668 | .0655 | .0643 | .0630 | .0618 | .0606 | .0594 | .0582 | .0571 | .0559 |
-1.4 | .0808 | .0793 | .0778 | .0764 | .0749 | .0735 | .0721 | .0708 | .0694 | .0681 |
-1.3 | .0968 | .0951 | .0934 | .0918 | .0901 | .0885 | .0869 | .0853 | .0838 | .0823 |
-1.2 | .1151 | .1131 | .1112 | .1093 | .1075 | .1056 | .1038 | .1020 | .1003 | .0985 |
-1.1. | .1357 | .1335 | .1314 | .1292 | .1271 | .1251 | .1230 | .1210 | .1190 | .1170 |
-1.0 | .1587 | .1562 | .1539 | .1515 | .1492 | .1469 | .1446 | .1423 | .1401 | .1379 |
-0.9 | .1841 | .1814 | .1788 | .1762 | .1736 | .1711 | .1685 | .1660 | .1635 | .1611 |
-0.8 | .2119 | .2090 | .2061 | .2033 | .2005 | .1977 | .1949 | .1922 | .1894 | .1867 |
-0.7 | .2420 | .2389 | .2358 | .2327 | .2296 | .2266 | .2236 | .2206 | .2177 | .2148 |
-0.6. | .2743 | .2709 | .2676 | .2643 | .2611 | .2578 | .2546 | .2514 | .2483 | .2451 |
-0.5. | .3085 | .3050 | .3015 | .2981 | .2946 | .2912 | .2877 | .2843 | .2810 | .2776 |
-0.4 | .3446 | .3409 | .3372 | .3336 | .3300 | .3264 | .3228 | .3192 | .3156 | .3121 |
-0.3 | .3821 | .3783 | .3745 | .3707 | .3669 | .3632 | .3594 | .3557 | .3520 | .3483 |
-0.2 | .4207 | .4168 | .4129 | .4090 | .4052 | .4013 | .3974 | .3936 | .3897 | .3859 |
-0.1 | .4602 | .4562 | .4522 | .4483 | .4443 | .4404 | .4364 | .4325 | .4286 | .4247 |
-0.0. | .5000 | .4960 | .4920 | .4880 | .4840 | .4801 | .4761 | .4721 | .4681 | .4641 |
0.1 | .5398 | .5438 | .5478 | .5517 | .5557 | .5596 | .5636 | .5675 | .5714 | .5753 |
0.2 | .5793 | .5832 | .5871 | .5910 | .5948 | .5987 | .6026 | .6064 | .6103 | .6141 |
0.3 | .6179 | .6217 | .6255 | .6293 | .6331 | .6368 | .6406 | .6443 | .6480 | .6517 |
0.4 | .6554 | .6591 | .6628 | .6664 | .6700 | .6736 | .6772 | .6808 | .6844 | .6879 |
0.5 | .6915 | .6950 | .6985 | .7019 | .7054 | .7088 | .7123 | .7157 | .7190 | .7224 |
0.6 | .7257 | .7291 | .7324 | .7357 | .7389 | .7422 | .7454 | .7486 | .7517 | .7549 |
0.7 | .7580 | .7611 | .7642 | .7673 | .7704 | .7734 | .7764 | .7794 | .7823 | .7852 |
0.8 | .7881 | .7910 | .7939 | .7967 | .7995 | .8023 | .8051 | .8078 | .8106 | .8133 |
0.9 | .8159 | .8186 | .8212 | .8238 | .8264 | .8289 | .8315 | .8340 | .8365 | .8389 |
1.0 | .8413 | .8438 | .8461 | .8485 | .8508 | .8531 | .8554 | .8577 | .8599 | .8621 |
请注意 - 与经验规则对齐。读桌子,关于 数据低于-1标准偏差,与平均值和约为 数据的平均值低于1个标准差。因此,大约 所有数据的标准差介于-1和1之间。
考虑一个具有正态分布的人口 和标准偏差 .随机选择的值是否定的概率是多少?阳性怎么样?
负数是小于的任何数 ,所以第一步是找到 - 与之关联 .那是 . 通过查找包含前两个数字的行 的 - 使用下一位数字选择并选择列 我们发现与值相关的表中的值 是 ,所以有一个 价值是消极的概率。有一个 或77.34%是积极的概率。
请注意,曲线下的面积可以使用积分微积分,只要概率密度函数已知。特别是,如果此功能是 我们看一个“标准”正态分布(即平均值0和标准偏差1),然后 - 它的条目 -core 可以表示为 .例如,经验规则可以概括
我们将看看如何确定 之后。
特性
正常分布有两个重要属性,使其成为概率分布。
平均值 正态分布是正态的,不管 .
存在具有此属性的其他发行版,并调用它们稳定的分布.但是,正常分布是对称的唯一稳定分布,并且具有有限的方差。这些总和被称为多变量正态分布.
给出了从正常分布的随机变量的简单随机样本,样本均值和样本方差是独立的。
此属性是唯一的(在所有概率分布中)到正常分布。它强调了钟曲线的总体对称性和“平衡”。
直方图显示通常分布式随机可变变量的样本如何在样本大小增加时钟曲线。以下图表是随机变量的采样,具有正常分布的平均值 和标准偏差 .
请注意,随着时间的推移,图是如何变得越来越对称的 增加。某个区域中的数量的比例也开始具有固定比率。例如,随着经验规则的表明, 最后一个图中的数字出现在 和 .实际上,所有正态分布都具有这些比例和表格 -Scores用于确定确切的比例。
发布了一款新产品,并调查要求客户在1到100之间给予产品。首先,当受试者的数量 仍然相对较低,公司无法从调查中提取大量信息。例如,经过四个人进行了调查,一个人评分为92,一个评为72,一个评为63,最后一个评为34.然而,随着更多客户的调查,公司能够创建显示结果的直方图。一旦采取了5,000个调查,该公司发现普通人评分了100分中的产品A 67,其余分数通常在从那里分布在钟表中(标准偏差为9)。基于此,该公司决定其产品不会满足客户的欲望。
形式定义和推导
正常分布与平均值 和方差 表示 .它的概率密度函数是
累积密度函数没有闭合表达式表达式。
如果 和 是独立的正常随机变量,与 和 , 然后 .
钟曲线是二元系统的概率密度曲线。然后从介质中的一些位移处的概率是
使用斯特林的近似和治疗 , 我们有
为了 , ; 因此,就大局而言,
取对数得出
对于小而 , ;随后,
或者
自从 比速度更快地消失 非常大 ,我们到达结果