中央限制定理

当中央限制定理是一个关于独立随机变量，它粗略地说，独立随机变量的平均概率分布收敛于a正常分布，随着观察的数量增加。定理的有点令人惊讶的是（在某些自然条件下）基本上没有关于变量本身的概率分布的假设;无论个人概率分布是什么，定理都仍然如此。

让 $X_I.$ 是通过滚动公平模具和录音获得的随机变量

$X_i = \begin{cases} 1&\text{如果骰子显示5或6}\\0&\text{如果骰子显示1、2、3或4}。\{病例}结束$

然后 $X_I.$ 不是正态分布的;它有一个离散概率密度函数，预期价值 $\ frac13.$ 和方差 $\ frac29。$ 中心极限定理说 $\ frac {x_1 + x_2 + \ cdots + x_n} {n}$ 为大 $N$ 非常接近正态分布，有期望值吗 $\ frac13.$ 和方差 $\ frac2 {9 n}。$

简单地说，就是给定一个具有均值的任意分布的总体 $\μ$ 和方差 $\ sigma ^ 2，$ 均值的抽样分布趋近于均值的正态分布 $\μ$ 和方差 $\ frac {\ sigma ^ 2} n。$

定理的形式说明

中央限位定理最常适用于所平均变量具有相同的概率分布功能的情况，因此所讨论的分布是大量试验中的平均测量 - 例如，翻转硬币，滚动模具，或观察随机数发生器的输出。对其他情况的定理概括，但这种维基将集中在标准应用程序上。

首先，正式声明要求定义“分布”的“融合”，该定义正式地确定平均值更接近和更接近正常分布的定性行为 $N$ 增加:

一个随机变量序列 $y_n.$ 分配融合变成一个随机变量 $Z.$ 如果

$P(Y_n \le x) = P(Z \le x)，$

对于任何实数 $X.$ 此时函数 $p（z \ le x）$ 是连续的。

经典中心极限定理

让 $X_I.$ 独立，相同分布（“i.i.d.”）随机变量 $e [x_i] = \ mu$ 和 ${var} [X_i] = \ \文本σ^ 2。$ 让 $s_n = \ frac {x_1 + x_2 + \ cdots + x_n} {n}。$ 然后是变量 $\ sqrt {n}（s_n- \ mu）$ 汇聚到分布到正常分布的平均值 $0.$ 和方差 $\ sigma ^ 2。$

用定理估计概率

我掷出一个公平的骰子 $450$ 次了。估计至少 $160.$ 卷上有一个 $5.$ 或 $6。$

对于 $X_I.$ 在介绍中， $\μ= \ frac13$ 和 $σ^ 2 = \ \ frac29,$ 所以 $\ sqrt {n} \ big（s_n- \ frac13 \ big）$ 融合到正常分布的平均值 $0.$ 和方差 $\ frac29。$ 对于大型 $n,$ $\ sqrt {n} s_n$ 应该是非常近似的平均值 $\ frac {\ sqrt {n}} 3$ 和方差 $\ frac29。$ 乘以 $\ sqrt {n}$ 给了, $ns_n.$ 应该是大致正常的平均值吗 $\压裂{n} 3$ 和方差 $\压裂{2 n} 9。$

注意 $ns_n.$ 的和是 $X_I，$ 或者掷骰子的次数 $5.$ 或 $6。$ 对于 $n = 450,$ 平均值是 $150.$ 方差大概是 $100，$ 所以一个值 $160.$ 或者更多就是一个标准偏差在平均值的右边。由于正常曲线下的大约68％的区域位于平均值的一个标准偏差范围内，因此答案是 $\压裂{100 - 68}2 = 16$ 百分比。 $_ \平方$

不需要操纵变量;我们可以合作的 $\ sqrt {n} \ big（s_n- \ frac13 \ big）$ 而不是 $ns_n。$ 相关计算将是

$\ sqrt {450} \ left（\ frac {160} {450} - \ frac13 \右） - \ sqrt {450} \ left（\ frac {150} {450} - \ frac13 \右）= \ frac {\SQRT {2}} 3，$

正态分布的方差刚好是一个标准差 $\ frac29。$ 但通常用总和而不是标准化平均值更自然。

还注意，关于定理中所述的平均值和平均值的事实是基本的，只要变量是独立的：平均值的平均值是手段的平均值，平均值的方差是差异的平均值。上面的例子只需要中央限制定理，以便获得良好的估计，以便总和将超过其平均值的概率;中央限位定理给出了保证，使用常数分布式变量的相关估计将大致准确。

连续性校正

对于涉及离散变量的更精细的近似，标准惯例是采用a连续性纠正涉及将正常分布的极限变量的界限调整为单位的一半。例如，在上一节中的示例中，骰子至少显示的估计 $160.$ $5.$ S和 $6.$ 年代使用 $p（y_ {450} \ ge 160），$ 在哪里 $Y_ {450}$ 是 $5.$ S和 $6.$ S，并使用近似 $Y_ {450}$ 作为连续的常数分布式变量。

但实际上 $Y_ {450}$ 是离散的;它的值始终是整数。如果我们指出，金额也等于 $P（Y_ {450} \ GE 159.1），$ 或 $P（Y_ {450} \ GE 159.9），$ 在近似时，我们得到（略微）不同的答案 $Y_ {450}$ 一个连续变量。解决办法是调整 $0.5,$ 或最小增量的一半 $Y_ {450},$ 这倾向于在现实世界中提供最准确的近似。因此，上述运动的最准确答案将使用 $159.5 P (Y_{450} \通用),$ 这需要使用正态分布的计算 $Z = 0.95.$ 而不是 $z = 1。$ 它给出的值是 $17.11 \％$ 而不是 $15.87 \ %,$ 这更接近正确答案。

应用于抽样的应用程序

中央限制定理可用于回答有关采样程序的问题。它可以反向使用，以达到所需概率的样本的大小;它可用于检查和评估关于初始变量的假设 $X_I。$

一位科学家在人类血液中发现了一种潜在的有害化合物。一项研究表明，该化合物水平在成年男性中的分布有一个平均值 $13 \文本{mg} / {dl} \文本,$ 具有标准偏差 $4 \ text {mg} / \ text {dl}。$ 科学家希望采取一名成年男性的学习。她必须样本有多少人，以便在她样本中化合物水平的平均值之间的概率 $12.$ 和 $14 \文本{mg} / {dl} \文本$ 至少是 $98 \ % ?$

抽样平均值将是平均值 $13.$ 和方差 $\ frac {16} n，$ 在哪里 $N$ 是样品数量。A. $98 \％$ 概率要求我们在里面 $2.33$ 平均值的标准偏差，正常分布。我们希望这是 $1 \文本{mg} / {dl} \文本,$ 所以 $1$ 标准偏差应为 $\ frac1 {2.33},$ 因此方差是 $\压裂{1}{(2.33)^ 2}。$ 这给了

${对齐}\ \开始压裂{16}n & = \ frac1 {(2.33) ^ 2} \ \ n & = 16(2.33) ^ 2 \约86.9。结束\{对齐}$

所以样本应该至少有 $87$ 男人。 $_ \平方$

一个硬币被抛200次。正面出现120次。硬币公平吗?

中心极限定理说正面的数目近似正态分布，有平均值 $One hundred.$ 和方差 $50.$ 比均值高两个标准差 $100 + 2 \√{50}\约114.1。$ 这几乎是一个3 σ事件。硬币正面朝上至少120次的概率是近似的 $0.29 \％$ $\ big（$ 这来自抬头 $\ FRAC {19.5} {\ SQRT {50}} \约2.76$ 在A. $Z.$ -Table.函数的值 $p（x \ ge x）$ 对于常数分布式变量 $x \ big）。$ 在一个置信水平的 $5 \％$ 甚至 $1 \％，$ 我们拒绝硬币是公平的零假设。 $_ \平方$

有关……

内容

这个问题是极端偏置硬币集合的一部分。