中心极限定理

这中心极限定理是一个关于独立随机变量，它粗略地说，独立随机变量的平均概率分布收敛于a正态分布作为观测的数量增加。定理的有些惊人的力量是（在一定的自然条件）有本质上是对自身变量的概率分布没有假设;定理依然如此，不管个人概率分布是什么。

让 $X_I$ 被随机变量通过轧制公平模和记录得到

$X_i = \begin{cases} 1&\text{如果骰子显示5或6}\\0&\text{如果骰子显示1、2、3或4}。\{病例}结束$

然后 $X_I$ 不是正态分布的;它有一个离散概率密度函数，与预期值 $\ frac13$ 和方差 $\ frac29。$ 中心极限定理说 $\压裂{X_1 + X_2 + \ cdots + X_n} {N}$ 对于大 $N$ 非常接近正态分布，有期望值吗 $\ frac13$ 和方差 $\ frac2 {9 n}。$

简单地说，就是给定一个具有均值的任意分布的总体 $\μ$ 和方差 $\西格马^ 2，$ 均值的抽样分布趋近于均值的正态分布 $\μ$ 和方差 $\压裂{\西格马^ 2} n的。$

定理的形式说明

中心极限定理最多适用于其中被平均变量具有相同的概率分布函数的情况，所以有问题的分布是平均测量值在大量的实验中 - 例如，抛硬币，掷骰子，或观察一个随机数发生器的输出。有定理的其他情形的概括，但这个wiki将集中于标准的应用程序。

首先，在正式声明中要求的“会聚在分配”的定义，其形式化定性行为平均值越来越接近正态分布为 $N$ 增加:

一个随机变量序列 $Y_n$ 在分布收敛变成一个随机变量 $Z.$ 如果

$P(Y_n \le x) = P(Z \le x)，$

对于任何实数 $X.$ 此时函数 $P（Z \文件x）的$ 是连续的。

经典中心极限定理

让 $X_I$ 是独立同分布（“独立同分布”）的随机变量与 $E [X_I] = \亩$ 和 ${var} [X_i] = \ \文本σ^ 2。$ 让 $S_N = \压裂{X_1 + X_2 + \ cdots + X_n} {N}。$ 然后变量 $\ SQRT {N}（S_n- \亩）$ 会聚分布均值的正态分布 $0.$ 和方差 $\西格玛^ 2。$

用定理估计概率

我掷出一个公平的骰子 $450$ 次了。估计至少 $160.$ 卷上有一个 $5.$ 或 $6。$

为了 $X_I$ 在引进， $\μ= \ frac13$ 和 $σ^ 2 = \ \ frac29,$ 所以 $\ SQRT {N} \大（S_n- \ frac13 \大）$ 在收敛分布均值的正态分布 $0.$ 和方差 $\ frac29。$ 对于大型 $n,$ $\ SQRT {N} S_N$ 应与平均值十分接近正常 $\压裂{\ SQRT {N}} 3$ 和方差 $\ frac29。$ 乘以 $\ sqrt {n}$ 给了, $nS_n$ 应该是大致正常的平均值吗 $\压裂{n} 3$ 和方差 $\压裂{2 n} 9。$

注意 $nS_n$ 的和是 $X_I，$ 或者掷骰子的次数 $5.$ 或 $6。$ 对于 $n = 450,$ 均值 $150.$ 方差大概是 $100，$ 所以一个值 $160.$ 或者更多就是一个标准偏差与平均值之权。由于在平均值的一个标准差之内下的正常曲线位于该地区的大约68％，得到的答案是 $\压裂{100 - 68}2 = 16$ 百分比。 $_ \平方$

不需要操纵变量;我们可以合作的 $\ SQRT {N} \大（S_n- \ frac13 \大）$ 而不是 $nS_n。$ 相关计算将是

$\ SQRT {450} \左（\压裂{160} {450} - \ frac13 \右侧） - \ SQRT {450} \左（\压裂{150} {450} - \ frac13 \右）= \压裂{\SQRT {2}} 3，$

正态分布的方差刚好是一个标准差 $\ frac29。$ 但通常用总和而不是标准化平均值更自然。

还要注意的是在均值和中规定的平均事实定理的基础，只要变量是独立的：均值的平均值是平均的手段，而平均的方差是平均方差。上面的例子所需要的中心极限定理只是为了获得良好的估计，对该总和将超过它的一个标准差均值的概率;中心极限定理给出了一个保证使用相关估计正态分布的变量将大致准确。

连续性校正

对于涉及离散变量的更精细的近似，标准惯例是采用a连续性校正涉及由单元的一半调整正态分布极限变量的边界。例如，在上一节中的示例中，估计使骰子显示出至少 $160.$ $5.$ S和 $6.$ 年代使用 $P（Y_ {450} \ GE 160），$ 在哪里 $Y_ {450}$ 是 $5.$ S和 $6.$ S，并使用近似 $Y_ {450}$ 作为连续正态分布变量。

但实际上 $Y_ {450}$ 是离散的;它的值总是整数。相反，如果我们注意的是，量也等于 $P（Y_ {450} \ GE 159.1），$ 或 $P（Y_ {450} \ GE 159.9），$ 逼近时，我们得到（略）不同的答案 $Y_ {450}$ 一个连续变量。解决办法是调整 $0.5,$ 或最小增量的一半 $Y_ {450},$ 这往往给在现实世界的情况最准确的近似值。因此，最准确的答案上述演习将使用 $159.5 P (Y_{450} \通用),$ 这需要使用用于正态分布的计算 $Z = 0.95$ 而不是 $Z = 1。$ 它给出的值是 $17.11 \％$ 而不是 $15.87 \ %,$ 这是更接近正确答案。

应用程序采样

中心极限定理可以用来回答问题有关抽样程序。它可以在反向使用，以近似的所需概率的样品的大小;它可以用来检查和评估有关的初始假设变量 $X_I。$

一位科学家在人类血液中发现了一种潜在的有害化合物。一项研究表明，该化合物水平在成年男性中的分布有一个平均值 $13 \文本{mg} / {dl} \文本,$ 与标准偏差 $4 \文本{毫克} / \文本{DL}。$ 科学家希望利用的成年男子的样本进行的另一项研究。她必须有多少男人样，这样的概率化合物的水平她样本中的平均值之间 $12.$ 和 $14 \文本{mg} / {dl} \文本$ 至少 $98 \ % ?$

抽样平均将有平均 $13.$ 和方差 $\压裂{16} N，$ 在哪里 $N$ 是样本的数目。A. $98 \％$ 概率要求我们在里面 $2.33$ 平均值的标准偏差，正态分布。我们希望这是 $1 \文本{mg} / {dl} \文本,$ 所以 $1$ 标准偏差应为 $\ frac1 {2.33},$ 因此方差是 $\压裂{1}{(2.33)^ 2}。$ 这使

${对齐}\ \开始压裂{16}n & = \ frac1 {(2.33) ^ 2} \ \ n & = 16(2.33) ^ 2 \约86.9。结束\{对齐}$

所以样本应该至少有 $87$ 男人。 $_ \平方$

一个硬币被抛200次。正面出现120次。硬币公平吗?

中心极限定理说正面的数目近似正态分布，有平均值 $One hundred.$ 和方差 $50.$ 比均值高两个标准差 $100 + 2 \√{50}\约114.1。$ 这几乎是一个3 σ事件。硬币正面朝上至少120次的概率是近似的 $0.29 \％$ $\大（$ 它来自仰视 $\压裂{19.5} {\ SQRT {50}} \约2.76$ 在A. $Z.$ -table函数的值 $P（X \ GE x）的$ 用于正态分布变量 $X \大）。$ 在一个置信水平的 $5 \％$ 甚至 $1 \％，$ 我们拒绝硬币是公平的零假设。 $_ \平方$

有关……

内容

这个问题是极端偏置硬币集合的一部分。