统计学意义

观察到的活动被认为是统计学意义当它不太可能是随机机会发生的。更具体地说，观察到的事件在其时的统计学意义P.- 值低于一定的阈值，称为意义程度。通过该阈值并实现统计学意义通常标志着从研究结果中汲取的决定或结论。

最近对对照组的癌症药物的研究表明，对照组总存活率增加了150个基点。这个结果有一个P.- 0.02的值，在0.05水平中显着。结果，该药物被批准用于进一步试验。

一种 $\ Textit {P}$ -价值是个可能性一个事件将发生至尊或更极端观察到的事件。这种概率也伴随着假设极端事件在正常情况下具有相同的相对频率。更简单，aP.-Value可以被认为是如何测量异常观察到的事件是。较低的P.- value，事件越异常。

这P.- 前一个例子中的0.02表示控制组（代表在正常情况下发生的内容，没有药物）只有0.02机会在整体存活率上具有相同的增加。

使用中有很多争议P.- 价值和统计意义。这种争议部分地源于“P.- 攻击，“在从研究中选择数据以产生更重要的数据P.-价值。然而，也存在滥用和误解统计显着性的恶意实践。

$\ Textit {P}$ - 价值

P.-Values来自运行实验并将结果与在正常情况下的期望的结果进行比较。“作为极端或更极端”的语言可能很难理解，但是一个简单的例子变得更加清晰。

将硬币翻转5次，然后翻转4个。观察者怀疑硬币可能会向头部加权。假设硬币是公平的，在同一枚硬币的5翻转中会发生极端或更极端的概率是多少？

这是观察者嫌疑人的重要性，因为这通知如何将“作为极端或更极端的”条款解释。在这种情况下，一个事件像极端将翻转4个头。一个事件更加极端将翻转5个头。

因此，观察事件作为极端或更极端的事件的可能性是（应用二项分布）：

$\ begin {对齐} p＆= binom {5} {4} \ left（\ frac {1} {2} \ revent）^ 5 + \ binom {5} {5} \ left（\ frac {1} {2} \右）^ 5 \\ \\＆= 0.1875。\ _ \ square \ END {对齐}$

前面示例中的概率可以被认为是一个P.-价值。特别是，它是一个一尾 $\ Textit {P}$ -价值，因为极端事件仅在一个方向上被认为（头）。有时，在两个方向上考虑极端事件更适合。

从新铸型批料中选择硬币并翻转5次。4个翻转是头部。观察者怀疑新棉被批量可能加权朝向一侧（加权侧可能对每个硬币不同）。假设硬币是公平的，通过选择另一个硬币并将其翻转5次，将重新发生的极端或更极端的概率是多少？

注意每个硬币如何朝向不同的一侧的加权。在两个方向上都会考虑极端事件：“4个或更多头”或“4个或更多尾部”。因此，观察事件作为极端或更极端的概率将是前一个例子的两倍：

$\ begin {对齐} p＆= 2 \ left [\ binom {5} {4} left（\ frac {1} {2} \ oled）^ 5 + \ binom {5} {5} \ left（\ frac{1} {2} \右）^ 5 \右] \\ \\＆= 0.375。\ _ \ square \ END {对齐}$

该示例中的概率可以被认为是一个双尾 $\ Textit {P}$ -价值，因为在两个方向上考虑了极端事件。考虑两个方向的额外不确定性导致了这一点P.- value是单尾的两倍P.-价值。

当然，这些例子中的概率尤其涉及。这两种概率足够大，使得事件可以归因于常规变化。获得更重要的，更小P.-Value，人们需要观察更极端的事件。

六面模具滚动10次，8个卷导致6.观察者怀疑模具加权以显示比另一侧更多的6侧。一卷公平死亡会发生什么事件的概率是什么？

在考虑事件“作为极端或更极端”时，死亡需要显示6八次或更多次。使用二项式分布，这种概率是：

$\ begin {对齐} p＆= binom {10} {8} \ left（\ frac {1} {6}右）^ 8 \ left（\ frac {5} {6} \右）^ 2 + \Binom {10} {9} \左（\ frac {1} {6}右）^ 9 \ left（\ frac {5} {6} \右）^ 1 + \ binom {10} {10} \ left（\frac{1}{6}\right)^{10} \left(\frac{5}{6}\right)^0 \\ \\ &\approx 1.945 \times 10^{-5}.\ _\square \end{aligned}$

这P.- 前面的例子中的价值是如此之小，表明它正在发生一些令人怀疑的事情。合理的观察者会得出结论是不大可能死亡是不是加权。即便如此，无论机会多么不太可能，所谓的结果都可能归因于机会。

计算A. $\ Textit {P}$ -价值

运行实验并记录观察到的事件。

考虑是否计算单尾P.- value或双尾P.-价值。如果仅怀疑以一个方向发生极端事件，请选择单尾P.-价值。否则，选择双尾P.-价值。

考虑哪些事件与观察到的事件一样极端或更极端。

一种P.- value是A.有条件的概率;它假设极端事件发生在与正常情况下发生相同的相对频率。鉴于此假设，将事件的概率计算为远离观察到的事件。

意义程度

用统计数据解释数据的挑战是结果可以总是归因于随机的机会，即使是一个极低的结果P.-价值。应用一种重要性程度是设置标准的方法，以便何时停止将结果归因于机会。

一种意义程度，表示 $\α，$ 是与a比较的数值阈值P.-价值。当。。。的时候P.- 观察到的事件低于重要性程度，观察到的事件被认为是统计学意义。统计显着性通常会导致正在制定的决定或从实验结果中得出的结论。

在某种程度上是任意选择的重要性，但有许多考虑因素会影响一个人的选择。

选择意义程度的考虑因素

最常用的重要性程度是 $\ alpha = 0.05。$

较小的意义将确保对结果的更保守的解释。

选择不正确的结论可能有害时选择较小的显着性。

较小的重要性通常需要更多的数据集合。

更大程度的重要性将确保从实验结果中更容易地汲取结论。

选择较大程度的重要性，当结论的潜在好处超过了不正确结论的潜在影响时。

假设试验

主要文章：假设检验

P.-Values和统计显着性用于假设试验。存在多种不同类型的假设测试，每个测试都具有不同的方式来计算P.-价值。以下是一些例子。

一个样本均值测试，已知人口标准偏差

营养研究员希望了解某些快餐餐厅的客户的重量比平均水平更高。研究人员选择了25个成年男性的随机样本，作为快餐店的客户描述自己。他发现他们的平均重量为82公斤。成年男性的平均重量为78公斤，标准偏差为13千克。确定这些结果是否在0.05级的统计学意义。

$\ begin {对齐} h_0＆：\ text {快餐客户的平均重量与人口相同。} \\ h_a＆：\ text {快餐客户的平均重量超过人口。} \结束{对齐}$

给出以下值：

$\ begin {array} {rl} {rl} \ text {sample意味着：}＆\ overline {x} = 82 \\ \ text {inclay {inclay {inclay {inclay {inclay {inclay {inclay {incless {incloply：}＆\ mu = 78 \\ \ text {人口标准偏差：}＆\ sigma= 13 \\ \ text {sample size：}＆n = 25. \结束{array}$

由于人口标准偏差是已知的，因此Z.-分数计算：

$\ begin {对齐} z＆= \ frac {\ overline {x} - \ mu} {\ sigma / \ sqrt {n}} \\ \\＆= \ frac {92-88} {13 / \ sqrt {25}} \\ \\＆\约1.54。\结束{对齐}$

仰望这一点Z.-Score在这方面正常分布表给了P.-的价值 $p \约0.06178。$ 这大于重要性程度，因此结果没有统计学意义。研究人员得出结论，快餐餐厅的客户不比人口更重。

一个样本比例测试

工业统计学家正在跟踪沿着装配线的每日数量的缺陷。今天，她发现了6种随机样品的6个缺陷。预期的缺陷比例为2％。确定该结果是否在0.01级具有统计学意义。

$\ begin {对齐} h_0＆：\ text {今天的缺陷比例与预期相同。} \\ h_a＆：\ text {今天的缺陷比例超过预期。} \结束{对齐}$

给出或计算以下值：

$\ begin {array} {rl} {rl} \ text {sample比例：}＆\ hat}＆\ hat {p} = \ frac {6} {100} = 0.06 \\ \ text {pallity prictimore：}＆p_0 = 0.02 \\ \ text {示例大小：}＆n = 100 \\ \文本{群体标准偏差：}＆\ sigma = \ sqrt {p_0（1-p_0）} = 0.14。\结束{array}$

一种Z.-Score计算：

$\ begin {对齐} z＆\ \ frac {\ hat {p} -p_0} {\ sigma / \ sqrt {n}} \\ \\＆= \ frac {0.06-0.02} {0.06-0.02} {0.06-0.02} {0.014 / \ SQRT {100}} \\ \\＆\约2.86。\结束{对齐}$

仰望这一点Z.- 正常分布表上的拍摄给出了P.-的价值 $p \约0.002118。$ 这在0.01级具有统计学意义。统计名人会得出结论，今天还有比通常的缺陷，可能会感到强迫做到这一点。 $_\正方形$

争议

此页面上概述的方法肯定并不完美。如前所述，任何观察到的事件可以归因于简单随机的机会。尽管我们所有的详尽无遗都尝试尽可能地去除分析的机会（通过减少P.- 尽可能多的价格），这些方法并不完美的事实导致了很多争议。

每年，大约250万学术研究论文出版。通过如此巨大的竞争，研究人员当然不想在一项研究中花费广泛的时间和努力，只要结束他们的结果没有统计学意义。这种渴望实现了大，统计上显着的结果可以驱动一些人以被削弱的方式操纵数据。实现这一目标的一种方法是通过 $P.$ - 破碎。练习 $P.$ - 坎帕克在假设甚至被制定之前，涉及通过数据进行排序并寻找统计学上的显着模式。然后，一旦发现统计学上的模式，就会在事实之后写的假设。

统计分析的潜在更大的问题是它被广泛误解和滥用。考虑以下陈述：

1：当研究结果有统计学意义时，很可能是替代假设是正确的。
2：当研究结果有统计学意义时，零假设非常不太可能是正确的。

许多人在这些陈述之间看不到很大差异。这两个陈述似乎以略微不同的方式表达相同的事情。但是，其中一个陈述给了正确的解释统计学意义，另一个是对统计显着性的常见误解。你能猜到哪个陈述是正确的？

相关......

内容