相关

相关是衡量两个人关系的标准吗变量．有几种涉及变量的关系，例如:线性，(一般而言)非线性等。另外，变量之间可以有不同的相关性。皮尔逊相关系数PCC是最常见的线性系数衡量两个变量之间的相关程度。两个给定变量之间的PCC，表示 $r$ ，是一个数字之间 $－1$ 而且 $＋1$ 包容性。该测量的意义是这些变量为正的强度程度 $(文本{接近}\ \水平间距{1毫米}+ 1)$ ,消极 $(文本{接近}\ \水平间距{1毫米}1)$ ，或不相关 $(文本{接近}\ \水平间距{2毫米}0)$ ．值为 $＋1$ 意味着一个完美的积极变量之间的关系，也就是说，它们之间是一个递增的线性函数。值为 $－1$ 意味着一个完美的负变量之间的关系，也就是说，它们是由一个递减的线性函数联系起来的。尽管存在这种可能性，但完美的相关性极其罕见。值为 $0$ 说明变量之间没有预测力。

定义

皮尔逊相关系数:一般定义

两者之间的Pearson相关系数随机变量 $X$ 而且 $Y$ 和各自的意味着 $\ mu_X$ 而且 $\ mu_Y$ 而且标准差 $\ sigma_X$ 而且 $\ sigma_Y$ 是

$r_ {XY} = \压裂{E大\ [(X - \ mu_X)大(Y - \ mu_Y) \]} {\ sigma_X \ sigma_Y},$

在哪里 $E[\cdot]$ 是期望值函数。

皮尔逊相关系数:样本定义

两者之间的Pearson相关系数样品的大小 $n$ 与 $x_i$ 而且 $Y_i \， (i= 1,2， \ldots,n)$ 是

$r_ {xy} = \压裂{\总和{酒吧(x_i - \ {x}) (y_i \酒吧{y})}}{\√6{\总和{酒吧(x_i \ {x}) ^ 2}} \√6{\总和{酒吧(y_i - \ {y}) ^ 2}}},$

在哪里 $酒吧\ {x}$ 是平均样本值的 $x_i$ 同样的 $y$ ．

这些定义之间的基本区别是关于数据的知识。一般定义涉及两个随机变量，其均值和标准差是已知的。在研究统计数据，大多数情况下，假设已知值的分布。在量化定性变量时，为了建立模型来拟合给定的数据，了解某些统计度量(参数)是很重要的。在解释变量之间的关系时，示例定义可以发挥作用。

解释

正相关

相关系数更接近于 $＋1$ 暗示着强烈的正相关在变量中。这大致意味着当一个变量增加时，另一个变量将在连续值之间以相似的比例增加。由PCC测量的强正相关并不意味着从一个变量到另一个变量的因果关系，但它提供了进一步分析假设陈述的理由。例如，如果在一项研究中发现，糖摄入量(一个变量)与体脂率(另一个变量)的PCC接近+1，这是一组随机选择的100人的研究，那么两者之间存在正相关关系。PCC将这些变量联系起来，但并不意味着体脂率的增加是由于糖摄入量的增加。还需要进一步和更有力的检验，以得出具体和可采取行动的结论。

负相关

相关系数更接近于 $－1$ ,一个负相关，并不意味着变量不相关;相反，唯一的区别在于连续值之间的比值的符号(如前所述)。例如，如果在一项研究中发现，在一组随机选择的100个人的身体活动(一个变量)与压力水平(另一个变量)相比，PCC接近-1，那么就存在负相关关系。PCC将这些变量联系起来，但并不意味着压力水平的降低仅仅是由于体育活动的增加。还需要进一步和更有力的检验，以得出具体和可采取行动的结论。

相关系数更接近于 $0$ 意味着变量是不相关的．没有相关性并不意味着没有线性关系，因为如果观察到水平线性模式，这意味着当增加一个变量时，另一个变量几乎保持不变。PCC不是衡量独立性的指标，但自变量的PCC为零。当变量表现出不稳定模式时，它们的PCC将接近于零。

无相关性-水平vs.无相关性-不稳定

现实生活中的例子

现实生活中正相关的例子:

一个人学习越努力，成绩就越好。

温度越高，冰淇淋销量越高。

耳机的音量越小，耳膜损伤的风险就越低。

浴缸进水越多，浴室地板上的水就越多。

现实生活中负相关的例子:

压力越大，乐趣就越少。

我吃的不健康食物越少，我的有益胆固醇水平就越高。

吸管上的空气越多，吸管内的压力就越小。

我花的钱越少，从长远来看我剩下的钱就越多。

假设检验

数据相关是否可以用来检测某种假设是真是假。

例如，我们可能想要展示在商店中顾客的身高和他们是否购买豆子之间有直接的关系。

但请注意，如上所述，相关并不意味着因果关系．例如，假设我们证明这两者之间存在相关性:即最高的顾客买了最多的豆子。这并不意味着他们买了最多的豆子是因为他们长得高(比如豆子在货架的顶层?)或者他们长得高是因为他们买了最多的豆子(发现豆子中含有一种超级生长成分)。或者可能是一个隐藏的参数影响了两者(篮球运动员都很高，街上的篮球教练鼓励球员吃豆子)。需要进一步的分析来确定因果关系。

此外，为了使数据有意义，您需要收集统计上足够的数据抽样。例如，如果你看到两个顾客，一个买了豆子，一个没有(一个很高，另一个不高)，这显然不是统计上足够才能得出有意义的结论。

最后，如果我们说有很强的相关性，强是一个相对术语。相关系数的大小越高 $（$ 之间总是 $－1$ 而且 $1$ 包容 $)，$ 相关性越强。接近的相关系数 $－1$ 表示较强的负相关，且数值接近 $1$ 表明有很强的正相关。

考虑下面的例子，我们想要确定我们的假设， $H_1$ 是真的。

的零假设 $（$ 表示 $H_0)$ 是一种假设为真的陈述。如果零假设被拒绝，那么就有足够的证据(统计显著性)来接受替代假说 $（$ 表示 $H_1)。$ 在进行任何显著性检验之前，两个假设必须清楚地陈述且不冲突，即它们必须是互斥的陈述。

我们想要找到迈阿密年平均气温之间存在线性关系的证据 $(X)$ 以及大西洋盆地飓风的平均数量 $(Y)。$ 下表是1980年至1999年20年的样本。

迈阿密的年平均气温年平均飓风数

$\水平间距30毫米{}$ 69.4 $\水平间距30毫米{}$ 5

$\水平间距30毫米{}$ 69.8 $\水平间距30毫米{}$ 5

$\水平间距30毫米{}$ 69.9 $\水平间距30毫米{}$ 9

$\水平间距30毫米{}$ 70.1 $\水平间距30毫米{}$ 7

$\水平间距30毫米{}$ 70.2 $\水平间距30毫米{}$ 3.

$\水平间距30毫米{}$ 70.4 $\水平间距30毫米{}$ 4

$\水平间距30毫米{}$ 70.5 $\水平间距30毫米{}$ 4

$\水平间距30毫米{}$ 70.9 $\水平间距30毫米{}$ 9

$\水平间距30毫米{}$ 71 $\水平间距30毫米{}$ 7

$\水平间距30毫米{}$ 71.2 $\水平间距30毫米{}$ 6

$\水平间距30毫米{}$ 71.7 $\水平间距30毫米{}$ 5

$\水平间距30毫米{}$ 71.9 $\水平间距30毫米{}$ 4

$\水平间距30毫米{}$ 72.5 $\水平间距30毫米{}$ 10

$\水平间距30毫米{}$ 72.6 $\水平间距30毫米{}$ 8

迈阿密的年平均气温与1980年至1999年大西洋盆地飓风的平均数量

使用此样本，假设检验将在以下设置和 $t$ 分布与 $\α= 0.05:$

$H_0:$ 两者之间没有线性关系 $X$ 而且 $Y,$ 也就是说, $r_ {xy} = 0$ ．

$H_1:$ 之间有线性关系 $X$ 而且 $Y,$ 也就是说, $R_ {xy} \neq 0$ ．

计算测试统计量 $t ^ * = \压裂{r \ sqrt {n}}{\√6{第一轮^ 2}}$ ．使用PCC $r = 0.3407,$ 我们得到了 $t ^ * = 1.3354$ ．

进行假设检验，使用 $t$ 分布与 $12$ 自由度和 $t$ 得分1.3354。我们必须获得 $p$ -value将其与显著性水平进行比较 $\α= 0.05$ ．为了拒绝零假设，我们必须找到检验统计量大于1.3354的概率。使用一个 $t$ -分布表，得到检验统计量小于1.3354的概率约为0.8975。因此，得到大于1.3354的检验统计量的概率约为0.1025;因为这是一个双尾命题，所以我们乘以2得到a $p$ -value为0.205。自 $p$ -value大于0.05，则无法拒绝原假设 $H_0$ ．

结论:从这个样本中没有足够的证据来支持迈阿密的年平均温度和大西洋盆地飓风的平均数量之间存在线性关系的说法。

迈阿密的年平均气温	年平均飓风数
$\水平间距30毫米{}$ 69.4	$\水平间距30毫米{}$ 5
$\水平间距30毫米{}$ 69.8	$\水平间距30毫米{}$ 5
$\水平间距30毫米{}$ 69.9	$\水平间距30毫米{}$ 9
$\水平间距30毫米{}$ 70.1	$\水平间距30毫米{}$ 7
$\水平间距30毫米{}$ 70.2	$\水平间距30毫米{}$ 3.
$\水平间距30毫米{}$ 70.4	$\水平间距30毫米{}$ 4
$\水平间距30毫米{}$ 70.5	$\水平间距30毫米{}$ 4
$\水平间距30毫米{}$ 70.9	$\水平间距30毫米{}$ 9
$\水平间距30毫米{}$ 71	$\水平间距30毫米{}$ 7
$\水平间距30毫米{}$ 71.2	$\水平间距30毫米{}$ 6
$\水平间距30毫米{}$ 71.7	$\水平间距30毫米{}$ 5
$\水平间距30毫米{}$ 71.9	$\水平间距30毫米{}$ 4
$\水平间距30毫米{}$ 72.5	$\水平间距30毫米{}$ 10
$\水平间距30毫米{}$ 72.6	$\水平间距30毫米{}$ 8