相关
相关是衡量两个人关系的标准吗变量.有几种涉及变量的关系,例如:线性,(一般而言)非线性等。另外,变量之间可以有不同的相关性。皮尔逊相关系数PCC是最常见的线性系数衡量两个变量之间的相关程度。两个给定变量之间的PCC,表示 ,是一个数字之间 而且 包容性。该测量的意义是这些变量为正的强度程度 ,消极 ,或不相关 .值为 意味着一个完美的积极变量之间的关系,也就是说,它们之间是一个递增的线性函数。值为 意味着一个完美的负变量之间的关系,也就是说,它们是由一个递减的线性函数联系起来的。尽管存在这种可能性,但完美的相关性极其罕见。值为 说明变量之间没有预测力。
吉姆不仅是一名有成就的棒球运动员,而且还是一名十年级的数学天才。当他的物理学教授解释击球距离最大的最佳方式时,他分析表现的动机第一次结出了果实。由于每个棒球运动员的技术都是独一无二的,他想知道自己是更适合做击球手还是重击手。就像一个聪明的数学家/棒球运动员会做的那样,他保存了上赛季每个击球回合的数据,并近似地计算了击球强度和结果:地面打击,全垒打,或出.他知道,与全垒打相比,稳定的击球需要更多的方向而不是力量,因此他建立了三个数据集。这些是以下的图表和PCC:力量vs本垒打,力量vs安打,力量vs出局。
如果他的决定只需要这三种比较中的一种来做出选择,你认为哪一种能最好地衡量他的能力?
定义
解释
相关系数更接近于 暗示着强烈的正相关在变量中。这大致意味着当一个变量增加时,另一个变量将在连续值之间以相似的比例增加。由PCC测量的强正相关并不意味着从一个变量到另一个变量的因果关系,但它提供了进一步分析假设陈述的理由。例如,如果在一项研究中发现,糖摄入量(一个变量)与体脂率(另一个变量)的PCC接近+1,这是一组随机选择的100人的研究,那么两者之间存在正相关关系。PCC将这些变量联系起来,但并不意味着体脂率的增加是由于糖摄入量的增加。还需要进一步和更有力的检验,以得出具体和可采取行动的结论。
相关系数更接近于 ,一个负相关,并不意味着变量不相关;相反,唯一的区别在于连续值之间的比值的符号(如前所述)。例如,如果在一项研究中发现,在一组随机选择的100个人的身体活动(一个变量)与压力水平(另一个变量)相比,PCC接近-1,那么就存在负相关关系。PCC将这些变量联系起来,但并不意味着压力水平的降低仅仅是由于体育活动的增加。还需要进一步和更有力的检验,以得出具体和可采取行动的结论。
相关系数更接近于 意味着变量是不相关的.没有相关性并不意味着没有线性关系,因为如果观察到水平线性模式,这意味着当增加一个变量时,另一个变量几乎保持不变。PCC不是衡量独立性的指标,但自变量的PCC为零。当变量表现出不稳定模式时,它们的PCC将接近于零。
现实生活中的例子
现实生活中正相关的例子:
- 一个人学习越努力,成绩就越好。
- 温度越高,冰淇淋销量越高。
- 耳机的音量越小,耳膜损伤的风险就越低。
- 浴缸进水越多,浴室地板上的水就越多。
现实生活中负相关的例子:
- 压力越大,乐趣就越少。
- 我吃的不健康食物越少,我的有益胆固醇水平就越高。
- 吸管上的空气越多,吸管内的压力就越小。
- 我花的钱越少,从长远来看我剩下的钱就越多。
相关性与因果关系
重要的是要强调,具有强相关性并不意味着因果关系.通过PCC测量,两个变量(观测值)是强相关的,但这并不意味着一个变量的变化会导致另一个变量的变化,这可能纯粹是巧合。举个例子,可以假设,在一个城市中,给定位置的鸽子数量与中午该位置的人数密切相关。如果该地区的人口急剧减少,可以预期鸽子的数量也会减少;这种分析非常有道理。然而,解释这一现象的一种方式可能是城市没有清洁街道和人们见面吃午饭的地方。另一种解释可能是,很多人会在中午用剩下的面包喂鸽子。这些论点依赖于其他复杂的假设,而不仅仅是这个城市在这个位置的人数。
假设检验
数据相关是否可以用来检测某种假设是真是假。
例如,我们可能想要展示在商店中顾客的身高和他们是否购买豆子之间有直接的关系。
但请注意,如上所述,相关并不意味着因果关系.例如,假设我们证明这两者之间存在相关性:即最高的顾客买了最多的豆子。这并不意味着他们买了最多的豆子是因为他们长得高(比如豆子在货架的顶层?)或者他们长得高是因为他们买了最多的豆子(发现豆子中含有一种超级生长成分)。或者可能是一个隐藏的参数影响了两者(篮球运动员都很高,街上的篮球教练鼓励球员吃豆子)。需要进一步的分析来确定因果关系。
此外,为了使数据有意义,您需要收集统计上足够的数据抽样。例如,如果你看到两个顾客,一个买了豆子,一个没有(一个很高,另一个不高),这显然不是统计上足够才能得出有意义的结论。
最后,如果我们说有很强的相关性,强是一个相对术语。相关系数的大小越高 之间总是 而且 包容 相关性越强。接近的相关系数 表示较强的负相关,且数值接近 表明有很强的正相关。
考虑下面的例子,我们想要确定我们的假设, 是真的。
的零假设 表示 是一种假设为真的陈述。如果零假设被拒绝,那么就有足够的证据(统计显著性)来接受替代假说 表示 在进行任何显著性检验之前,两个假设必须清楚地陈述且不冲突,即它们必须是互斥的陈述。
我们想要找到迈阿密年平均气温之间存在线性关系的证据 以及大西洋盆地飓风的平均数量 下表是1980年至1999年20年的样本。
迈阿密的年平均气温 年平均飓风数 69.4 5 69.8 5 69.9 9 70.1 7 70.2 3. 70.4 4 70.5 4 70.9 9 71 7 71.2 6 71.7 5 71.9 4 72.5 10 72.6 8
使用此样本,假设检验将在以下设置和 分布与
- 两者之间没有线性关系 而且 也就是说, .
- 之间有线性关系 而且 也就是说, .
计算测试统计量 .使用PCC 我们得到了 .
进行假设检验,使用 分布与 自由度和 得分1.3354。我们必须获得 -value将其与显著性水平进行比较 .为了拒绝零假设,我们必须找到检验统计量大于1.3354的概率。使用一个 -分布表,得到检验统计量小于1.3354的概率约为0.8975。因此,得到大于1.3354的检验统计量的概率约为0.1025;因为这是一个双尾命题,所以我们乘以2得到a -value为0.205。自 -value大于0.05,则无法拒绝原假设 .
结论:从这个样本中没有足够的证据来支持迈阿密的年平均温度和大西洋盆地飓风的平均数量之间存在线性关系的说法。