卡方测试
直观的解释
假设一枚硬币被投掷100次。如果硬币是均匀的(抛掷正面和反面的概率相等),预期结果将是50次正面和50次反面。然而,概率确切地这种结果发生的可能性很小;例如,53次正面朝上通常不会令人惊讶。然而,92次正面的结果肯定表明,这枚硬币实际上并不公平。
卡方检验提供了一种方法来检验观察到的结果(正面的数量)是否可能是随机产生的,或者最初的假设(在这种情况下是公平的)是否一定是错误的。
算法
的Chi-Squared统计被定义为
在哪里 是类型的观察数 , 和 是预期的观测数量的类型 .卡方检验的关键是卡方统计量可以很好地用a来近似卡方分布(它本身是一个近似多元正态分布)具有正确选择的自由度。
由于此近似,需要保持多个条件(详见下一节),以便进行测试有效。他们应该持有,Chi方向的测试如下所提?
- 计算Chi-Squared统计 ,定义在上面。
- 确定自由度的数量 的统计。这取决于特定的预期分布,但通常是这样的 (在哪里 是类别的数量)。
- 选择一个置信水平,通常是95%或99%。
- 确定临界值的 分布与 自由度和上面选择的置信度。基本上,这被定义为值 下面的部分卡方分布 至少是期望的置信水平。
- 将卡方统计量与临界值进行比较。如果小于临界值,则零假设不拒绝。如果大于临界值,则拒绝零假设,期望分布可能是错误的。
直观上,测试依赖于这样一个事实:如果预期分布确实正确,则观察到的分布和预期分布之间的差应该近似于a多元正态分布,这是一个近似的卡方分布由中心极限定理.如果卡方统计量大于临界值,那么在这个假设下不太可能发生,因此这个假设很可能是错误的。
独立测试
卡方检验也可以用来检验两个数据集之间的独立性,其中每个“观察”定义为的值两个结果安排在应急表.在这种情况下,卡方统计现在运行在表格的所有单元格:
在哪里 分别为第一组观测值和第二组观测值的个数。自由度的数目是 .
作为独立测试,通常的置信水平是 .如果在这些条件下卡方统计量超过临界值,则可以拒绝独立假设,两个数据集不太可能是独立的。
例子
卡方检验可以用来确定一个骰子是否公平,即显示1、2、3、4、5和6的次数相等。
假设掷96次骰子后,骰子显示24个1,15个2s, 14个3s, 16个4s, 14个5s和13个6s。骰子不公平吗?
这可以在下表中列出:
我 1 24 16 8 4 2 15 16 -1 0.0625 3. 14 16 -2 0.25 4 16 16 0 0 5 14 16 -2 0.25 6 13 16 -3 0.5625 所以卡方统计量是 .自由度的数目是 ,并且具有5度自由和95%置信水平的Chi平方分布具有临界值 .由于Chi方向统计量小于临界值,因此该观察不提供足够的信息来拒绝公平的空假设。
如果观测值是29个1s, 8个2s, 12个3s, 17个4s, 14个5s, 16个6s,那么表就是
我 | ||||
1 | 29 | 16 | 13 | 10.5625 |
2 | 8 | 16 | -8 | 4 |
3. | 12 | 16 | -4 | 1 |
4 | 17 | 16 | 1 | 0.0625 |
5 | 14 | 16 | -2 | 0.25 |
6 | 16 | 16 | 0 | 0 |
所以卡方统计量是 .这足以在95%的置信水平下拒绝零假设。
然而,99.9%置信水平的临界值为20.515,因此这不足以在99.9%的置信水平下拒绝零假设。
假设
因为卡方分布只是一个近似,CHI方形测试需要若干假设需要:
- 观察结果必须是一个简单随机样本(即可能产生的结果);总体中的每一个成员都必须有相等的被选中的概率(尽管对于加权数据存在广义形式)。
- 的样本大小必须足够大。与所有统计测试,小样本量可能导致II型错误.
- 每个单元格的期望值必须足够大。常用的规则是a的所有单元格 表的期望值至少为5,较大的表中至少有80%的单元格的期望值至少为5,并且没有单元格的期望值为0。
- 独立性:每一个观察结果必须是独立于其他观察结果的,即不能用卡方检验进行检验相关数据。
检查这些假设是很重要的,因为不管是否满足,卡方检验都会起作用;然而,如果没有得到满足,结果可能会误导人。