辛普森悖论
辛普森悖论当一组数据显示一种特定的趋势时发生,但当两组数据组合在一起时,这种趋势被逆转。理解和识别这一悖论对于正确解释数据非常重要。
例如,你和一个朋友在Brilliant上做问题,你的朋友在两天中的每一天都比你答对了更高的比例。这是否意味着你的朋友回答的正确率比你高?不一定!
这种看似不直观的可能性被称为辛普森悖论.
让我们回到我们关于问题准确性竞争的示例,看看这是如何发生的。
- 周六,你解决了 的 试图解决问题,但你的朋友解决了 的 你解决了更多的问题,但你的朋友指出他更准确,因为 .很好。
- 星期天,你只尝试了 问题,有 正确的。你的朋友了 的 正确的问题。你的朋友又幸灾乐祸了,因为 .
然而,比赛是关于谁解决得更准确周末,而非个别日子。总的来说,你已经解决了 的 问题,而你的朋友已经解决了 的 问题。因此,尽管你的朋友每天解决的问题比例更高,但你实际上赢得了挑战,因为你整个周末都解决了更高比例的问题!当你的朋友勃然大怒时,你冷静地指着这一页:你刚刚展示了辛普森悖论的一个例子。
在本页中,我们将给出悖论的正式定义,展示一些有趣的现实例子,并为您提供一个机会,添加您自己遇到的辛普森悖论。
定义
在外行人的角度,辛普森悖论当某些数据组在每个组中显示某种关系时,但当数据被合并时,这种关系是相反的:
在上面的例子中,我们看到,当问题分为周六和周日时,你的朋友每天正确地解决了更高比例的问题,但当问题分为两天时,你实际上正确地解决了更高比例的问题。
辛普森悖论的这种常见形式可以定义如下:
考虑 一组这样的数据 有 审判和 “成功”。类似地,考虑一个类比 一组这样的数据 有 审判和 “成功”,然后,辛普森悖论如果发生
至少有一个不等式是严格的(这意味着它不是在等式的情况下)。当然,我们也可以扭转不平等,仍然有悖论,因为 和 是任意选择的。
为了获得直觉,让我们看看这个定义如何应用于上面的例子 是你/你的朋友每天尝试的问题的数量,以及 你/你的朋友每天都能正确算出数字。如前所述,
然而,这并不是辛普森悖论发生的唯一方式。一般来说,只要个别类别的数据呈现出趋势,就会出现辛普森悖论,但如果将所有类别的数据组合起来,趋势就会逆转。虽然这个模板只考虑二元的“成功”,即每个单独的数据只给出一个“是”或一个“否”,但它可以很容易地概括为数字,用于衡量趋势的是其平均值。我们甚至可以使用其他的测量方法(如中位数)。这将在下面的“其他应用”一节中讨论。
现在,让我们用一个例子来测试您识别辛普森悖论是否正在发生的能力!
为什么会这样
你已经看到了结果,但为什么会发生呢?
通常情况下,赢得所有组别意味着赢得整体。但是,只有当组大小相等时,才能保证出现这种情况。当群体规模不同时,每一方的总数可能由特定群体控制,但这些群体属于不同的类别。在上面的介绍性示例中,总数由每位玩家解决8个问题的天数决定,在本例中,您实际上赢了( ),这就解释了为什么你可以赢得总冠军(两天加起来)。作为一个夸张的例子,考虑一个变体:
一天 | 你 | 你的朋友 | |||
星期六 | |||||
周日 | |||||
总计 |
占主导地位的群体显然是那些 尝试的问题。具有 只影响相应日期的获胜者;他们几乎不影响总数。
当我们以相同的规模排列这些群体时,我们可以看到这个悖论正在消失:
大小 | 你 | 你的朋友 | |||
大 | |||||
小的 | |||||
总计 |
让我们再举一个例子来说明这些观点:
两种新药AntiCynicismia和AntiMisantropia目前正处于临床试验阶段,由药剂师决定药物是否可以安全使用。试验分为5组,试验结果如下:
药物名称 | AntiCynicismia | AntiMisantropia |
A组 | 545名患者中436人被治愈80%成功率 | 十个人中有九个人痊愈了,或者90%成功率 |
B组 | 350人中有245人被治愈,或者70%成功率 | 20人中有16人治愈,或80%成功率 |
C组 | 80人中有48人被治愈60%成功率 | 30人中有21人被治愈70%成功率 |
D组 | 20个人中有10个人痊愈了50%成功率 | 300人中有180人被治愈,或者60%成功率 |
E组 | 五分之二的人被治愈,或者40%成功率 | 640人中有320人被治愈50%成功率 |
从不同人群的成功率来看,抗斜视似乎是一种更有效的药物。然而,这不是真的!
鉴于此 就是这两种药物成功率的差异,找出其价值所在 .
其他应用程序
上述定义提供了辛普森悖论的一种常见形式。然而,它可以以其他方式发生。
数据,而不是“是”和“否”(双成功),可能是任意的真实数字,我们仍然可以有辛普森悖论的平均值:
类别 | 派1 | 派2 | |||
类别1 | |||||
第二类 | |||||
总计 |
一个使用实数平均值的真实例子发生在所得税方面。在1974年到1978年间,美国对每一类收入的税率都有所降低(5000美元以下、5000美元至10000美元等)。然而,当所有人都聚集在一起时,平均税率增加了!
趋势也可以是中位数而不是平均水平:
类别 | 派1 | 派2 | |||
类别1 | |||||
第二类 | |||||
总计 |
事实上,辛普森悖论的一个现实例子涉及工资中位数。从2000年到2012年,美国的工资中值上升了(约1%)。然而,同期美国工资中值下降了每一个子组:高中辍学生,没有接受过大学教育的高中毕业生,受过大学教育,本科或更高学历。
虽然从技术上讲,趋势可以通过许多功能来展示,但最好的趋势是那些人们不会期望在组合时能够逆转的趋势。平均值和中值是好的趋势;这些可能是反直觉的,这正好解释了名字的悖论。
实际的例子
加州大学录取率
一项研究表明,总体而言,男性比女性更容易被接受(44%比35%)。然而,看看每个部门,女性的录取率通常等于或高于男性的录取率。发生了什么事?事实上,女性倾向于申请那些更难被录取的部门。
肾结石治疗/救护车vs.直升机
先进的外科手术应该比传统的肾结石治疗效果更好。当数据被分为小肾结石和大肾结石治疗时,先进的外科手术在每一组中都优于传统治疗。然而,当所有的情况结合起来,传统的治疗优于!
这怎么可能呢?先进的外科手术在肾结石很大的时候更常用。因此,这些病例相对于较小的结石失败率较高。因此,由于先进的外科手术大多用于“艰难的”手术,它的整体表现比传统治疗“更差”。
事实上,医疗后送直升机和传统救护车也产生了类似的结果。从总体数据来看,直升机确实做到了更糟的这比救护车更能拯救生命,但这是因为它们被送往高风险的情况。
低出生体重悖论
吸烟者所生婴儿的死亡率高于非吸烟者所生婴儿。
婴儿可能出生时体重不足。结果表明,吸烟者出生的正常体重婴儿的死亡率与非吸烟者出生的正常体重婴儿的死亡率相同。
然而,吸烟者所生的体重不足的婴儿有较低的与非吸烟者出生的体重不足婴儿的死亡率相比
你能猜出为什么会这样吗?
击球平均值
一名棒球运动员在两年中的平均击球率可能高于另一名,但当两者结合时,平均击球率可能低于另一名。在一个案例中,大卫·贾斯蒂斯在1995年和1996年的平均击球率高于德里克·杰特,但在这两年中,杰特的平均击球率更高。
地区歧视
有可能在多个地区赢得更高比例的选票,但却失去全部选票。这是一个现实世界的现象,在美国的选举团模式中可以部分看到。试试这个“辛普森”的例子:
在最近的一次选举中,旁白鲍勃和乔·昆比决定竞选斯普林菲尔德市长。决定取决于两个地区的结果:城市和农村。无论哪个候选人在两个选区都获胜,都将赢得选举。
结果表明
在这个城市在25000人中有15000人投票给杂耍鲍勃,5000人中有4000人投票给乔·昆比。
在农村当前位置5000人中有1000人投给了“杂耍鲍勃”,25000人中有7500人投给了乔·昆比。
数据表:
候选人 | 城市 | 农村 | |||
杂耍鲍勃 | |||||
新闻官Joe Quimby |
因为无论在城市还是乡村,都有更高比例的人投票给了乔·昆比,乔·昆比再次当选斯普林菲尔德市长。
如果这个决定不是取决于赢得单个选区的选票,而是取决于在整个人口中赢得更多的选票,那么就表明杂耍鲍勃将赢得选举。还有,如果杂耍鲍勃打败了乔·昆比 在所有的选民中,什么是价值
图片来源:Simpsons Wikia
张贴你自己的例子!
请在下面随意添加你自己的例子!如果您能够完善它,您的示例甚至可能会出现在上面。
安德鲁:当我为我的老公司做数据分析时,我看到了一个辛普森悖论的真实例子。从2012年到2013年,代数期末考试的通过率在每个年级都有所上升,但总体通过率却下降了!
把你的写在下面!
具有挑战性的例子
这里有几个有趣的例子供您尝试。
第一个非常简单:
这里有更多的挑战:
如果你在寻找一些真正困难的东西,看看这个:
找出(严格的)辛普森悖论的最小例子;也就是说,在案例数量最少的情况下构造这样的表。正式地说,假设 非负整数和 正整数是这样的吗 ,也 , ,但 .确定的最小值 .
例子:肾结石有两种问题,小结石和大结石。还有两种治疗方法,简单治疗和复杂治疗。成功的病例数,除以每个结石/治疗组合的病例数,如下表所示。
小石头 | 巨大的石头 | 这两个 | |||||
复杂的治疗 | 81/87(93%) | 192/263(73%) | 273/350 (78%) | ||||
简单的治疗 | 234/270 (87%) | 55/80 (69%) | 289/350(83%) |
我们可以看到,复杂的处理在小的石头案例中表现的更好,在大的石头案例中表现的更好,但在数据组合时,简单的处理表现的更好。
在上述样本中,总共考虑了700例病例,其中复杂治疗350例,简单治疗350例(或小结石357例,大结石343例)。这个问题要求考虑的案例总数尽可能少。
澄清:在通常的辛普森悖论中,它允许有几个弱不等式(上面的一些不等式实际上可能是等式)。因此,这个问题具有辛普森悖论的一种更强的形式,即所有的不平等可能都是平等的。