抽样(统计)
抽样是一个统计使用总数的一部分的方法人口代表整个人口。作为一个课题,抽样研究人们可以使用不同的方法来调查一部分人口,并试图找到一个最能代表总体人口的样本。一个样本的“代表性”也被称为“泛化性”,即一个群体成员的特定集合如何被泛化到整个群体。为了得到一个高度概括的结果,抽样可以重某些因素或某些受访者以不同的方式试图更好地代表总体人口。例如,一所小学的高度一般化样本不仅包括一年级学生的回答,还包括所有年级的学生,以及全校适当比例的学生的回答。如果有 小学里的学生,还有 是在一年级,那么样本应该包括不超过 一年级学生的回答。
要抽样的总体可以是任意数量的东西。它可以是根据政治观点抽样的一群人;可以对一种植物取样,以确定害虫的流行程度;一个人口可以是整个服装生产工厂的质量检查;或者它可以检查给定的输出计算机模拟以确定模拟是否是真实的近似。包括整个人群的研究被称为人口调查研究,而不是样品。这样全面的研究很少进行,因为成本(时间或金钱)可能太高,或可行性可能太低。例如,收集每一个美国公民的详细宗教观点的数据将非常昂贵,可能是不可行的,或者确定西伯利亚熊的平均年龄可能是不可能处理的(因为它将需要确定每一只熊在广阔的地理位置)。
抽样是一个关键的工具科学的方法它允许研究人员仅从特定事实的样本中提供证据,证明可归纳的理论是正确的。抽样也允许数学家解决复杂的悖论,例如,圣彼得堡悖论,通常用于政治民意调查,以了解当前的社会、哲学和道德趋势。
概率与非概率抽样
抽样方法分为两类概率或者非概率样本。在概率样本中,总体中的每个成员都有一个已知的非零被纳入样本的机会。这使得研究人员可以计算和报告抽样误差,或样本可能偏离总体的程度。而在非概率样本中,一些成员有零概率或未知的百分比被纳入。
想象一下,一位民意调查员每周四晚上7点去一家超市,对购物者的职业生涯进行调查。就其本质而言,这次投票将排除在某种未知的可能性下,这些人当时正在工作。可以是调酒师,夜间电视新闻主播,上晚班的护士等等。或者,它可能排除了喜欢在他们的民族杂货店购物的特定民族的人。如果目标是代表当时从这类商店购买食品杂货的人群,那么它的样本偏差就会很低。但如果它的目的是代表该地理区域的全部人口,那么它将是一个具有未知(可能很高)样本偏差的非概率样本。
选择一种抽样方法而不是另一种抽样方法的部分原因是成本。一般来说,抽样的总体越大,抽样的总体就必须越大(以确保它是有代表性的),也就越难消除偏差。如果研究人员想要选择 人们从教室里随机抽取 有很多简单的方法可以确保样本是随机的和有代表性的。如果同一位研究人员试图从一群 一百万,他们不太可能选择 任何规模的样本在时间和金钱上都要昂贵得多。
有一件事很少被提及,那就是样本通常不会随机计算时间。也就是说,样本是在研究人员收集数据的任何时间采集的。十年之前或十年之后,人口会发生变化。
概率抽样
随机抽样最基本的抽样类型是真正的随机抽样吗 一个研究人员想要研究的人群。挑战在于真正的随机性很难实现:确保它是随机的,也就是说,人口中的每一个成员被选中的概率都是相等的。从理论上讲,随机样本看起来就像每个人都有一个抽奖活动然后从可用的抽奖券中抽取样本。然而,人口越多,就越难确保人口中的每一个成员都有与其他成员相同的被选中的机会。也就是说,很难给每个成员分配一张奖券,并以相同的概率从所有奖券中挑选。
通过将样本与已知的测试人群数据(如果有这样的数据)进行比较,可以相对容易地检查一个样本是否真的是随机的。例如,澳大利亚的人口样本应该是 男性和 女性占总人口的一半。
系统抽样是一种实现随机抽样的方法,本质上是一种选择每个对象的方法吗 样本成员,其中 是某个整数或某个随机整数,或某个随机生成的数。例如,面包房可以选择每一个 用于测试和质量控制的蛋糕,或者它可以挑选每一个 蛋糕在哪里 中间是一个随机生成的数字吗 和 .请注意:这只在总体本身是随机顺序的情况下起作用,或者计数从中间的某个数字随机开始 和 .如果总体是有序的,那么选择每一个 这不是随机的。
分层抽样是一种在更大的人群中帮助确保随机性的方法。根据某些特定的标准,整个人口被划分为阶层或不同的群体。例如,如果一个测量员想要对整个城市人口进行抽样,他可能会将城市划分为地理层次、职业层次、教育层次、财富层次等。从地层中抽取的样本成员的数量与整个人口成比例。例如,如果A地区代表 一个研究人员想要一个总的样本 ,然后他们会选择 a区人员。在地层中,随机抽取样本成员。例如,可以随机选择一所房子,并从住户中随机选择一名成员作为样本。
整群抽样是一种研究人员随机选择的方法吗集群为了便于抽样。例如,对一个学区的学生的研究可能会研究20所学校中的每一所的学生。这与随机抽样不同,随机抽样可能会导致每所学校只有几个学生。研究人员可能会为了实施的容易而选择研究集群(例如,让20位校长同意一些小的学校停课比让所有校长都同意要容易得多)。
多级抽样是其他抽样技术的一种形式,研究人员借此从越来越大的样本中筛选出最终样本。例如,在上面研究一个学区的学生的例子中,研究人员使用整群抽样进行选择 学校。然后他们可以进行第二阶段,再次使用整群抽样进行选择 每个学校的教室,然后是第三个阶段,他们使用随机抽样来选择 每个班的学生。同样,这有助于降低成本,但在每个阶段都为研究人员带来了机会,使他们偏离了总体中真正随机或具有代表性的样本。例如,如果他们在研究学生的表现他们碰巧选择了两所表现最好或最差的学校,那么 他们样本中最大的异常值。
Non-probability抽样
便利抽样,也被称为机会抽样,指的是研究人员使用非随机样本来接近真相的一种方法。这通常用于研究的开始,或作为一种方法来检验一项研究是否值得方便样本;例如,研究人员在街上发现的前五个人可能比进行真正的随机抽样要便宜得多。
判断抽样是一种方便抽样的形式,研究者在选择方便抽样时应用一些判断。例如,研究员研究咖啡店顾客有理由得出结论,人们在他们最近的咖啡店的人口的代表所有的人口咖啡店在他们学习,因为这咖啡店位于中央位置,高流量通勤区,在这家咖啡店里,人们的教育水平、性别、职业、财富、种族和性取向都得到了广泛的体现。
滚雪球抽样是一种非概率抽样,当期望人群中的成员难以找到时,比如患有罕见疾病的患者,持有很少有人愿意公开发表意见的人,或者稀有物种。研究人员可能会要求样本成员推荐其他被调查的物种,或者跟踪一个稀有物种寻找其他亲属。这种方法可能会引入偏差,因为样本可能并不代表总体的真正随机部分,但它这样做的好处是显著降低成本。
抽样误差
抽样错误通常表现为选择性偏差或随机抽样偏差.这样的错误可能会发生
- 当进行抽样的研究人员无意或故意将研究构建为对总体的错误代表,或
- 因为研究人员使用的是真正的随机方法,而随机样本恰好不能代表整个人群。
这里的关键是存在一个错误,因为样本不能代表总体。
其他类型的错误不是设计的产物,而是执行的产物。这些包括一点在接受调查的人群中,数据输入和处理错误,测量误差当向回答者提出的问题被误解或对样本成员进行的测试没有测量他们打算测量的东西时发生。例如,“你有多喜欢这个产品?”这个问题似乎是一个好问题,但实际上可能并没有收集到测量师想要的数据。它可能表明受访者是多么不愿意说任何负面的东西,或可能夸大他们与产品的小问题。一个更好的问题应该是,“你有多大可能向朋友或家人推荐这个产品?”这是一个在调查中经常使用的问题,被称为净推荐值.这些错误的关键是,即使样本是随机的,处理的数据可能不能准确地反映样本或总体。
在这两种情况下,很难确定样本在统计上是否有效。一种解决方案是对结果进行反向工程,以查看它们是否符合预期的方法(不一定是它们是否符合任何特定的结果)。例如,如果一个样本中有75%的女性,你可能会认为这是一个错误(它应该接近50%)。然后他们可以测试他们的抽样方法产生这个结果的概率是多少。
计算抽样误差
抽样误差也可以是指在一个样本中计算的误差,也叫抽样误差误差.例如,大多数发表的科学研究都有实验误差。他们可能会说 置信区间误差范围是 ,意思是他们可以用 他们的结果是肯定的 准确的。
样本误差的基本公式为 在哪里 是z分数为研究的置信区间,有时表示为 ,或临界值。 样本中是否有你要测试的因素 为总样本总体。有时这个公式表示为 假设置信区间是95%
假设你是一名研究人员,对1000名受访者进行了抽样调查。你在评估他们以确定他们是否支持他们的国会议员。你有一个95%的置信区间,700名受访者说他们不赞成他们的国会议员。你的误差范围是多少?
我们有 这意味着你可以说,95%的信心,每1000个美国人中有700人不赞成他们的国会议员,正负2.84%。
一个 其他置信区间的得分表如下:
置信区间 | 分数 |
80% | 1.28 |
90% | 1.645 |
95% | 2.33 |
99% | 2.58 |
99.9% | 3.29 |
当你减少样本量并试图增加置信区间时,误差幅度会显著增加。
参考文献
- Kernier D。简单随机抽样.检索2016年6月1日,从https://en.wikipedia.org/wiki/File:Simple_random_sampling.PNG
- Kernier D。系统抽样.检索2016年6月1日,从https://en.wikipedia.org/wiki/File:Systematic_sampling.PNG
- Kernier D。分层抽样.检索2016年6月1日,从https://en.wikipedia.org/wiki/File:Stratified_sampling.PNG
- Kernier D。整群抽样.检索2016年6月1日,从https://en.wikipedia.org/wiki/File:Cluster_sampling.PNG