统计数据
统计数据是处理数据的科学。这包括理解已经存在的数据,使用它对未来做出预测,并评估这些预测的不确定性。做这些事情通常需要使用概率的语言来捕捉其中的随机性。总的来说,统计可以是了解世界的一个非常强大的工具,在金融和物理等不同领域都有应用。
随机变量
统计学的语言根深蒂固概率论,这提供了一种处理随机变量而且随机过程.
给定一个随机事件,人们可能会考虑样本空间可能的事件或结果.例如,一个均匀六面骰子的样本空间有六种可能的事件,每边一种。我们可以用集合来表示样本空间 .一个随机变量那么可以被认为是函数在样本空间中,接受任何给定结果的概率被相应地加权。在公平死亡的情况下,每个结果的可能性都是一样的,尽管有人肯定能想出一个装死在这种情况下,所有六种事件的概率都不相等。
随机变量的样本空间可以是离散的,也可以是连续的。当一个滚动的骰子的结果是离散的,想象一箭射向一个目标。箭头可能击中的点形成一个连续的样本空间。
要完整地描述一个随机变量,必须同时指定样本空间(通常作为一个集合)和样本空间中所有事件的概率。对于一个离散的随机变量 通常,后者是通过写作来完成的 在哪里 是样本空间中的某个事件。例如,对于一个滚动是随机变量的六面骰子 ,可以这样写
为
对于连续随机变量 谁的样本空间是实数的子集概率密度函数 定义为
在哪里 是概率 隔 而且 包容性。一个可以查看 作为在小区间内获得一个值的无穷小概率 周围 .集成 在有限区间内 因此提供了结果将在该区域的概率。
在统计学中经常出现几个连续分布:
随机变量的一个基本性质是获得的概率任何结果必须等于 .换句话说,如果 表示样本空间,
估计
假设有人得到一组数值数据 ,它们都是实数值。如何描述这些数据呢?也许有趣的是(算术)的意思是,用 ,所有值的总和除以值的个数:
在许多情况下,平均值可以用来表示“典型”或“平均”值。
或者,人们可能对均值差的平方感兴趣,也就是方差和用
方差可以表示值中平均“波动”的平方。
在任何情况下,给定一组随机变量 ,可以使用一个或多个表示数据统计数据.统计数据,例如均值或方差,只是随机变量的函数
知道每一个可能的数据块的值是很好的,但在大多数实际情况下,这既不可行,也不可取。相反,一个人必须估计的期望统计值人口根据统计数据样本从人群中提取的价值。
假设已知一小部分金条样本的权重。如何用它来确定的平均权重呢所有在同一天铸造的金条中,样品中只选取了一小部分?直觉上,这似乎是一个很好的估计来代表所有金条的平均值总体均值)就是样本的均值。但是其他一些统计数据——也就是样本中选择的值的任何函数——可能是相关的,比如标准差或方差(标准差的平方)。如何为这些其他统计数据选择一个良好的总体值估计值?
一个估计量是一个函数 样本随机变量的。它本身是一个随机变量。对样本随机变量的给定值求值的估计量称为估计.当一个特定的