统计数据
统计数据就是处理数据的科学。这包括理解已经存在的数据,使用它来预测未来,并评估这些预测的不确定性。做这些事情通常需要使用概率语言来捕捉所涉及的随机性。总的来说,统计学是理解世界的一个非常强大的工具,在金融和物理等各个领域都有应用。
随机变量
统计学的语言根植于此概率论,提供了一种处理随机变量和随机过程.
给定一个随机事件,人们可能会考虑样本空间可能的事件或者结果.例如,一个公平的六面骰子的样本空间有6个可能的事件,每个边一个。我们可以用集合来表示样本空间 .一个随机变量那么可以被认为是函数在样本空间中,接受任何给定结果的概率是相应加权的。在公平骰子的情况下,每个结果的可能性是相等的,尽管人们肯定可以想出一个装死这六种情况发生的可能性并不相同。
随机变量的样本空间可以是离散的,也可以是连续的。虽然滚动骰子的结果是离散的,但想象一下向目标射箭。箭头可能击中的点形成了一个连续的样本空间。
要完全描述随机变量,必须指定样本空间(通常为集合)和示例空间中所有事件的概率。对于离散随机变量 在美国,后者通常是通过写作来实现的 在哪里 是样本空间中的某个事件。例如,一个公平的六面骰子,它的滚动是随机变量 ,一个人可以写
为
对于连续随机变量 其样本空间是实数的子集,一般是一个给出的子集概率密度函数 定义为
在哪里 是 隔 和 包容性。一个人可以查看 作为在小间隔内获得值的无限概率 周围 .集成 跨越有限区间 这样就提供了结果将在该地区发生的可能性。
在统计中经常出现几种连续分布:
随机变量的一个基本性质是任何结果一定要相等 .换句话说,如果 为样本空间,
估计
假设给一个人一组数字数据 ,它们都是实数值。如何描述这些数据呢?也许有趣的是(算术)意思,用 ,所有值的总和除以值数:
在许多情况下,平均值可以用来表示“典型”或“平均”值。
大家可能会对均值差的平方感兴趣,也就是方差和用
方差可以表示这些值的平均“波动”的平方。
在任何情况下,给定一组随机变量 ,可以使用一个或多个来表示数据统计数据.统计量,如均值或方差,只是随机变量的函数
知道每个可能的数据块的值是很好的,但在大多数实际情况下,这既不可行,也不可取。相反,一个人必须估计A的期望统计量人口根据a样本从人口中提取的价值。
假设一个人已知一小部分金条样本的重量。如何用它来确定平均权重呢所有在同一天铸造的金条中,其中仅在样品中选择少数少数?直观地,它似乎是代表所有金条的平均值的良好估计(总体均值)就是样本的平均值。但是其他一些统计数据——也就是在样本中选择的值的任何函数——可能是相关的,比如标准偏差或方差(标准偏差的平方)。如何为其他统计选择一个好的总体值估计值?
一个估计量是一个函数 样本随机变量。它本身就是一个随机变量。评估对样品随机变量的给定值的估算器称为估计.当一个特定的