统计数据

统计数据就是处理数据的科学。这包括理解已经存在的数据，使用它来预测未来，并评估这些预测的不确定性。做这些事情通常需要使用概率语言来捕捉所涉及的随机性。总的来说，统计学是理解世界的一个非常强大的工具，在金融和物理等各个领域都有应用。

内容

随机变量
估计
假设测试
统计建模

随机变量

统计学的语言根植于此概率论，提供了一种处理随机变量和随机过程．

给定一个随机事件，人们可能会考虑样本空间可能的事件或者结果．例如，一个公平的六面骰子的样本空间有6个可能的事件，每个边一个。我们可以用集合来表示样本空间 ${1, 2, 3, 4, 5, 6 \}$ ．一个随机变量那么可以被认为是函数在样本空间中，接受任何给定结果的概率是相应加权的。在公平骰子的情况下，每个结果的可能性是相等的，尽管人们肯定可以想出一个装死这六种情况发生的可能性并不相同。

随机变量的样本空间可以是离散的，也可以是连续的。虽然滚动骰子的结果是离散的，但想象一下向目标射箭。箭头可能击中的点形成了一个连续的样本空间。

要完全描述随机变量，必须指定样本空间（通常为集合）和示例空间中所有事件的概率。对于离散随机变量 $X$ 在美国，后者通常是通过写作来实现的 $P (X = A),$ 在哪里 $一个$ 是样本空间中的某个事件。例如，一个公平的六面骰子，它的滚动是随机变量 $Y$ ，一个人可以写

$p（y = j）= \ frac {1} {6}$

为 $J = 1 2 3 4 5 6。$

对于连续随机变量 $X$ 其样本空间是实数的子集，一般是一个给出的子集概率密度函数 $p$ 定义为

$P(a) ^b (X) / (X) / (X) / (X)$

在哪里 $p（a \ leq x \ leq b）$ 是 $X$ 隔 $一个$ 和 $b,$ 包容性。一个人可以查看 $p (x) \, dx$ 作为在小间隔内获得值的无限概率 $dx$ 周围 $x$ ．集成 $p (x)$ 跨越有限区间 $[a, b]$ 这样就提供了结果将在该地区发生的可能性。

在统计中经常出现几种连续分布:

的正态分布有密度 $p (x) = \压裂{1}{\ sqrt{2 \π\σ^ 2}}左\ exp \[- \压裂{(x - \μ)^ 2}{2 \σ^ 2}\右),$ 在哪里 $\μ$ 和 $\σ$ (固定)参数的分布。
的卡方分布与 $k$ 自由度是 $k$ 平方正态随机变量: $X = sum_{i=1}^ k_i ^2，$ 每个人 $Z_i的$ 是一个独立的正态随机变量 $\μ= 0$ 和 $\σ= 1。$

随机变量的一个基本性质是任何结果一定要相等 $1$ ．换句话说，如果 $年代$ 为样本空间，

$P(X \in S) = 1。$

估计

假设给一个人一组数字数据 $X_1 X_2 ldots X_n$ ，它们都是实数值。如何描述这些数据呢?也许有趣的是(算术)意思,用 $\μ$ ，所有值的总和除以值数：

$\mu = frac{X_1 + X_2 + \cdots + X_n}n。$

在许多情况下，平均值可以用来表示“典型”或“平均”值。

大家可能会对均值差的平方感兴趣，也就是方差和用

$\σ^ 2 = \压裂{1}{n} \ sum_ {i = 1} ^ n (X_i \μ)^ 2。$

方差可以表示这些值的平均“波动”的平方。

在任何情况下，给定一组随机变量 $X_1 X_2 ldots X_n$ ，可以使用一个或多个来表示数据统计数据．统计量，如均值或方差，只是随机变量的函数 $f(X_1, X_2， \cdots, X_n)$

知道每个可能的数据块的值是很好的，但在大多数实际情况下，这既不可行，也不可取。相反,一个人必须估计A的期望统计量人口根据a样本从人口中提取的价值。

假设一个人已知一小部分金条样本的重量。如何用它来确定平均权重呢所有在同一天铸造的金条中，其中仅在样品中选择少数少数？直观地，它似乎是代表所有金条的平均值的良好估计（总体均值)就是样本的平均值。但是其他一些统计数据——也就是在样本中选择的值的任何函数——可能是相关的，比如标准偏差或方差(标准偏差的平方)。如何为其他统计选择一个好的总体值估计值?

一个估计量是一个函数 $(X_1, X_2, ldots, X_n)$ 样本随机变量。它本身就是一个随机变量。评估对样品随机变量的给定值的估算器称为估计．当一个特定的

有关……

内容