多元正态分布
正式的定义
属性
的p.d.f。多元正态分布 是由
在哪里 .
在理解这个方程时,将其与的p.d.f.进行比较是有用的一元正态分布,即1变量的正态分布,由
在这个单变量情况下, 是的二次函数吗 ,这是一个抛物线因为前面的系数是负的,所以开口向下。在多元情况下, 是一个二次形式向量中 .自 是正定,这个二次型是负定的,因此打开一个向下的“碗”,类似于单变量情况下抛物线向下打开的方式。
单变量情况下的前系数 不依赖于 ,以这样一种方式被选择
类似地,多元情况下的前导系数 不依赖于 ,以这样一种方式被选择
同样值得注意的是,在这种情况下,多元公式简化为单变量公式 就像这个例子一样 .
多元分布的一个重要意义是中心极限定理多个变量:
假设 一个独立的,同分布的随机向量序列是否具有共同的平均向量 和正定的协方差矩阵 .然后
收敛于
应用程序
多元正态分布有助于分析多个正态分布变量之间的关系,因此在生物学和经济学中具有重要的应用,在这些领域中,近似正态变量之间的关系是非常有趣的。例如,多元分布最早的应用之一是分析父亲的身高和大儿子的身高之间的关系,解决了达尔文在《物种起源》.这项研究揭示了:
- 父子身高均呈正态分布,平均68,方差3(英寸)。
- 对于任何给定的高度 即父亲身高高的儿子的身高 是也正态分布,实际上平均身高是的线性函数 .
实际上,高尔顿发现了条件分布多元正态的:如果 被划分到 , 成 , 成 ,然后
谁的重要性主要延伸到条件分布的事实 的正态分布,其中参数为的函数 .
在现代,多元正态分布非常重要机器学习,其目的(非常粗略地说)是对输入数据进行分类 到标签 ,基于一些训练对 .一个主要的方法是分析分布 ,并近似于多元正态分布,其有效性可以用各种正常的测试;然而,矛盾的是,基于多元正态分布的分类在实践中是成功的,即使已知它是一个糟糕的数据模型。