高斯混合模型

三个正态分布的高斯混合。^[1]

高斯混合模型是用概率模型来表示的吗正态分布整个种群中的亚种群。混合模型一般来说，不需要知道数据点属于哪个子种群，允许模型自动学习子种群。由于亚种群分配是未知的，这构成了一种形式的无监督学习．

例如，在建模人类身高数据时，身高通常被建模为每个性别的正态分布，男性的平均值约为5'10"，女性的平均值约为5'5"。如果只给出身高数据而不给出每个数据点的性别分配，那么所有身高的分布将遵循两个缩放(不同的方差)和移动(不同的平均值)的正态分布的和。作出这种假设的模型是高斯混合模型的一个例子(GMM)，尽管一般来说GMM可能有两个以上的组件。估计各个正态分布分量的参数是GMMs数据建模中的一个典型问题。

gmm已被用于从语音数据中提取特征，也被广泛用于多目标的目标跟踪，其中混合分量的数量及其均值预测视频序列中每一帧的目标位置。

动机

数据可能遵循混合模型的一个提示是，数据看起来多通道，即数据分布中有多个“峰值”。试图拟合一个多态分布单峰(一个“峰值”)模型通常会给出一个较差的拟合，如下例所示。由于许多简单的分布都是单峰分布，建立多峰分布模型的一个明显的方法是假设它是由多个单峰分布产生的。数理论的原因在建模真实世界的单峰数据时，最常用的分布是高斯分布。因此，将多模态数据建模为许多单模态高斯分布的混合具有直观意义。此外，gmm保持了高斯模型在理论和计算上的许多优点，使它们能够有效地建模非常大的数据集。

(左)拟合单高斯分布(右)拟合双组分高斯混合模型

该模型

高斯混合模型由两种类型的值参数化，即混合组件的重量和组件意味着而且方差/协方差．对于高斯混合模型 $K$ 组件, $k ^ \文本{th}$ 成分有一个平均数 $\ mu_k$ 和方差的 $\ sigma_k$ 为单变量情况下还有一种 $vec{\ \μ}_k$ 的协方差矩阵 $\ Sigma_k$ 为多变量情况下．混合组分权重定义为 $\ phi_k$ 为组件 $C_k$ ，约束条件是 $\ \ sum_ {i = 1} ^ K phi_i = 1$ 所以总概率分布归一化为 $1$ ．如果不知道组件的权重，则可以将它们视为先天的在组件上的分布 $p(x \text{由组件生成}C_k) = \phi_k$ ．如果他们是学习来的，他们就是无网格给定数据的分量概率的估计。

一维模型

$\{对齐}开始p (x) & = \ sum_ {i = 1} ^ K \ phi_i \ mathcal {N} (x \; | \;\mu_i， \sigma_i)\\ \mathcal{N}(x \;|\;\ mu_i \ sigma_i) & = \压裂{1}{\ sigma_i \ sqrt{2 \π}}\ exp \离开(- \压裂{(x - \ mu_i) ^ 2} {2 \ sigma_i ^ 2} \) \ \ \ sum_ {i = 1} ^ K \ phi_i & = 1 \{对齐}结束$

多维模型

$开始\ p{对齐}(vec {x} \) & = \ sum_ {i = 1} ^ K \ phi_i \ mathcal {N} (vec {x} \ \ | \;vec{\μ}_i, \ \ \ \ \ mathcal Sigma_i) {N} (vec {x} \ \ | \;vec{\μ}_i, \ \ Sigma_i) & = \压裂{1}{\√6{(2 \π)^ K | \ Sigma_i |}} \ exp \离开(- \压裂{1}{2}(vec {x} - \ \ vec{\μ}_i) ^ \ mathrm {T} {\ Sigma_i} ^ {1} (vec {x} \ - vec{\μ}_i) \ \) \ \ \ sum_ {i = 1} ^ K \ phi_i & = 1 \{对齐}结束$

学习模型

如果组分的数量 $K$ 是已知的,期望最大化是估计混合模型参数最常用的技术。在频率论的概率论，模型通常通过使用最大似然估计在给定模型参数的情况下，寻求使观测数据的概率或可能性最大化的技术。不幸的是，寻找混合模型的最大似然解的微分日志的可能性和解决 $0$ 通常是不可能分析的。

期望最大化(新兴市场)是一种极大似然估计的数值技术，通常用于计算更新模型参数的封闭形式表达式(如下所示)。期望最大化是一种迭代算法，它有一个方便的特性，即数据的最大似然严格地随着后续的迭代而增加，这意味着它保证接近a局部最大值或鞍点．

高斯混合模型的EM

混合模型的期望最大化分为两个步骤。

第一步，被称为期望步E步骤，包括计算组件分配的期望 $C_k$ 对于每个数据点 $在X x_i \$ 给定模型参数 $\ phi_k$ ， $\ mu_k$ , $\ sigma_k$ ．

第二步被称为最大化步米步，由E步中计算的关于模型参数的期望的最大化组成。此步骤包括更新值 $\ phi_k$ ， $\ mu_k$ , $\ sigma_k$ ．

整个迭代过程重复，直到算法收敛，给出一个最大似然估计。直观地说，算法工作是因为知道了组件的分配 $C_k$ 为每一个 $x_i$ 解决了 $\ phi_k$ ， $\ mu_k$ , $\ sigma_k$ 简单,虽然了解 $\ phi_k$ ， $\ mu_k$ , $\ sigma_k$ 可以推断 $p (C_k | x_i)$ 一件容易的事。期望步骤对应后一种情况，最大化步骤对应前一种情况。因此，通过假设固定值或已知值之间的交替，可以以一种有效的方式计算非固定值的最大似然估计。

EM算法更新了双组分二元高斯混合模型的参数。^[２]

单变量高斯混合模型的算法

高斯混合模型的期望最大化算法首先是初始化步骤，根据数据为模型参数分配合理的值。然后，模型在期望(E)和最大化(M)步骤上迭代，直到参数的估计收敛，即对所有参数 $\ theta_t$ 在迭代 $t$ ， $| \ theta_ {t} - \ theta_ {t - 1} | \ \ε$ 对于一些用户定义的公差 $\ε$ ．右边显示了EM算法在双组分、二元高斯混合模型中的作用图。

一类单变量高斯混合模型的EM算法 $K$ 组件描述如下。一个变量来表示 ${\ \帽子θ}$ 表示值的估计值 $\θ$ ．所有的方程都可以通过求解上面一节中提到的每个参数来代数推导出来高斯混合模型的EM．

初始化步骤:

随机分配样本，不从数据集中进行替换 $X = \ {x_1,……, x_N \}$ 对分量均值的估计 ${\μ}_1 \帽子,…,{\μ}_K \的帽子$ ．例如 $K = 3$ 而且 $N = 100$ ,设置 ${\μ}_1 \帽子=间{45},{\μ}\帽子_2 =间{32},{\μ}_3 \帽子=间{10}。$

将所有分量的方差估计设为样本方差 ${\σ}_1 \帽子^ 2,…，\hat{\sigma}_K^2=\frac{1}{N}\sum_{i=1}^N(x_i-\bar{x})^2,$ 在哪里 $酒吧\ {x}$ 是样本均值 $酒吧\ {x} = \压裂{1}{N} \ sum_ {i = 1} ^ Nx_i。$

将所有分量分布的先验估计设为均匀分布 ${\φ}_1 \帽子,…，\hat{\phi}_K=\frac{1}{K}.$

期望(E)步骤:

计算 $\陪我,k$

${\ \帽子伽马}_{本土知识}={φ\}\压裂{\帽子_k \ mathcal {N} (x_i \; | \;\帽子{\μ}_k \帽子{\σ}_k)} {\ sum_ {j = 1} ^ K \帽子{\φ}_j \ mathcal {N} (x_i \; | \;\帽子{\μ}_j \帽子{\σ}_j)},$

在哪里 ${\ \帽子伽马}_{本土知识}$ 是概率 $x_i$ 由组件生成 $C_k$ ．因此, ${\ \帽子伽马}_{本土知识}= p (C_k | x_i,帽子\{\φ},{\μ}\帽子,帽子\{\σ})。$

最大化(M)步骤:

使用 ${\ \帽子伽马}_{本土知识}$ 在期望步骤中计算，按此顺序计算以下内容 $给所有凯西:\$

${\ \ displaystyle \帽子φ}_k = \ sum_ {i = 1} ^ N \压裂{\帽子{\伽马}_{翼}}{N}$

${\ \ displaystyle \帽子μ}_k = \压裂{\ sum_ {i = 1} ^ N \帽子{\伽马}_{本土知识}x_i} {\ sum_ {i = 1} ^ N \帽子{\伽马}_{翼}}$

${\ \ displaystyle \帽子σ}_k ^ 2 = \压裂{\ sum_ {i = 1} ^ N \帽子{\伽马}_{翼}(x_i - \帽子{\μ}_k) ^ 2} {\ sum_ {i = 1} ^ N \帽子{\伽马}_{翼}}。$

当分量数 $K$ 不是先验已知的，通常是猜测组成部分的数量，并使用EM算法将该模型与数据拟合。的许多不同值都可以这样做 $K$ ．通常，在拟合度和组件数量(更简单的模型有更少的组件)之间进行最佳权衡的模型被保留。

多元情况下的EM算法是类似的，虽然它更复杂，因此不在这里阐述。

无监督学习

一旦EM算法运行完成，拟合模型可用于执行各种形式的推断。在gmm上进行的两种最常见的推断形式是密度估计而且聚类．

使用高斯混合模型聚类。每种颜色根据模型表示不同的簇。^［３］

密度估计

由于GMM完全由其各个组成部分的参数决定，一个拟合的GMM可以给出样本内和样本外数据点概率的估计，称为密度估计。此外，由于从单个高斯分布中进行数字采样是可能的，因此可以很容易地从GMM中进行采样以创建合成数据集。

从GMM采样包括以下步骤:

1.根据定义的分布对高斯分量进行抽样 $p (C_s) = \ phi_s。$
2.样本 $x$ 从分量的分布 $C_s$ ，根据定义的分布 $\ mathcal {N} (x \; | \;\ mu_s \ sigma_s)。$

聚类

使用贝叶斯定理而估计出的模型参数，还可以估计出后验分量分配概率。知道一个数据点可能来自一个组件分布而不是另一个组件分布，这提供了一种学习集群的方法，其中集群分配由最可能的组件分配决定。聚类在机器学习中有很多用途，从医学成像中的组织分化到市场研究中的客户细分。

给定单变量模型的参数，一个数据点的概率 $x$ 属于组件 $为C_i$ 用贝叶斯定理计算:

$p(为C_i \; | \;x) = \压裂{p (x,为C_i)} {p (x)} = \压裂{p(为C_i) p (x \; | \;为C_i)} {\ sum_ {j = 1} ^ Kp (C_j) p (x \; | \;C_j)} = \frac{\phi_i \mathcal{N}(x \;|\;\ mu_i \ sigma_i)} {\ sum_ {j = 1} ^ K \ phi_j \ mathcal {N} (x \; | \;\ mu_j \ sigma_j)}。$

另请参阅

参考文献

,年代。Gaussian-mixture-example．2012年6月13日，从https://commons.wikimedia.org/wiki/File:Gaussian-mixture-example.svg
C。EM_Clustering_of_Old_Faithful_data．检索自2012年8月1日https://commons.wikimedia.org/wiki/File:EM_Clustering_of_Old_Faithful_data.gif
C。SLINK-Gaussian-data．检索自2011年10月23日https://commons.wikimedia.org/wiki/File:SLINK-Gaussian-data.svg
邓,l(2014)。自动语音识别-一种深度学习方法(6 - 8页。)。施普林格。
桑托什,d .(2013)。基于高斯混合模型的多运动目标跟踪。国际软计算与工程杂志，3 - 2, 114 - 119。

推荐的课程

机器学习

有关……

内容

掌握这些概念