高斯混合模型

三个正态分布的高斯混合。^[1]

高斯混合模型是一种概率模型，用于表示正态分布整体人口中的群体。混合模型通常，不需要知道数据点所属的亚群，允许模型自动学习子步骤。由于亚居级分配尚不清楚，这构成了一种形式无人监督的学习。

例如，在建模人类身高数据时，身高通常被建模为每个性别的正态分布，男性的平均值约为5'10“，女性的平均值约为5'5”。考虑到每个数据点的身高数据而非性别分配，所有身高的分布将遵循两个比例（不同方差）和移位（不同平均值）正态分布的总和。作出这一假设的模型是高斯混合模型的一个例子(GMM.)，但一般来说，GMM可能有两个以上的组件。估计单个正态分布分量的参数是GMMs数据建模中的一个典型问题。

GMMs已被用于从语音数据中提取特征，并且还被广泛用于多个对象的对象跟踪，其中混合分量的数量及其平均值预测视频序列中每一帧的对象位置。

动机

数据可能遵循混合模型的一个提示是数据看起来多峰，即数据分布中存在多个“峰值”。尝试将多模式分布与单峰（一个“峰值”）模型通常会提供较差的拟合，如下例所示。由于许多简单分布都是单峰分布，因此对多峰分布建模的一个明显方法是假设它是由多个单峰分布生成的。好几个理论原因，在建模真实世界的单峰数据时，最常用的分布是高斯分布。因此，将多峰数据建模为许多单峰高斯分布的混合物具有直观的意义。此外，GMM保留了高斯模型的许多理论和计算优势，使其可用于有效地对非常大的数据集进行建模。

（左）拟合一个高斯分布（右）拟合两个分量的高斯混合模型

模型

高斯混合模型由两种类型的值参数化，即组件重量和组件方法和方差/协方差。用于高斯混合模型 $K.$ 组件 $k ^ \ text {th}$ 组件的平均值为 $\ mu_k.$ 和方差 $\西格玛$ 对于单变量情况和一个意思 $\vec{\mu}\k$ 和协方差矩阵 $\ sigma_k.$ 对于多变量案例。混合物组分重量定义为 $\菲克$ 组件 $库克$ ，带有约束 $\ sum_ {i = 1} ^ k \ phi_i = 1$ 因此，总概率分布标准化为 $1$ . 如果未学习组件权重，则可以将其视为先验分布在组件上，以便 $p（x \ text {由组件生成} c_k）= \ phi_k$ . 如果他们是被学习的，那么他们就是a-boundiori.给定数据的组件概率估计。

一维模型

$\ begin {对齐} p（x）＆= \ sum_ {i = 1} ^ k \ phi_i \ mathcal {n}（x \; | \; \ mu_i，\ sigma_i）\\ \ mathcal {n}（x \; | \; \ mu_i，\ sigma_i）＆= \ sigma_i \ sqrt {2 \ pi}} \ exp \ left（ - \ frac {（x-\ mu_i）^ 2} {2 \ sigma_i^ 2} \右）\\ \ sum_ {i = 1} ^ k \ phi_i＆= 1 \ neg {对齐}$

多维模型

$\{{{{{}}p（\vec{{{{x}}）p（\vec{{{{{{{{}}{{{{{{}}}}p（\vec{{{{{{{{{}}}p（\vec{{{{{{{{x}}）p（{{{{{{{{{{{{{{}}}}}p（\vec{{{{{}}}}}}{{{{{{{}}}}N}}（（\ve学校学校学校学校学校学校学校学校（\vec{{{{{{{{{{{{{{{{}}}}}}}}}}}}（（\维c{{{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}（（\\vec{{{{{{{{{{}（\\\ve{2}（\vec{x}-\vec{\mu}i）^\mathrm{T}{\Sigma{u i}{-1}（\vec{x}-\vec{\mu}i）\right）\\\sum{i=1}^K\phi i&=1\end{aligned}$

学习模型

如果组件数量 $K.$ 众所周知,，期望最大化是估计混合模型参数最常用的技术。在里面频率概率论，模型通常通过使用来学习最大似然估计在给定模型参数的情况下寻求最大化观察数据的概率或可能性的技术。不幸的是，通过区分混合模型来寻找最大的似然解决方案日志可能性解决 $0.$ 通常在分析上是不可能的。

期望最大化(em.)是一种用于最大似然估计的数值技术，通常用于计算用于更新模型参数的闭式表达式（如下所示）。期望最大化是一种迭代算法，它具有方便的特性，即数据的最大似然随每次后续迭代严格增加，这意味着它保证接近一个最大值本地最大值或马鞍点。

高斯混合模型的EM

混合模型的期望最大化包括两个步骤。

第一步，称为期待一步或E.步骤包括计算组件分配的期望值 $库克$ 对于每个数据点 $x\u i\in x$ 给定模型参数 $\菲克$ 那 $\ mu_k.$ ，及 $\西格玛$ 。

第二步被称为最大化一步或m步骤，它包括最大化在e ePet中计算的预期值，相对于模型参数。此步骤包括更新值 $\菲克$ 那 $\ mu_k.$ ，及 $\西格玛$ 。

整个迭代过程不断重复，直到算法收敛，给出最大似然估计。直观地说，该算法工作，因为知道组件分配 $库克$ 每人 $X_I.$ 使解决成为可能 $\菲克$ 那 $\ mu_k.$ ，及 $\西格玛$ 很容易，而知道 $\菲克$ 那 $\ mu_k.$ ，及 $\西格玛$ 推断 $p（C|k|x|i）$ 简单。期望步骤对应于后一种情况，而最大化步骤对应于前者。因此，通过将假定的值在其固定之间交替，或者已知的，可以以有效的方式计算非固定值的最大似然估计。

EM算法更新双组分双变量高斯混合模型的参数。^[2]

单变量高斯混合模型的算法

高斯混合模型的期望最大化算法从初始化步骤开始，该步骤根据数据将模型参数分配到合理的值。然后，该模型迭代期望（E）和最大化（M）步骤，直到参数的估计收敛，即对于所有参数 $\西塔$ 迭代时 $T.$ 那 $|\θ{t}-\θ{t-1}\le\epsilon$ 对于某些用户定义的公差 $ε$ . 右侧显示了两组分、二元高斯混合模型的EM算法运行图。

单变量高斯混合模型的EM算法 $K.$ 组件如下所述。一个表示的变量 $\ hat {\ theta}$ 表示该值的估计值 $\θ.$ . 所有方程都可以通过求解上述章节中概述的每个参数以代数方式导出高斯混合模型的EM。

初始化步骤：

随机分配样本而不从数据集替换 $x = \ {x_1，...，x_n \}$ 对分量均值的估计 $\hat{\mu}\u 1，…\hat{\mu}\K$ 。例如。为了 $K=3$ 和 $N=100$ ，放 $\hat{\mu}u1=x{45}、\hat{\mu}u2=x{32}、\hat{\mu}u3=x{10}。$

将所有分量方差估计值设置为样本方差 $\ hat {\ sigma} _1 ^ 2，...，\ hat {\ sigma} _k ^ 2 = \ frac {1} {n} \ sum_ {i = 1} ^ n（x_i- \ bar {x}）^ 2，$ 在哪里 $\ bar {x}$ 样本的平均值是多少 $\bar{x}=\frac{1}{N}\sum{i=1}^Nx{i。$

将所有分量分布的先验估计设置为均匀分布 $\ hat {\ phi} _1，...，\ hat {\ phi} _k = \ frac {1} {k}。$

期望（e）步骤：

算计 $\就我而言，k$

$\hat{\gamma}{ik}=\frac{\hat{\phi}{k\mathcal{N}（x{i\\124;\\ hat{\mu}{k\hat{\sigma}k}{\sum{j=1}^k\hat{\phi}{j\mathcal{N}（x{i\\124i\\ hat{\mu j}\hat}k}，$

在哪里 $\ hat {\ gamma} _ {ik}$ 有没有可能 $X_I.$ 是由组件生成的 $库克$ . 因此 $\ hat {\ gamma} _ {ik} = p（c_k | x_i，\ hat {\ phi}，\ hat {\ mu}，\ hat {\ sigma}）。$

最大化（M）步骤：

使用 $\ hat {\ gamma} _ {ik}$ 计算在期望步骤中，以该顺序计算以下内容 $\对于所有k：$

$\displaystyle\hat{\phi}\uk=\sum{i=1}^N\frac{\hat{\gamma}{ik}{N}$

$\ displaystyle \ hat {\ mu} _k = \ frac {\ sum_ {i = 1} ^ n \ hat {\ gamma} _ {ik} x_i} {\ sum_ {i = 1} ^ n \ hat {\ gamma}_{我知道}}$

$\ displaystyle \ hat {\ sigma} _k ^ 2 = \ frac {\ sum_ {i = 1} ^ n \ hat {\ gamma} _ {ik}（x_i - \ hat {\ mu} _k）^ 2} {\sum_ {i = 1} ^ n \ hat {\ gamma} _ {ik}}。$

当组件的数量 $K.$ 不知道先验，典型猜测组件的数量并使用EM算法将模型适合该模型。这是针对许多不同的值完成的 $K.$ . 通常，在拟合和组件数量（较简单的模型具有较少的组件）之间保持最佳平衡的模型。

多元情况下的EM算法是类似的，尽管它更复杂，因此在此不进行阐述。

无监督学习

一旦EM算法运行完成，就可以使用拟合模型来执行各种形式的推理。在GMM上完成的两个最常见的推理形式密度估计和群集。

使用高斯混合模型进行聚类。每个颜色代表根据模型的不同群集。使用高斯混合模型进行聚类。根据模型，每种颜色表示不同的簇。^[3]

密度估计

由于GMM完全由其各个分量的参数决定，拟合的GMM可以给出样本内和样本外数据点概率的估计，称为密度估计。此外，由于可以从单个高斯分布进行数字采样，因此可以很容易地从GMM采样到创建合成数据集。

来自GMM的采样包括以下步骤：

1.根据定义的分布对高斯分量进行采样 $p（c_s）= \ phi_s。$
2.样品 $X$ 从分配组件 $库斯$ ，根据 $\数学{N}（x\| \\mu\u s，\sigma\u s）。$

聚类

使用贝叶斯的定理和估计的模型参数，也可以估计后验组件分配概率。知道数据点可能来自一个组件分发而不是另一个组件分发提供了一种学习群集的方法，其中群集分配是由最可能的组件分配确定的。集群在机器学习中有许多用途，从医学成像中的组织分化范围到市场研究中的客户分割。

给定一元模型的参数，数据点 $X$ 属于组件 $库伊$ 使用贝叶斯定理计算：

$（C）p（C）p（C（C）U i\\20042004 2004 2004？？？？？？？\\\\\20042004 2004 2004 2004 2004？？？？？？？\上学上学上学上学（C）p（C）p（C）p（C）p（x）p（x）p（C（C）p（C（C）p（C（C）p（C（C（C）i）p（C（C（C（C）i）p（C（C（C（C）\\\\\上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学上学））））p（C（C（C（C（C\\\\\\\\；\mu\u j、\sigma\u j）}。$

也可以看看

工具书类

，S.高斯混合例子. 2012年6月13日检索自https://commons.wikimedia.org/wiki/file:gaussian-mixture-example.svg.
， C。旧数据的EM_聚类. 2012年8月1日检索自https://commons.wikimedia.org/wiki/File:EM_Clustering_of_Old_Faithful_data.gif
， C。SLINK-GAUSSIAN-DATA。从2011年10月23日恢复过来https://commons.wikimedia.org/wiki/File:SLINK-Gaussian-data.svg
邓，L.（2014）。自动语音识别——一种深度学习方法（第6-8页）。斯普林格。
Santosh，D。（2013）。使用高斯混合模型跟踪多个移动物体。国际软计算与工程学报那3-2114-119。

机器学习

目录

动机

模型

学习模型

无监督学习

最近的应用

也可以看看

工具书类

推荐课程

机器学习

与…有关。。。

目录

掌握这样的概念