隐马尔可夫模型

$一个具有3个状态和4个观察标记的简单隐马尔可夫模型。状态用标签$x_1$、$x_2$和$x_3$表示，而状态之间的转移概率用边缘标签$a_{ij}$表示，表示从状态$x_i$转移到状态$x_j$的概率。观察值由标签$y_1$、$y_2$、$y_3$和$y_4$表示。状态$x_i$产生观测$y_j$的概率用边标$b_{ij}$表示。$ 一个具有3个状态和4个观察标记的简单隐马尔可夫模型。状态由标签表示 $x_1$ ， $x_2$ , $x_3$ ，而状态之间的跃迁概率则用边标签表示 $现代{ij}$ 从状态移动的概率 $x_i$ 州 $x_j$ ．观察结果用标签表示 $y_1$ ， $y_2$ ， $y_3$ , $y_4$ ．状态的概率 $x_i$ 生成的观察 $y_j$ 是否由边标签表示 $b_ {ij}$ ．

一个隐马尔可夫模型是一种图形化的模型通常用于建模时态数据。与传统的马尔可夫模型，隐马尔可夫模型(摘要)假设所观察到的数据不是模型的实际状态，而是由底层模型生成的隐藏的(HMM中的H)表示。虽然这通常会使推断变得困难，但马尔可夫性质(HMM中的第一个M)使推理变得高效。

由于其灵活性和计算效率，隐马尔可夫模型在许多不同的领域得到了广泛的应用。它们以在时间模式识别和生成中使用而闻名，如语音识别、手写识别和语音合成。

概述

通常，当一个人对一个系统进行观察时，被观察到的不是系统的状态，而是由系统的底层隐藏状态生成的一些标记或数据。例如，当一个人听到别人说话时，进入他们耳朵的声音并不是产生声音的系统的状态。该系统的真实状态将是直接决定产生哪些声音的参数的集合，如说话者嘴的形状、声带的频率和声音背后的语义。

然而，仅从观察结果中不可能知道底层系统的确切状态，因为许多底层状态可能对应于相同的观察结果。因此，函数可以将状态映射到观测值 $f (s) = o$ ,在那里 $年代$ 是状态变量和吗 $o$ 是由函数生成的观察结果吗 $f (x)$ 应用于 $年代$ 有两种不同的状态 $东北s_1、s_2$ 产生相同的观察结果 $f (s_1) = f (s_2)$ ．这就是所谓的多对一的函数一般来说，这是不可能完全倒置的，因为 $f ^ {1} (o)$ 可以平等 $s_1$ 或 $s_2$ ．

考虑多对一函数 $y = x ^ 2$ ．由于只有 $y$ ，一个人无法恢复 $x$ 正是因为 $- x$ 而且 $x$ 对应于 $y$ 当的平方。HMM的相似之处在于，给定一个观察序列，人们只能推断在任何时间点上状态的分布，因为许多不同的基础状态序列可以产生相同的观察序列。

在语音识别的情况下，知道产生声音的潜在语义会使问题变得容易。这是因为语音识别的全部问题是发现观察(声音)背后的模型状态(语义)。因此，能够在观察到的情况下对HMM的基本状态进行建模和推断，为许多类型的问题提供了一种强大的技术。

时间演化

隐马尔可夫模型的演化遵循两个规则:

第一个规则是模型从当前状态移动到下一个状态，下一个状态可能是相同的状态，根据一些只依赖于当前状态的概率分布，即。 $p (s_t | s_ {t - 1}) = p (s_t | s_ {t - 1}, \点,s_0)$ ．这被称为马尔可夫性质．直观地说，这条规则表明，系统的发展不考虑系统的过去状态，只依赖于当前状态。
第二个规则是，在每次转换之后，模型都会发出一个观察它的分布只取决于当前的状态，即。 $p (o_t | s_t) = p (o_t | s_t, o_ {t - 1}, s_ {t - 1}, \点,o_0, s_0)$ ．由于模型只发出观察结果，而生成观察结果的状态对观察者来说是未知的，因此生成这些观察结果的状态被称为隐状态．

^[1]

规范

隐马尔可夫模型完全由以下参数指定:

1）状态转移概率
从状态转移的概率 $s_i$ 州 $s_j$ 是 $现代{ij}$ ．

2）观察发射概率
发射观测的概率 $o_t$ 而在国家 $s_i$ 是 $P (o_t | s_i)$ ．如果观察集合是离散的，那么发射标记的概率 $o_j$ 从国家 $s_i$ 是 $b_ {ij}$ ．

3）状态初始化概率
HMM在状态启动的概率 $s_i$ 是 $\ pi_i$ ．

知道了上述参数，我们就可以很容易地生成观察序列。我们从选择一个初始隐藏状态开始 $s_0$ 根据分布 $\π$ ．然后，我们选择一个观察结果 $o_0$ 鉴于 $s_0$ ．接下来，模型转换到一个新的隐藏状态 $s_1$ 根据状态的状态转移概率 $s_0$ 之后，模型发出一个新的观察结果 $o_1$ ．这个过程一直持续到生成所需的观察数为止。

观察概率

由于hmm计算隐藏状态和输出的概率序列，自然会问可能性一个特殊的观察序列 $O$ 是多少。计算一个观测序列的概率涉及HMM的隐藏状态的和，这对于大型HMM，使朴素的计算非常缓慢。幸运的是，应用技术动态规划可以使这个计算更容易处理。

想象两个说话的人，鲍勃和爱丽丝。如果每个人都有一个经过训练的HMM来模拟他们的声音，那么我们就可以计算出任何声音序列的可能性。如果我们计算Bob的声音在他的嗯的情况下出现的可能性，我们会期望它比Alice的嗯的情况下Bob的声音出现的可能性高。直观地说，这是因为来自Bob的HMM的观察序列应该听起来像Bob，或者至少更像Bob而不是Alice，因为它是根据Bob的声音训练的。同样地，Alice的声音出现HMM的可能性应该比Bob的声音出现HMM的可能性高。知道了这一点，我们就可以进行一些基本的说话人识别，只需计算给定一些已知hmm的观察序列的可能性。最有可能的说话者是其HMM最能生成实际语音数据的人。

^[２]

参考文献

, M。Hidden-markov-model-abc．检索自2013年9月11日https://commons.wikimedia.org/wiki/File: Hidden-markov-model-abc.svg)
, T。HiddenMarkovModel．2007年8月29日，从https://commons.wikimedia.org/wiki/File:HiddenMarkovModel.png

有关……

内容