AI产品经理必修：揭开算法的面纱（隐含马尔可夫）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI产品经理必修：揭开算法的面纱（隐含马尔可夫）

CARRIE

2020-05-25

2 评论 3595 浏览 12 收藏

11 分钟

隐马尔可夫模型目前陆续成功地应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析等领域。近20年来，它广泛应用于股票预测和投资。本文抛弃那些眼花缭乱的数学公式，去看看隐含马尔可夫模型到底是什么？怎么用？

相信只要是涉足人工智能领域，你都会听到这样一个神秘的名字-隐含马尔可夫模型。是的，看了一圈文章和资料后，除了知道马尔可夫是个聪明绝顶的人，其他的就啥也不知道了。

正式开讲之前，先大概了解一下，这个算法有哪些主要的应用场景。

一个词概括，进行预测。

20世界80年代末李开复坚持采用隐马尔可夫模型的框架，成功的开发了世界上第一个大词汇量连续语音识别系统sphinx。接下来，隐马尔可夫模型陆续成功地应用于机器翻译、拼写纠错、手写体识别、图像处理、基因序列分析等领域。近20年来，它广泛应用于股票预测和投资。

今天，我想抛弃那些眼花缭乱的数学公式，去看看隐含马尔可夫模型到底是什么？怎么用？

一、隐含马尔可夫模型是什么？

我们还是分成三个阶段来了解。

概念一：马尔可夫假设

随机过程中各个状态s_t的概率分布，只与它前一个状态s_t-1有关。

举一个例子，我们可以把S₁,S₂ ,S₃…S_t…看做北京每天的最高气温，这里面的每个状态S_t都是随机的。理论上，任何一天的最高气温S_t取值都可能和这段时间以前的最高气温是相关的。

马尔可夫这个大神为了简化问题，做出了如上图的简化的假设。回到上面的例子，第二天的最高气温只跟昨天有关而与其他日期没有任何关联。

概念二：马尔可夫链

符合马尔可夫假设的随机过程称为马尔可夫过程，也称为马尔可夫链。

在这个马尔可夫链中，四个圈表示四个状态，每条边表示一个可能的状态转换，边上的权值是转移概率。

例如：某个时刻t的状态S_t是m₂,则下一个时刻S_t+1=m₃的概率是0.6，用数学符号表示是P（S_t+1=m₃|S_t=m₂）=0.6。

把这个马尔可夫链想象成一台机器，它随机选择一个状态作为初始状态，然后按照上述规则随机选择后续状态。

结果可能如下：

S₁=m₁S₂=m₂S₃=m₃S₄=m₄
S₁=m₂S₂=m₄
S₁=m₃S₂=m₃S₃=m₄
……

这样经过一段时间的运转，就会产生一个状态序列S₁，S₂，S₃… S_t。我们可以数出m_i出现的次数，以及m_i转换到m_j的转移概率。基于马尔可夫假设，每一个状态只与前一个状态相关，例如从m₃ 转移到m₄，不论在此之前是怎么进入m₃，这个概率都是0.3。

概念三：隐含马尔可夫模型

隐马尔可夫模型是上述马尔可夫链的一个扩展：任一时刻t的状态s_t是不可见的。所以观察者没法通过观察到一个状态序列s₁,s₂,s₃,…s_T-1来推测转移概率等参数。但是，隐马尔可夫在每个时刻t会输出一个符号o_t，而且o_t和s_t相关而且仅和s_t相关。这个被称为独立输出假设。

隐马尔可夫模型结构如下：

其中包含的状态s₁，s₂，s₃，s₄是一个典型的马尔可夫链。鲍姆把这种模型称为“隐含”马尔可夫模型。

那么，问题来了，什么是隐患状态？

从马尔可夫链中，我们看到的都是可见状态啊。这个问题真的困扰了我很久，我找了大量的资料，发现还是这样一个经典例子能够解释得清楚，请看：

假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。

现在，我们开始掷骰子，得到如下结果：

看出来了吧？什么是隐含状态？掷出来的数字是可见的，但是每次取哪个骰子，我们是不是不知道？

回到隐含马尔可夫模型，符号o_t就是我们掷出来得数字（1，2，3，4，5，6，7，8），隐患状态s_t就是我们掷得骰子（D6，D4，D8）。

现在，我们以掷骰子为例，来总结一下隐患马尔可夫模型得几个构成要素：

可见状态集：D6的可见状态集（1，2，3，4，5，6），D4的可见状态集（1，2，3，4），D8的可见状态集（1，2，3，4，5，6，7，8）
隐患状态集：上图中的隐含状态集为D6，D8，D8，D6，D4……
初始（隐含）状态转移概率：比如，第一次拿到D6,D4和D8的概率分别是0.1，0.4，0.5。
（隐含）状态转移概率：比如，我们可以这样定义，D6后面不能接D4，D6后面是D6的概率是9，是D8的概率是0.1。
（隐含状态至可见状态的）输出概率：就我们的例子来说，六面骰（D6）产生1的输出概率是1/6。产生2，3，4，5，6的概率也都是1/6，我们同样可以对输出概率进行其他定义。比如：我有一个被赌场动过手脚的六面骰子，掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。