简明GMM-HMM语音识别模型

2024-07-06 13:39:07 225人阅读

本文简明讲述GMM-HMM在语音识别上的原理，建模和测试过程。这篇blog只回答三个问题：

1. 什么是Hidden Markov Model？

2. GMM是神马？怎样用GMM求某一音素（phoneme）的概率？

3. GMM+HMM大法解决语音识别

首先声明我是做视觉的不是做语音的，迫于**需要24小时速成语音。上网查GMM-HMM资料中文几乎为零，英文也大多是paper。苦苦追寻终于貌似搞懂了GMM-HMM，本文结合最简明的概括还有自己一些理解应运而生，如有错误望批评指正。

====================================================================

1. 什么是Hidden Markov Model？

ANS：一个有隐节点（unobservable）和可见节点（visible）的马尔科夫过程（见详解）。

隐节点表示状态，可见节点表示我们听到的语音或者看到的时序信号。

最开始时，我们指定这个HMM的结构，训练HMM模型时：给定n个时序信号y1...yT（训练样本）, 用MLE（typically implemented in EM）估计参数：

1. N个状态的初始概率

2. 状态转移概率a

3. 输出概率b

--------------

---------------------------------------------------------------------

2. GMM是神马？怎样用GMM求某一音素（phoneme）的概率？

2.1 简单理解混合高斯模型就是几个高斯的叠加。。。e.g. k=3

2.2 GMM for state sequence

每个state有一个GMM，包含k个高斯模型参数。如”hi“（k=3）：

PS：sil表示silence（静音）

其中，每个GMM有一些参数，就是我们要train的输出概率参数

只要已知了这些参数，我们就可以在predict（识别）时在给定input sequence的情况下，计算出一串状态转移的概率。如上图要计算的state sequence 1->2->2概率：

3. GMM+HMM大法解决语音识别

我们获得observation是语音waveform, 以下是一个词识别全过程：

1. 将waveform切成等长frames，对每个frame提取特征（e.g. MFCC）,

2.对每个frame的特征跑GMM，得到每个frame(o_i)属于每个状态的概率b_state(o_i)

3. 根据每个单词的HMM状态转移概率a计算属于该词的概率（如上图最后一行）;那个词的HMM跑出来概率最大，就判断这段语音属于该词

宏观图：

(from Encyclopedia of Information Systems, 2002)

本文太过简略，只为科普。欢迎关注Rachel____Zhang

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们