首页 > 代码库 > 04(1) 基于上下文相关的GMM-HMM声学模型1

04(1) 基于上下文相关的GMM-HMM声学模型1

1.上下文对音素发音的语谱轨迹的影响

受到上下文的影响,同一个音素的发音语谱轨迹不同

为提高识别准确率,对音素建模时应将这种上下文影响考虑在内

技术分享

 

2.基于上下文相关的音素建模

注意,非单音素建模中,每个模型依旧代表一个音素,只是考虑了这个音素的上下文关系而已

1)双音素diphones

考虑上个音素/下个音素对当前音素的影响

技术分享

对于ROCK:

技术分享

两个??分别取决于ROCK的前一个单词的最后一个音素和后一个单词的第一个音素

灰色的边界单元为邻近单词所共享

技术分享

为语法/词序列中观察到的前后音素的每个组合构建单独的基于双音素的单词模型

技术分享

有时候,根据语法,同一个单词的不同模型的部分可以重叠

技术分享

由于边界单元为邻近单词所共享,所以不再具有明确识别出的单词级HMM

无法区分哪些双音素是词内,哪些是跨词---单词边界不明确

因此可区分对待词内双音素与跨词双音素---共2xNxN个模型(N为单音素个数)

分别用词内训练数据和跨词训练数据进行训练

 

2)三音素triphones

考虑上个音素和下个音素对当前音素的影响

技术分享

与双音素不同,不存在跨词共享的边界单元

与双音素相同,??与前一个音素和后一个音素相关,同一个单词对应多个单词模型

技术分享

技术分享

有时候,根据语法,出现部分重叠

技术分享

三音素的情况变得更为复杂:

模型数更多,搜索更慢

技术分享技术分享

基于单音素

技术分享

基于三音素

技术分享技术分享技术分享技术分享

 

3)多音素nphones

技术分享

4)单音素vs双音素vs三音素vs多音素

 技术分享技术分享技术分享技术分享

技术分享

技术分享

技术分享

 

3.基于上下文相关的声学模型训练

技术分享

技术分享

技术分享

 

04(1) 基于上下文相关的GMM-HMM声学模型1