首页 > 代码库 > SRILM语言模型格式解读

SRILM语言模型格式解读

先看一下语言模型的输出格式

(注:上面的值都是以10为底的对数值)


上面是一个语言模型的一部分,三元语言模型的综合格式如下:

第一项表示ngram的条件概率,就是P(wordN | word1,word2,。。。,wordN-1)。

第二项表示ngram的词。

最后一项是回退的权重。


举例来说,对于三个连续的词来说,我们计算三个词一起出现的概率:

表示word1和word2出现的情况下word3出现的概率,比如P(平|习,进)的意思是已经出现了“习进”两个字,后面是平的概率,这个概率这么计算:


上面的计算又集中在计算P(word3 | word2)的概率上,就是如果不存在习进平的三元模型,此时不管何种路径,都要计算P(word3 | word2) 的概率,计算如下: