首页 > 代码库 > 基于SRILM的ARPA的n-gram语言模型格式

基于SRILM的ARPA的n-gram语言模型格式

 

\data\

ngram 1=10

ngram 2=20

ngram 3=30

 

\1-grams:

-2.522091   啊  -0.4599362

-3.616682   阿  -0.2710813

-5.888154   阿坝

-5.483542   阿布    -0.02341532

-5.513821   阿迪达斯    -0.08972257

-5.357502   阿哥

-5.619849   阿胶

-5.003489   阿拉    -0.0459251

-5.11305    阿拉伯  -0.1348525

-5.11305    阿拉伯数字  -0.153861

 

\2-grams:

-2.841684   阿 楠

-1.279527   阿布 贾

-0.7184195  阿迪达斯 </s>

-1.628645   阿拉 阿拉

-1.628414   阿拉 蕾

-1.272437   阿拉 善

-1.37447    阿拉伯 贵族

-1.122427   阿拉伯 人

-1.373596   阿拉伯 数

-0.9671616  阿拉伯 语

 

\3-grams:

-0.7579774  啊 啊 </s>

-0.3643477  啊 啊 啊

-1.625012   啊 啊 对

-1.826232   啊 啊 行

-0.1952119  爱 啊 </s>

-0.1937787  安排 啊 </s>

-0.2185729  安全 啊 </s>

-0.1328749  安装 啊 </s>

-0.3589647  吧 啊 </s>

-1.99777    吧 啊 拜拜

 

*上面的值都是以10为底的对数值(词组前面的数字:概率,词组后面的数据,回退权值)

 

 

计算一个句子在该ARPA中的概率如下(3gram为例):

# Make sure the OOVs change to <unk>

#P(word3| word1, word2):

#   if has (word3| word1, word2){

#       return P(word3| word1, word2);

#   }else if has (word2| word1){

#       return backOff(word2| word1) * P(word3| word2);

#   }else{

#       return P(word3| word2);

#   }

#P(word2 | word1):

#   if has (word2| word1){

#       return P(word2| word1);

#   }else{

#       return backOff(word1) * P(word2);

#   }

 

python 实现

 

def wordsProbs(words, dict):

    wordArr = words.split(" ")

    if len(wordArr) == 3:

        if dict.has_key(words):

            return dict.get(words).prob

        elif dict.has_key(wordArr[0] + " " + wordArr[1]):

            return dict.get(wordArr[0] + " " + wordArr[1]).backoff + wordsProbs(wordArr[1] + " " + wordArr[2], dict)

        else:

            return wordsProbs(wordArr[1] + " " + wordArr[2], dict)

    elif len(wordArr) == 2:

        if dict.has_key(wordArr[0] + " " + wordArr[1]):

            return dict.get(wordArr[0] + " " + wordArr[1]).prob

        else:

            return dict.get(wordArr[0]).backoff + wordsProbs(wordArr[1], dict) #make sure OOV change to <unk>,or error

    else:

        return dict.get(wordArr[0]).prob #make sure OOV change to <unk>,or error

 

*通过以上获取的是logP(3gramWords),probs = 10 ^ logP(3gramWords),probs即是3gramWords的最终概率值

 

 

基于SRILM的ARPA的n-gram语言模型格式