首页 > 代码库 > 【数学之美】第3章 统计语言模型

【数学之美】第3章 统计语言模型

用数学的方法描述语言规律

 

贾里尼克:一个句子是否合理,等同于判断其可能性的大小,用概率来衡量

Markov模型:简化条件概率运算。

二元模型 Bigram model,N元模型

为什么合理?上下文相关,短程依赖。

不足之处:忽略长程依赖性 Long Distance Dependency

N的取值?tradeoff,同时关注:效果的提升,资源的耗费

 

模型训练的问题:零概率问题(不平滑)

解决办法:平滑方法

理论基础:

Good-Turing Estimate: 相信可靠的统计数据,对不可信的统计数据打折扣,将折扣出来的小部分概率给予为看见的事件 (Unseen Events)

(IBM)Katz backoff

 

语料的选取问题:训练语料尽量和模型应用的领域相结合

训练数据尽可能多。但在某些领域(如机器翻译的双语语料)训练数据很少,无法追求大量数据

需要过滤训练数据