系列0：全书概述与个人总结

本书是大牛Philipp Koehn的作品，他是开源项目Moses项目的领导者，具体可以去www.statmt.org/moses/查看，我也会在未来的半个月写一些有关Moses学习的博文。

本书分为三个部分：基础知识（介绍机器翻译需要语言学的基础、概率论的基础）、核心方法（基于词的翻译模型、基于短语的翻译模型、解码decoding）、前沿研究

在绪论部分，本书说了机器翻译的简史：

　　Warren Weaver说过（大概意思）汉语文章其实是用一些奇怪编号编码的英文，解码过来就是翻译。

　　早期人们提出了很多的方法，包括直接翻译、转换方法、中间语言方法等等。 ALPAC报告之后，各种研究都跪了....

历史就不多说，还是说本书内容

基本的文本处理步骤之一就是词例化（tokenization），比如说中文分词（我听说有个结巴分词托管在github上，有时间来补充地址）

后面叙述了齐夫定律，也就是词的序号r与使用频次f的乘积接近为一常量

写不下去了。。。准备每章写完详细总结再来写

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们