首页 > 代码库 > 基于互信息和左右信息熵的短语提取识别

基于互信息和左右信息熵的短语提取识别

基于互信息和左右信息熵的短语提取识别
在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤。测试数据算法工程师算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工...

继续阅读:码农场 » 基于互信息和左右信息熵的短语提取识别

原文链接:http://www.hankcs.com/nlp/extraction-and-identification-of-mutual-information-about-the-phrase-based-on-information-entropy.html

基于互信息和左右信息熵的短语提取识别