首页 > 代码库 > jieba初步了解

jieba初步了解

http://www.gowhich.com/blog/147

jieba自带词典:dict.txt

一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开

例如:词 频率 词性

一不注意 3 i
一不留神 3 i
一专多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龙门 3 i

 

这篇文档介绍的比较详细:http://www.cnblogs.com/wangtao_20/p/3647240.html

关于中文分词方法的了解:

 

一、基于词典分词

 

机械分词:

按照长度优先级不同,分为最大匹配与最小匹配

按匹配方向不同,分为正向匹配与逆向匹配

缺点:缺乏歧义分析处理,切分精度低

 

基于规则分词方式:

基于统计分词方式:

以上两者可以依赖库也可以不依赖库,与词典分词结合起来用。难以严格区分

实践中,经常以正向匹配方式为主。

依赖于词典的方法,缺点是:没有在词典中出现的词语,就没法作为关键词进行切分(识别新词一般使用统计法)。

 

二、基于词频统计分词

 

将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。

实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

 

三、基于规则分词

 

即基于理解分词

规则法,目前常见的是CRF(Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field)。具体的实现可参考http://nlp.stanford.edu/software/segmenter.shtml
基于统计和基于规则的分词法是非词典,也就是可以不需要词典的(实际中是多种方式结合,所以会与词典结合)。
基于词典的和不基于词典的两类分词法,有他们各自的优缺点
基于词典的,部署比较简单,只需要安装词库即可。实现也简单,对比查找词语库的思路。
缺点是,分词精度有限,对于词典里没有的词语识别较差。

非词典分词法,优点是,对于出现过的词语识别效果较好,能够根据使用领域达到较高的分词精度。
缺点:实现比较复杂。前期需要做大量的工作。

 

现实中,没有一种分词方法能够满足所有需求。所以一般都是多种分词方法结合起来使用,相互弥补。

现实中的使用词典来存储大部分关键词,而识别新词使用统计法。最后就是词典+统计法结合起来使用。

既能达到分词精准,又能分词速度快,往往是比较理想的状态。但要求精准就会存在性能消耗。搜索引擎需要在分词速度与分词准确度方面求得平衡。

中文分词一直要解决的两大技术难点为:歧义识别和新词识别(新的人名、地名等)

jieba初步了解