首页 > 代码库 > nltk-比较中文文档相似度

nltk-比较中文文档相似度

nltk同时也能处理中文的场景,只要做如下改动:

  1. 使用中文分词器(如我选用了结巴分词)

  2. 对中文字符做编码处理,使用unicode编码方式

  3. python的源码编码统一声明为 gbk

  4. 使用支持中文的语料库

to be continue...


nltk-比较中文文档相似度