nltk-比较中文文档相似度
2024-07-22 22:59:12 223人阅读
nltk同时也能处理中文的场景,只要做如下改动:
使用中文分词器(如我选用了结巴分词)
对中文字符做编码处理,使用unicode编码方式
python的源码编码统一声明为 gbk
使用支持中文的语料库
to be continue...
nltk-比较中文文档相似度
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉:
投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。