ik_max_word ik_smart

首页 > 代码库 > ik_max_word ik_smart

2024-08-22 00:32:49 219人阅读

打开 ~/es_root/config/elasticsearch.yml 文件，加入以下配置：

index:  analysis:    analyzer:      ik_syno:          type: custom          tokenizer: ik_max_word          filter: [my_synonym_filter]      ik_syno_smart:          type: custom          tokenizer: ik_smart          filter: [my_synonym_filter]    filter:      my_synonym_filter:          type: synonym          synonyms_path: analysis/synonym.txt

以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer，分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档，二者区别如下：

ik_max_word：会将文本做最细粒度的拆分，例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」，会穷尽各种可能的组合；
ik_smart：会将文本做最粗粒度的拆分，例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」；

ik_syno 和 ik_syno_smart 都会使用 synonym filter 实现同义词转换。为了方便后续测试，建议创建 ~/es_root/config/analysis/synonym.txt 文件，输入一些同义词并存为 utf-8 格式。例如：

ua,user-agent,userAgentjs,javascript

ik_max_word ik_smart

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > ik_max_word ik_smart

ik_max_word ik_smart

看完仍有疑问？有类似问题直接问程序猿