首页 > 代码库 > 全文检索原理以及es

全文检索原理以及es

  最近要做个文章搜索,对全文检索原理以及es原理进行了一些调研,

1、  es索引文件为多个文本文件描述,索引文件中的内容构成可见

http://elasticsearch.cn/article/86

2、  检索原理,首先查询分析器—>分析查询字段—>匹配文档—>根据配置打分系统或者说算法打分。

详细过程可见

http://es.xiaoleilu.com/100_Full_Text_Search/05_Match_query.html

一段话分词后查询和直接提交查询由引擎中的分词插件分词后查询,差异多大需要实际demo验证,理论上没查到相关信息。

3、  索引建立可采用分段式索引,避免每次重建索引时间过长以及重建索引导致查询失败。

4、  过多的段会增加扫描段的 个数据,检索性能下降,可以通过定时合并索引段的方式避免段过多导致性能下降。

重建索引并重灌数据会有一段时间的检索服务不可用 

5、数量级别的不同,对于维护整个索引库需要的精力chayi。

全文检索原理以及es