Lucene索引

首页 > 代码库 > Lucene索引

2024-08-08 22:21:35 220人阅读

一、lucene建立索引过程：

技术分享
1、解析器用来解析物理文件，从中提取出所需的文本，其作用于物理文件；
2、分析器用来分析文本内容（文字），其作用于解析器处理物理文件之后生成的文本；
Lucene没有自己开发语言分析程序，JavaCC来生成分析器；
分析器（analyzer）主要包含分词器和过滤器。分析器使用分析器和过滤器构成一个“管道”，文本在“滤过”这个管道之后，就成为可以进入管道的最小单位；
分词器（tokenizer）主要用于对文本资源进行切分，将文本规则切分为一个个可以进入索引的最小单位；
过滤器（tokenfilter）主要对分词器切分的最小单位进入索引进行预处理（大写转小写，复数转单数）

二、索引文件格式：

技术分享
segments文件——主要的索引块，其中包含主要的索引信息；
扩展名为fnm文件——存储Field的名称；
扩展名为fdt文件——存储所有设置了保存属性（Store.YES）的Field数据；
扩展名为fdx文件——用于存储文档在fdt文件中的位置；
扩展名为cfs文件——复合式索引格式的索引文件，相当于把多个索引文件合并起来，从未减少索引文件的数量；

三、索引优化：
1、复合式索引格式 IndexWriter.setUseCompoundFile(true)
2、调整索引优化参数
a、mergeFactor 用于控制索引块的合并频率和大小
b、maxMergeDocs 用来限制每个索引块的文档数量
c、用来限制内现中的文档数量
3、内存缓冲器与索引合并
首先在内存中建立索引，然后将建立好的索引集中写到磁盘中去，从而加快索引速度
4、限制每个Field的词条数量
5、索引本身的优化 IndexWriter.optimize()合并索引

四、索引管理：
1、查看：使用IndexReader类读取索引及其相关词条
2、删除：使用IndexReader类删除索引
3、更新：先删除、再新增

五、索引同步
1、Lucene并发访问规则
技术分享
2、线程安全性

3、索引锁机制

Lucene索引

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Lucene索引

Lucene索引

看完仍有疑问？有类似问题直接问程序猿