首页 > 代码库 > Lucene 学习入门

Lucene 学习入门

Lucene 4.9

基础准备

  • 了解常用分词器,选择合适分词器
  • 读取文件编码要正确,非TXT文档需要进行特殊处理或特殊工具读取后才进行分词处理
  • TextField内容不能保存过长,最大长度是32766个字节

StringField, TextField 的区别,其他

  • StringField 不进行分词处理,保存
  • TextField 进行分词处理,默认不保存,可以选择保存,最大长度是 32766字节
  • 其他省略…

Demo参考:

  • org.apache.lucene.demo.IndexFiles
  • org.apache.lucene.demo.SearchFiles

基本参考两个类基本够用

常见问题,调试技巧(查询不是想要结果)

  • 查看索引文档的分词结果,编码和分词是否是否正确
  • 查看关键字搜索的分词结果
  • 读取文件内容编码处理必须正确,乱码索引不到想要结果

优化

  • 优化索引内容,加快索引效率和查询效率,提高命中率
  • 特殊文档特殊处理。 例如: html 需要过滤html标签和对标题、关键字、描述内容过的特殊处理,word文档需要用工具处理等。

未完待续,玩命的完善中.