首页 > 代码库 > Lucene 学习入门
Lucene 学习入门
Lucene 4.9
基础准备
- 了解常用分词器,选择合适分词器
- 读取文件编码要正确,非TXT文档需要进行特殊处理或特殊工具读取后才进行分词处理
- TextField内容不能保存过长,最大长度是32766个字节
StringField, TextField 的区别,其他
- StringField 不进行分词处理,保存
- TextField 进行分词处理,默认不保存,可以选择保存,最大长度是 32766字节
- 其他省略…
Demo参考:
- org.apache.lucene.demo.IndexFiles
- org.apache.lucene.demo.SearchFiles
基本参考两个类基本够用
常见问题,调试技巧(查询不是想要结果)
- 查看索引文档的分词结果,编码和分词是否是否正确
- 查看关键字搜索的分词结果
- 读取文件内容编码处理必须正确,乱码索引不到想要结果
优化
- 优化索引内容,加快索引效率和查询效率,提高命中率
- 特殊文档特殊处理。 例如: html 需要过滤html标签和对标题、关键字、描述内容过的特殊处理,word文档需要用工具处理等。
未完待续,玩命的完善中.
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。