solr 分词词库管理思路

2024-08-01 09:10:30 220人阅读

solr 分词词库管理思路

大概有以下几种思路：

1。自定义 SolrRequestHandler

由 SolrRequestHandler 来进行对分词器，进行A)词库加载B)动态添加词库等操作

这样的话，还需要在内存中hold 住所有的词，或者需要引用到分词的jar

2. 在自定义分词器中实现从文件拉取

对词库文件设置FileWatcher，只要文件有变更，就重新加载一遍词库。

这个成本比较高。

3. 在自定义分词器中实现从db拉取，本地文件备份。

这样的话，需要实现定时拉取，另外，solr初次启动的时候，最好不要拉取词典(可能影响启动速度)。

另外，对拉取到的数据，可以做增量。

4. 使用本地文件为主，同时通过pubsub来进行动态实时操作词库

优点，可以实时发布词库。

缺点，不是很易读。

-------------------------------------------------------------------------------------------------------------

Solr 默认实现的若干TokenFilter，都有一个缺点：

即默认配置的词表都是由文件加载的。那么使用过程中，就无法支持动态添加了。

比如StopFilter 或者 SynonymFilterFactory

solr 分词词库管理思路

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们