首页 > 代码库 > solr配置中文分词器
solr配置中文分词器
可能需要连接上篇《Solr与tomcat整合》
1.从http://code.google.com/p/mmseg4j/ 下载mmseg4j
2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home 下的dic目录下(下面步骤3中的dicPath路径指向这个路径)。
将data里的.dic文件拷贝到dic目录
3.修改Schema.xml文件,增加下面代码(注意你需要修改的是dicPath参数):
- <fieldType name="textComplex" class="solr.TextField">
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/opt/solr/example/solr/dic"/>
- <filter class="solr.LowerCaseFilterFactory"/>
- </analyzer>
- </fieldType>
- <fieldType name="textMaxWord" class="solr.TextField">
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/opt/solr/example/solr/dic"/>
- <filter class="solr.LowerCaseFilterFactory"/>
- </analyzer>
- </fieldType>
- <fieldType name="textSimple" class="solr.TextField">
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/opt/solr/example/solr/dic"/>
- <filter class="solr.LowerCaseFilterFactory"/>
- </analyzer>
- </fieldType>
solr配置中文分词器
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。