首页 > 代码库 > solr配置中文分词器

solr配置中文分词器

可能需要连接上篇《Solr与tomcat整合


1.从http://code.google.com/p/mmseg4j/    下载mmseg4j

2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home  下的dic目录下(下面步骤3中的dicPath路径指向这个路径)。

将data里的.dic文件拷贝到dic目录

3.修改Schema.xml文件,增加下面代码(注意你需要修改的是dicPath参数):

  1.  <fieldType name="textComplex" class="solr.TextField">      
  2.            <analyzer>      
  3.               <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/opt/solr/example/solr/dic"/>      
  4.               <filter class="solr.LowerCaseFilterFactory"/>      
  5.           </analyzer>      
  6.       </fieldType>      
  7.    
  8.     <fieldType name="textMaxWord" class="solr.TextField">      
  9.        <analyzer>      
  10.            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/opt/solr/example/solr/dic"/>      
  11.            <filter class="solr.LowerCaseFilterFactory"/>      
  12.        </analyzer>      
  13.     </fieldType>      
  14.         
  15.     <fieldType name="textSimple" class="solr.TextField">      
  16.       <analyzer>      
  17.           <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/opt/solr/example/solr/dic"/>      
  18.           <filter class="solr.LowerCaseFilterFactory"/>      
  19.       </analyzer>      
  20.     </fieldType> 
4.关联自己的field字段即可。


solr配置中文分词器