首页 > 代码库 > 集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改

集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改


1、从content域中搜索

从solr的example中得到的solrConfig.xml中,qf的定义如下:
[html] view plaincopy
  1. <str name="qf">  
  2.    text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4  
  3.    title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0  
  4. </str>  
由于content不占任何的权重,因此如果某个文档只在content中包含关键字的话,搜索结果并不会返回这个文档。因此,对于nutch提取的索引来说,要增加content的权重,以及url的权重(如果需要的话):
[html] view plaincopy
  1. <str name="qf">  
  2.    content^1.0 text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4  
  3.    title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0  
  4. </str>  
2、保存网页的content内容

将schema.xml中的

 <field name="content" type="text" stored="false" indexed="true"/>
改为

        <field name="content" type="text" stored="true" indexed="true"/>

3、同时显示网页文件与一般文本

 velocity/results_list.vm

##parse("hit_plain.vm")
将注释去掉。

4、调整每个搜索返回项的显示内容

vi richtest_doc.vm

<div>
  Id: #field('id')
</div>
改成:

<div>  time: #field('tstamp')</div><div>  score: #field('score')</div>
这个方法可以修改其它字段,详见http://blog.csdn.net/jediael_lu/article/details/38039267