首页 > 代码库 > 关于Rocchio算法和向量空间模型反馈

关于Rocchio算法和向量空间模型反馈

什么是相关反馈以及向量空间检索模型在此不叙。

Rocchio公式是这样的,省掉不相关部分,因为相关部分更重要。


  1. 有研究表明,在用户只反馈一两篇相关文档的情况下,如果用户同时标明文档中的哪些段落是相关的,并允许检索系统将相关段落而不是整个相关文档的向量表示加入到原始查询中,那么相关反馈的效果会明显提高,为什么呢?

请先看下图



标明哪些段落是相关的,也就相当于增加了相关的索引词,通过公式计算出的新的查询向量的值也就更加合理,关于相关索引词的相似度也就更大,故检索效果会显著提高。

2.同一研究表明,一旦用户返回了足够的反馈结果(比如10-20篇相关文档),同时并没有标明文档中哪些段落是相关的,如果使用整个相关文档的向量加入到原始查询中,系统同样可以得到很好的效果,解释其中的原因。


不标明段落相关,但是把整个相关文档向量加入到原始查询中,根据公式仍然可以知道,这将大大提高新的查询向量关于相关文档的相似度,从而提高检索效果。


参考文献

http://www.docin.com/p-116849541.html




关于Rocchio算法和向量空间模型反馈