首页 > 代码库 > 关于Rocchio算法和向量空间模型反馈
关于Rocchio算法和向量空间模型反馈
什么是相关反馈以及向量空间检索模型在此不叙。
Rocchio公式是这样的,省掉不相关部分,因为相关部分更重要。
有研究表明,在用户只反馈一两篇相关文档的情况下,如果用户同时标明文档中的哪些段落是相关的,并允许检索系统将相关段落而不是整个相关文档的向量表示加入到原始查询中,那么相关反馈的效果会明显提高,为什么呢?
请先看下图
标明哪些段落是相关的,也就相当于增加了相关的索引词,通过公式计算出的新的查询向量的值也就更加合理,关于相关索引词的相似度也就更大,故检索效果会显著提高。
2.同一研究表明,一旦用户返回了足够的反馈结果(比如10-20篇相关文档),同时并没有标明文档中哪些段落是相关的,如果使用整个相关文档的向量加入到原始查询中,系统同样可以得到很好的效果,解释其中的原因。
不标明段落相关,但是把整个相关文档向量加入到原始查询中,根据公式仍然可以知道,这将大大提高新的查询向量关于相关文档的相似度,从而提高检索效果。
参考文献
http://www.docin.com/p-116849541.html
关于Rocchio算法和向量空间模型反馈
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。