Spatial Pyramid Matching

首页 > 代码库 > Spatial Pyramid Matching

2024-07-25 09:28:06 221人阅读

转自:http://blog.csdn.net/jwh_bupt/article/details/9625469

SPM 全称是Spatial Pyramid Matching，出现的背景是bag of visual words模型被大量地用在了Image representation中，但是BOVW模型完全缺失了特征点的位置信息。文章的贡献，看完以后觉得其实挺简单的，和分块直方图其实是一个道理------将图像分成若干块(sub-regions)，分别统计每一子块的特征，最后将所有块的特征拼接起来，形成完整的特征。这就是SPM中的Spatial。在分块的细节上，作者采用了一种多尺度的分块方法，即分块的粒度越大越细(increasingly fine)，呈现出一种层次金字塔的结构，这就是SPM中的Pyramid。M就是Matching

Pyramid Matching

1, 假设存在两个点集X和Y（每个点都是D维的，以下将它们所在的空间称作特征空间）。将特征空间划分为不同的尺度，在尺度l下特征空间的每一维划出个cells，那么d维的特征空间就能划出个bins
2, 两个点集中的点落入同一个bin就称这两个点Match。在一个bin中match的总数定义为 min(Xi, Yi)，其中Xi和Yi分别是两个点集中落入第i个bin的点的数目
3, 统计各个尺度下match的总数（就等于直方图相交）。由于细粒度的bin被大粒度的bin所包含，为了不重复计算，每个尺度的有效Match定义为match的增量
4, 不同的尺度下的match应赋予不同权重，显然大尺度的权重小，而小尺度的权重大，因此定义权重为
5, 最终，两点集匹配的程度定义为

SPM

1, 将图像空间用构造金字塔的方法分解为多个scale的bins（通俗地说就是切分成不同尺度的方形）
2, 像BOW一样构造一本大小为M的dictionary，这样每个特征都能投影到dictionary中的一个word上。其中字典的训练过程是在特征空间中完成。论文中的特征利用的dense SIFT
3, 统计每个bin中各个words的数目，最终两幅图像的匹配程度定义为：
注意，当L=0时，模型就退化成为BOW了
SPM介绍了两幅图像匹配的方法。如要用于场景分类，注意(2)式就等于M(L+1)个直方图相交运算的和，其实也就等于一个更大的向量直接进行直方图相交运算而已。而这个向量，就等于每个被划分的图像子区域上的visual words直方图连在一起。这个特征，就是用来分类的特征。
作者在实验中表明，不同L下，M从200取到400对分类性能影响不大，也就是降低了码书的大小对分类效果的影响。
在本文最开始也提到了，这个方法可以作为一个模板，每个sub-region中统计的直方图可以多种多样，简单的如颜色直方图，也可以用HOG，这就形成了PHOG。SPM的matlab代码也可以从作者的主页上下载到(here)。只不过这种空间分类信息仍然有局限性-----一幅相同的图像旋转90度，匹配的结果就不会太高了。所以模型隐含的假设就是图像都是正着存储的（人都是站立的，树都是站立的）

Spatial Pyramid Matching

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Spatial Pyramid Matching

Spatial Pyramid Matching

看完仍有疑问？有类似问题直接问程序猿