15 cvpr An Improved Deep Learning Architecture for Person Re-Identification

2024-08-11 04:28:18 220人阅读

http://www.umiacs.umd.edu/~ejaz/

* 也是同时学习feature和metric

* 输入一对图片，输出是否是同一个人

* 包含了一个新的层：include a layer that computes cross-input neighborhood differences

（capture local relationships between the two input images based on midlevel features from each input image ）

* A high-level summary of the outputs of this layer is computed by a layer of patch summary features

* 在比较大的数据集CUHK03，中等数据集CUHK01取得较好的结果，在无关的大数据集上预训练然后在小数据集上fine-tune后也在小数据集(VIPeR)上有comparable to the state of art的性能

* Person Re-id的定义：the problem of identifying people across images that have been taken using different cameras, or across time using a single camera

* 难点: 由于光照和视角等原因，同一个人变化很大，不同人的样子可能很像

* 一般是输入两张图片，计算它们的相似度或者判断他们是同一类或者不是同一类

cross-inputneighborhood difference

f只有中心（x,y）的一个值，5x5的每个元素都是这个值。 g是(x,y)为中心的5x5邻域。

这种操作是非对称的，所以反过来再做一次

如果两个输入是25通道，则结果有50通道。

输入12x37x25-->输出12x37x5x5, 共50通道

这一层之后过一个ReLU

然后过一个patch summary layer，通过卷积实现

对K‘,L‘也一样，所以结果应该有50个通道的

visualization of features

visualization of weights

给正样本对做data augmentation，但仍然是不平衡的

因此采用hard negative mining：

随机采样负样本对，使负样本对是扩充后的正样本对的2倍（1倍会不会更好？）

用这些训练模型，但不是最优的，

用这个模型去分类负样本对，找出网络表现最差的，然后用这些样本只重训练顶层的fc（实验说明比重训连整个网络要更有效，这也相当于fine-tune）

对于很小的数据集，用大数据集训练的模型（在hard-negative mining之后）初始化，然后fine-tuning，此时learning rate比原来小10倍，0.001

这篇文章提出了一个可能的改进方向，对不同的身体部位训练不同的模型，然后将不同部位的分数组合起来得到最后的决策，这对于实际场景中有严重的occlusion或者对于图片中的人在一系列时刻做不同动作的（比如某一时刻坐着，另一时刻站着）的情况可能会有帮助。

From WizNote

15 cvpr An Improved Deep Learning Architecture for Person Re-Identification

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们