首页 > 代码库 > 15 cvpr An Improved Deep Learning Architecture for Person Re-Identification
15 cvpr An Improved Deep Learning Architecture for Person Re-Identification
http://www.umiacs.umd.edu/~ejaz/
* 也是同时学习feature和metric
* 输入一对图片,输出是否是同一个人
* 包含了一个新的层:include a layer that computes cross-input neighborhood differences
(capture local relationships between the two input images based on midlevel features from each input image )
* A high-level summary of the outputs of this layer is computed by a layer of patch summary features
* 在比较大的数据集CUHK03,中等数据集CUHK01取得较好的结果,在无关的大数据集上预训练然后在小数据集上fine-tune后也在小数据集(VIPeR)上有comparable to the state of art的性能
* Person Re-id的定义:the problem of identifying people across images that have been taken using different cameras, or across time using a single camera
* 难点: 由于光照和视角等原因,同一个人变化很大,不同人的样子可能很像
* 一般是输入两张图片,计算它们的相似度或者判断他们是同一类或者不是同一类
cross-inputneighborhood difference
f只有中心(x,y)的一个值,5x5的每个元素都是这个值。 g是(x,y)为中心的5x5邻域。
这种操作是非对称的,所以反过来再做一次
如果两个输入是25通道,则结果有50通道。
输入12x37x25-->输出12x37x5x5, 共50通道
这一层之后过一个ReLU
然后过一个patch summary layer, 通过卷积实现
对K‘,L‘也一样,所以结果应该有50个通道的
visualization of features
visualization of weights
给正样本对做data augmentation,但仍然是不平衡的
因此采用hard negative mining:
随机采样负样本对,使负样本对是扩充后的正样本对的2倍(1倍会不会更好?)
用这些训练模型,但不是最优的,
用这个模型去分类负样本对,找出网络表现最差的,然后用这些样本 只重训练顶层的fc(实验说明比重训连整个网络要更有效,这也相当于fine-tune)
对于很小的数据集,用大数据集训练的模型(在hard-negative mining之后)初始化,然后fine-tuning,此时learning rate比原来小10倍,0.001
这篇文章提出了一个可能的改进方向,对不同的身体部位训练不同的模型, 然后将不同部位的分数组合起来得到最后的决策,这对于实际场景中有严重的occlusion或者对于 图片中的人在一系列时刻做不同动作的(比如某一时刻坐着,另一时刻站着)的情况可能会有帮助。
From WizNote
15 cvpr An Improved Deep Learning Architecture for Person Re-Identification
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。