MTMCT方向的度量学习梳理

MTMCT方向的度量学习梳理。

背景

在以行人重识别（Person Re-Identification, ReID）为代表的一些视觉任务中，测试阶段出现的类别（即具体的行人身份或目标ID）在训练阶段是未知的。这从根本上要求模型具备提取具备强判别力（Discriminative）且高泛化性特征的能力，而非单纯地记忆训练集中的类别标签。

度量学习，Metric Learning 正是解决这一核心矛盾的关键技术途径。其本质旨在通过深度神经网络构建一个非线性的特征映射函数，将存在于高维像素空间的原始数据投影至低维的嵌入空间（Embedding Space）或流形（Manifold）上。在此度量空间中，距离度量（如欧氏距离或余弦相似度）直接对应于样本间的语义相似度。

理想的度量学习模型应当满足两个基本几何约束：

同类样本在特征空间中高度紧凑（Intra-class Compactness）
异类样本在特征空间中尽可能分离（Inter-class Separability）

问题定义

从数学角度形式化地看，度量学习的目标是学习一个参数化的映射函数：

f_\theta: \mathcal{X} \rightarrow \mathbb{R}^d

其中 $\mathcal{X}$ 为输入图像空间， $\mathbb{R}^d$ 为 $d$ 维特征向量空间。

对于任意给定的三元组样本 $(x_a, x_p, x_n)$ ，其中 $x_a$ 为锚点样本， $x_p$ 为与 $x_a$ 同一身份的正样本， $x_n$ 为不同身份的负样本，度量学习旨在优化参数 $\theta$ ，使得在映射后的特征空间中满足：

D(f_\theta(x_a), f_\theta(x_p)) \ll D(f_\theta(x_a), f_\theta(x_n))

其中 $D(\cdot, \cdot)$ 为预定义的距离度量函数。

当前优化的方向

首先是传统损失函数的优化瓶颈，以最经典的 Softmax 为例，Softmax 交叉熵损失函数虽然在概率空间能够有效区分训练类别，但在特征空间并未施加显式的距离约束，导致学习到的特征在类内分布较为松散。

具体来说，Softmax 的目标是最大化正确类别的后验概率。在数学上，只要特征向量 $\mathbf{f}_i$ 在正确类别权重 $\mathbf{w}_{y_i}$ 方向上的投影比在其他类别方向上的投影稍微大一点，Loss 就会减小。也就是说，只要 $A$ 被分到了类 A，哪怕它仅仅跨过了决策边界一点点，模型也认为任务完成了。但在度量学习任务中，不仅 $A$ 要被分到类 A，而且 $A$ 必须尽可能靠近类 A 的中心，并且远离类 B。

其次是困难样本挖掘的策略设计。在海量训练数据中，绝大多数样本对包含的梯度信息极其微弱，即模型已能轻易区分大部分不同类别，只有少数位于决策边界附近的困难样本对模型的优化具有实质性贡献。如何高效地筛选出这些高价值样本，同时避免因标注噪声导致的模型坍塌，是设计高效度量学习系统的关键。

此外，特征空间的几何结构选择亦至关重要。早期的研究多基于欧氏空间进行度量，但近年来的研究表明，将特征归一化并约束在超球面上，利用角度距离代替欧氏距离往往更加有效。

具体来说，在传统的欧氏空间（欧氏距离）中，特征向量 $\mathbf{f}$ 的长度（范数 $\|\mathbf{f}\|$ ）代表了模型对该样本的置信度或显著性，在某个方面可以理解为图像的清晰度。在计算欧氏距离 $\| \mathbf{f}_1 - \mathbf{f}_2 \|$ 时，模长的差异会掩盖方向的相似性。模型可能会因为两张图片的“清晰度”相近而认为它们是同一个人。

而超球面（Hypersphere）的解法：通过归一化，将所有特征映射到模长为 1 的超球面上。模型被迫只通过“方向”来判别身份，消除了图像质量、光照等因素带来的幅值干扰。

序列深度度量学习方法

集合空间的映射形式化

在基于序列的度量学习中，输入对象不再是单一的样本 $x \in \mathcal{X}$ ，而是一个包含 $T$ 帧图像的序列集合 $\mathcal{S} = \{x_1, x_2, \dots, x_T\}$ ，其中 $T$ 为变量。

数学上，我们的目标是学习一个非线性映射函数

\Phi: \mathcal{X}^T \rightarrow \mathbb{R}^d

将高维的图像序列张量投影为低维的固定长度嵌入向量。
这一映射过程必须满足两个关键的数学性质：

置换不变性（Permutation Invariance）：对于集合模型而言，特征表示不应受输入帧顺序的影响（除非显式建模动作信息），即 $\Phi(x_1, x_2) = \Phi(x_2, x_1)$
尺寸不变性（Size Invariance）：无论输入序列长度 $T$ 是 5 帧还是 50 帧，输出特征向量的维度 $d$ 必须恒定。为此，序列度量学习通常采用“编码-聚合”（Encode-Aggregate）的二阶段数学范式：首先通过 CNN 骨干网络 $f_\theta$ 将每一帧映射为帧级特征 $v_t = f_\theta(x_t)$ ，随后通过时序聚合函数 $G(\cdot)$ 生成最终的序列表征 $\mathbf{e} = G(\{v_1, \dots, v_T\})$ 。

基于注意力的时序聚合机制

最朴素的聚合函数是时间平均池化（Temporal Average Pooling, TAP），即 $G_{avg} = \frac{1}{T}\sum v_t$ 。然而，从信息论角度看，序列中的每一帧所含有的“身份信息量”是不均匀的（例如，遮挡帧的信息熵极高，包含大量噪声）。

为了最大化特征信噪比，现代方法（Quality Aware Network for Set to Set Recognition）引入了**注意力机制（Attention Mechanism）**作为一种可学习的加权算子。

数学上，这等价于学习一个评分函数 $h(v_t)$ ，用于估计第 $t$ 帧的特征质量。加权聚合过程定义为：

\mathbf{e}_{att} = \sum_{t=1}^{T} \alpha_t \cdot v_t

其中权重 $\alpha_t$ 需满足概率单纯形约束（Sum-to-one），通常通过 Softmax 函数获得：

\alpha_t = \frac{\exp(\mathbf{w}^T \tanh(\mathbf{W}_a v_t + \mathbf{b}_a))}{\sum_{\tau=1}^{T} \exp(\mathbf{w}^T \tanh(\mathbf{W}_a v_\tau + \mathbf{b}_a))}

此处， $\mathbf{W}_a, \mathbf{b}_a, \mathbf{w}$ 均为参与反向传播优化的参数。该数学结构迫使模型在特征空间中自动进行“去噪”，梯度下降过程会抑制那些与身份主向量正交的噪声分量的权重。

集合间距离度量与优化目标

定义了序列特征 $\Phi(\mathcal{S})$ 后，核心问题在于如何定义两个集合 $\mathcal{S}_i$ 和 $\mathcal{S}_j$ 之间的度量 $D(\mathcal{S}_i, \mathcal{S}_j)$ 。

聚合嵌入距离（Aggregated Embedding Distance）：最直接的方法是在聚合后的特征向量上计算欧氏距离：

D(\mathcal{S}_i, \mathcal{S}_j) = \| \Phi(\mathcal{S}_i) - \Phi(\mathcal{S}_j) \|_2

这种方法计算效率最高，且完全兼容标准的 Triplet Loss。

最小点集距离（Minimum Set Distance）：为了解决聚合带来的信息平滑问题，可以保留帧级特征，定义两个集合的距离为“最佳匹配帧”之间的距离：

D_{min}(\mathcal{S}_i, \mathcal{S}_j) = \min_{v_n \in \mathcal{S}_i, v_m \in \mathcal{S}_j} \| v_n - v_m \|_2

这种非参数化的度量方式在数学上允许序列在局部进行对齐，对于处理视角剧烈变化（如从正面逐渐转到背面）的序列具有更强的几何解释性。

Tianyao' s BLOG

MTMCT方向的度量学习梳理

背景

问题定义

当前优化的方向

相关工作（REID与MTMCT方向）

深度度量学习范式

Contrastive Loss

Triplet Loss

困难样本挖掘策略

Batch Hard (TriHard)

序列深度度量学习方法

集合空间的映射形式化

基于注意力的时序聚合机制

集合间距离度量与优化目标