Decoupled PROB: Decoupled Query Initialization Tasks and Objectness-Class Learning for Open World Object Detection

论文摘要

Open World Object Detection (OWOD) is a challenging computer vision task that extends standard object detection by (1) detecting and classifying unknown objects without supervision, and (2) incrementally learning new object classes without forgetting previously learned ones. The absence of ground truths for unknown objects makes OWOD tasks particularly challenging. Many methods have addressed this by using pseudo-labels for unknown objects. The recently proposed Probabilistic Objectness transformer-based open-world detector (PROB) is a state-of-the-art model that does not require pseudo-labels for unknown objects, as it predicts probabilistic objectness. However, this method faces issues with learning conflicts between objectness and class predictions. To address this issue and further enhance performance, we propose a novel model, Decoupled PROB. Decoupled PROB introduces Early Termination of Objectness Prediction (ETOP) to stop objectness predictions at appropriate layers in the decoder, resolving the learning conflicts between class and objectness predictions in PROB. Additionally, we introduce Task-Decoupled Query Initialization (TDQI), which efficiently extracts features of known and unknown objects, thereby improving performance. TDQI is a query initialization method that combines query selection and learnable queries, and it is a module that can be easily integrated into existing DETR-based OWOD models. Extensive experiments on OWOD benchmarks demonstrate that Decoupled PROB surpasses all existing methods across several metrics, significantly improving performance.

AI解读

好的，我将按照您的要求，对论文 "Decoupled PROB: Decoupled Query Initialization Tasks and Objectness-Class Learning for Open World Object Detection" 进行详细分析，重点关注其方法和技术细节，并用通俗易懂的中文进行阐述。

1. 核心方法与创新点

* 核心方法论：这篇论文的核心方法是提出一个名为 "Decoupled PROB" 的新型开放世界目标检测模型，该模型基于 PROB 改进，旨在解决 PROB 模型在目标性（Objectness）预测和类别预测之间存在的学习冲突问题，并提升检测性能。核心思想是解耦（Decoupled）查询初始化任务和目标性-类别学习。

* 主要创新点：
* Task-Decoupled Query Initialization (TDQI)：这是一个新的查询初始化方法，它结合了查询选择 (Query Selection) 和可学习查询 (Learnable Queries)。TDQI 的核心思想是让不同的查询负责不同的任务，查询选择负责检测已知对象，可学习查询负责覆盖遗漏的已知对象和未知对象。这与传统查询选择只关注已知对象不同。
* Early Termination of Objectness Prediction (ETOP)：这是一个缓解目标性和类别学习冲突的方法。ETOP 不是在所有解码器层都进行目标性预测，而是在浅层解码器层停止目标性预测。这与 PROB 模型在所有层都预测目标性不同。

2. 算法细节与流程

Decoupled PROB 的整体流程如下：

1. 输入图像：将图像输入到模型中。
2. 特征提取：使用 backbone (例如 ResNet-50) 和 Deformable Transformer 编码器提取图像特征，这一步与 PROB 保持一致。
3. Task-Decoupled Query Initialization (TDQI)：
* 查询选择：在编码器提取的特征上应用类别和边界框预测头，选择置信度最高的 *k* 个区域，将这些区域的特征作为一部分对象查询的初始化。
* 可学习查询：另一部分对象查询使用可学习的参数进行初始化。这些可学习查询的初始值是模型训练过程中学习到的。
* 合并：将通过查询选择和可学习查询初始化的两部分对象查询合并，形成最终的对象查询集合。
4. Deformable Transformer 解码器：
* 浅层解码器层：在浅层解码器层（例如前两层），同时进行目标性、类别和边界框预测。
* 深层解码器层：在深层解码器层，停止目标性预测，只进行类别和边界框预测。
5. 输出：使用最后一层解码器的类别和边界框预测结果，以及浅层解码器层的目标性预测结果，进行最终的目标检测。

算法优势和创新之处：

* TDQI：能够更有效地利用编码器的特征信息，让对象查询能够从解码器初始层就捕获到对象周围的特征，并且兼顾了已知对象和未知对象的检测。
* ETOP：减少了目标性和类别学习之间的冲突，使得模型能够更好地学习类别信息，提高检测准确率。
* 解耦设计：通过 TDQI 和 ETOP，模型将查询初始化任务和目标性-类别学习解耦，使得模型能够更专注于各个任务的学习，从而提升整体性能。

3. 详细解读论文第三部分 (Preliminaries)

这部分介绍了OWOD问题定义和PROB的基础。

* 问题定义
* 在时间t，数据集定义为Dt={It,Yt}，其中It={I1, ...,IN}代表输入图像集合，Yt={Y1, ...,YN}代表图像对应的标签集合。
* 每个图像包含Kob个对象实例标签Yi={y1, ..., y k}，每个对象实例yk= [ck, xk, yk, wk, hk]被表示为类别标签和边界框的中心坐标、宽度和高度。
* 类别标签是已知类别集合Kt={1,2, ..., C}的成员，在推理阶段，模型可能会遇到未知类别Ut={C+ 1, ...}。
* OWOD模型的目的是在时间t训练模型Mt来检测所有C个对象类别，并将未见过的类别识别为未知。未知实例集合Ut由oracle标记为几个感兴趣的类别，创建一个新的训练集。模型逐步学习新的类别，Mt+1更新为检测类别Kt+1=Kt+{C+ 1, ...}。这个循环重复进行，允许模型更新新的类别检测，而不会忘记之前学习的知识。

* PROB
* PROB通过分别学习概率目标性和对象类别，消除了训练过程中识别未知对象和使用伪未知对象GT的需求。
* 目标性概率p(o|q)和对象类别概率p(c|o, q)是独立学习的，最终类别预测计算如下：

$$
p(c|q) = p(c|o, q) \cdot p(o|q)
$$

公式 (1) 表示给定查询 *q* 时，类别 *c* 的概率等于给定目标 *o* 和查询 *q* 时类别 *c* 的概率乘以给定查询 *q* 时目标 *o* 的概率。这个公式表明，模型将类别预测分解为两个步骤：首先判断查询是否包含一个对象（目标性），然后预测该对象的类别。

* 目标性概率被建模为查询嵌入空间中的多元高斯分布，并使用马氏距离计算：

$$
f_{obj}(q) = \exp \left(-\frac{1}{2} (q - \mu)^T \Sigma^{-1} (q - \mu) \right) = \exp \left(-\frac{1}{2} d_M(q)^2 \right)
$$

公式 (2) 表示目标性概率 fobj(q) 是查询嵌入 *q* 的马氏距离的指数函数。其中 μ 是查询嵌入的均值向量，Σ 是协方差矩阵，dM(q) 是查询嵌入的马氏距离。这个公式的物理意义是，查询嵌入离均值越近，目标性概率越高。

* 训练以交替的两步过程进行：1.估计查询嵌入的平均值 µ 和协方差 Σ。2.通过惩罚平方马氏距离来最大化匹配查询嵌入的似然：

$$
L_{obj} = \sum_{i \in Z} d_M(q_i)^2
$$

公式 (3) 表示目标性损失 Lobj 是所有与GT匹配的查询嵌入 *qi* 的马氏距离的平方和。*Z* 是与 GT 匹配的查询嵌入集合。这个公式的目的是最小化匹配查询嵌入的马氏距离，从而使它们更接近均值，提高目标性概率。

4. 实现细节与注意事项

* TDQI 实现细节：
* 选择策略：可以使用不同的选择策略，例如 Top-K 选择、阈值选择等。
* 类别头：需要一个能够区分已知类别和未知类别的类别头。可以使用 softmax 或 sigmoid 函数。需要特别注意，query selection时忽略掉unseen class的分数，只关注known class的。
* 比例：调整查询选择和可学习查询之间的比例，需要根据数据集的特点进行调整。
* ETOP 实现细节：
* 停止层数：停止层数是 ETOP 的一个重要参数。如果停止层数太浅，则目标性预测可能不够准确；如果停止层数太深，则可能无法有效缓解学习冲突。
* 目标性损失：需要根据停止层数来调整目标性损失的计算。
* 实现难点和解决方案：
* TDQI：如何有效地选择具有代表性的查询是一个难点。可以使用更复杂的选择策略，或者使用 attention 机制来选择查询。
* ETOP：如何确定合适的停止层数是一个难点。可以使用交叉验证或 Bayesian Optimization 等方法来寻找最优的停止层数。
* 优化建议和最佳实践：
* TDQI：可以尝试使用不同的 backbone 和编码器，以提取更有效的特征。
* ETOP：可以尝试使用不同的损失函数，以更好地缓解学习冲突。
* 参数设置和调优：
* 查询选择比例：实验表明，20% 的查询选择和 80% 的可学习查询可以获得较好的性能。
* 停止层数：实验表明，在解码器的前两层停止目标性预测可以获得较好的性能。
* 学习率：可以尝试不同的学习率，以获得更快的收敛速度。

希望以上分析能够帮助您更好地理解 Decoupled PROB 论文。如果您有任何其他问题，请随时提出。