KairosAD: A SAM-Based Model for Industrial Anomaly Detection on Embedded Devices

作者:Uzair Khan et.al.

论文链接:http://arxiv.org/abs/2505.24334

发布日期:2025-05-30

解读时间:2025-07-19 19:06:43

论文摘要

In the era of intelligent manufacturing, anomaly detection has become essential for maintaining quality control on modern production lines. However, while many existing models show promising performance, they are often too large, computationally demanding, and impractical to deploy on resource-constrained embedded devices that can be easily installed on the production lines of Small and Medium Enterprises (SMEs). To bridge this gap, we present KairosAD, a novel supervised approach that uses the power of the Mobile Segment Anything Model (MobileSAM) for image-based anomaly detection. KairosAD has been evaluated on the two well-known industrial anomaly detection datasets, i.e., MVTec-AD and ViSA. The results show that KairosAD requires 78% fewer parameters and boasts a 4x faster inference time compared to the leading state-of-the-art model, while maintaining comparable AUROC performance. We deployed KairosAD on two embedded devices, the NVIDIA Jetson NX, and the NVIDIA Jetson AGX. Finally, KairosAD was successfully installed and tested on the real production line of the Industrial Computer Engineering Laboratory (ICE Lab) at the University of Verona. The code is available at https://github.com/intelligolabs/KairosAD.

AI解读

好的,我将尽力以清晰、易懂的方式分析这篇论文,重点关注方法和技术细节。

1. 核心方法与创新点

* 核心方法论概述

这篇论文提出了一个名为 KairosAD 的新型图像异常检测模型,专门针对资源受限的嵌入式设备设计。它的核心思想是利用 Mobile Segment Anything Model (MobileSAM) 提取图像特征,然后通过一个轻量级的预测网络来判断图像是否存在异常。这属于一种监督学习方法,需要用带有标签的数据进行训练。
* 主要创新点

1. 轻量化设计: 论文最大的创新在于模型的轻量化。传统深度学习模型参数量大,计算复杂度高,难以部署在嵌入式设备上。KairosAD 通过使用 MobileSAM 作为特征提取器,大幅减少了模型参数量,从而降低了计算需求。
2. 基于 MobileSAM: 选择 MobileSAM 是一个巧妙的策略。MobileSAM 本身就是为了在移动设备上运行而设计的,它在保持较高分割精度的同时,拥有更小的模型体积和更快的推理速度。论文将其应用于异常检测,是一种新的应用方向。
3. 单分支结构: 对比其他模型,KairosAD 采用了更简单的单分支结构,减少了模型的复杂性,进一步提高了推理速度。
4. 工程实践: 论文不仅提出了模型,还将其部署到了实际的工业生产线上进行测试,验证了其在实际场景中的可用性。

2. 算法细节与流程

* 算法细节

KairosAD 的核心在于两个部分:
* 语义特征编码器 (Semantic Feature Encoder, SFE): 这一部分使用 MobileSAM 的图像编码器,将输入图像转换为一个低维的图像嵌入(embedding),用于表征图像的语义信息。MobileSAM 的图像编码器是一个轻量级的 Vision Transformer (ViT) 变体,针对移动设备进行了优化。
* 异常评分预测器 (Anomaly Score Prediction, ASP): 这一部分是一个由几个全连接层组成的简单网络,接收 SFE 输出的图像嵌入,然后预测一个介于 0 到 1 之间的异常评分。评分越高,代表图像越有可能包含异常。

* 算法流程

1. 输入图像: 将待检测的工业图像输入到模型中。
2. 特征提取: SFE (MobileSAM 的图像编码器) 对图像进行处理,提取图像的特征,并将其转换为一个图像嵌入。
3. 异常评分预测: ASP 接收图像嵌入,通过一系列全连接层,最终输出一个异常评分。
4. 异常判断: 根据异常评分的大小来判断图像是否存在异常。通常会设定一个阈值,当评分高于阈值时,则认为图像包含异常。

* 技术优势与创新

* 效率: 使用 MobileSAM 极大地降低了计算量,使得模型可以在嵌入式设备上实时运行。
* 准确性: 尽管模型很小,但由于 MobileSAM 本身具有较强的特征提取能力,KairosAD 仍然能够保持较高的异常检测精度。
* 适用场景: 适用于资源受限的工业场景,例如小型制造企业 (SMEs) 的生产线。

3. 详细解读论文第三部分 (Methodology)

论文的第三部分详细介绍了 KairosAD 的模型结构和训练方法。

* 3.1 语义特征编码器 (SFE)

这部分主要介绍了 MobileSAM 图像编码器的选择和作用。论文强调了 SAM 模型虽然强大,但参数量太大,不适合嵌入式设备。因此,选择了 MobileSAM,它通过知识蒸馏和模型压缩等技术,在保持性能的同时,大大降低了参数量。
公式 (1) 给出了 SFE 的数学表达:

$$E = f_{\theta}(I)$$

* $I \in R^{H \times W \times C}$: 代表输入图像,H 是高度,W 是宽度,C 是通道数(例如,RGB 图像 C=3)。
* $f_{\theta}$: 代表 MobileSAM 的图像编码器,参数为 $\theta$。
* $E \in R^{d}$: 代表输出的图像嵌入,d 是嵌入的维度。论文中提到 d = 3(这里应该是一个笔误,图像Embedding的维度通常远大于3,具体数值取决于MobileSAM的实现)。
这个公式表达了 SFE 的功能,即将输入图像 I 通过 MobileSAM 的图像编码器 $f_{\theta}$ 转换为图像嵌入 E。

* 3.2 异常评分预测器 (ASP)

这部分介绍了 ASP 的结构和训练方法。ASP 由 Nl 个全连接层组成,用于将图像嵌入映射到异常评分。论文使用 Weighted Binary Cross-Entropy (WBCE) 损失函数来训练模型,以解决正负样本不平衡的问题。
公式 (2) 给出了 ASP 的数学表达:

$$s = g_{\phi}(E)$$

* $E \in R^{d}$: 代表 SFE 输出的图像嵌入。
* $g_{\phi}$: 代表 ASP 网络,参数为 $\phi$。
* $s \in [0, 1]$: 代表输出的异常评分。

这个公式表达了 ASP 的功能,即将图像嵌入 E 通过 ASP 网络 $g_{\phi}$ 转换为异常评分 s。

公式 (3) 给出了 WBCE 损失函数的定义:

$$L_{WBCE} = -\frac{1}{N} \sum_{i=1}^{N} w_i [y_i \log \sigma(s_i) + (1 - y_i) \log (1 - \sigma(s_i))]$$

* $N$: 代表样本数量。
* $y_i \in \{0, 1\}$: 代表第 i 个样本的真实标签 (0 代表正常,1 代表异常)。
* $s_i$: 代表模型预测的第 i 个样本的异常评分。
* $\sigma$: 代表 Sigmoid 激活函数,将评分映射到 [0, 1] 之间。
* $w_i$: 代表第 i 个样本的权重,用于平衡正负样本。论文中提到 $w_i$ 应用于正类(异常样本),计算方式为负样本数量与正样本数量的比值。

这个公式定义了 WBCE 损失函数,它衡量了模型预测结果与真实标签之间的差异。通过最小化这个损失函数,可以训练模型,使其能够准确地预测图像的异常评分。

4. 实现细节与注意事项

* 关键实现细节

* MobileSAM 的选择: MobileSAM 是关键,需要确保正确加载和使用 MobileSAM 的预训练权重。
* 数据预处理: 对输入图像进行适当的预处理,例如缩放、归一化,以提高模型的性能。
* WBCE 损失函数: 正确计算 WBCE 损失函数中的权重,以平衡正负样本。
* 嵌入式设备部署: 针对嵌入式设备进行优化,例如使用 TensorRT 等工具进行模型加速。

* 实现难点与解决方案

* MobileSAM 集成: MobileSAM 可能需要特定的环境配置,需要仔细阅读官方文档。
* 内存限制: 嵌入式设备的内存通常比较小,需要注意模型的内存占用。可以使用模型压缩、量化等技术来减少内存占用。
* 功耗限制: 嵌入式设备的功耗有限制,需要优化模型的计算复杂度,以降低功耗。

* 优化建议与最佳实践

* 知识蒸馏: 可以使用更大的模型(例如 SAM)作为教师模型,对 KairosAD 进行知识蒸馏,以提高模型的性能。
* 数据增强: 使用数据增强技术,例如旋转、翻转、裁剪等,来增加训练数据的多样性,提高模型的泛化能力。
* 超参数调优: 使用网格搜索、贝叶斯优化等方法,对模型的超参数进行调优,以获得最佳性能。

* 参数设置与调优

* 学习率: 论文中使用了 1e-2 的学习率,可以根据实际情况进行调整。
* 优化器: 论文中使用了 Adam 优化器,也可以尝试其他的优化器,例如 SGD。
* 全连接层数量: 论文中使用了 Nl = 2 或 3 个全连接层,可以根据实际情况进行调整。
* 阈值: 需要根据实际情况设置异常评分的阈值,以确定何时认为图像包含异常。可以通过在验证集上调整阈值来获得最佳性能。

希望这个详细的分析能够帮助你理解这篇论文的核心思想和技术细节。
返回论文列表