Fault detection and diagnosis for the engine electrical system of a space launcher based on a temporal convolutional autoencoder and calibrated classifiers

论文摘要

In the context of the health monitoring for the next generation of reusable space launchers, we outline a first step toward developing an onboard fault detection and diagnostic capability for the electrical system that controls the engine valves. Unlike existing approaches in the literature, our solution is designed to meet a broader range of key requirements. This includes estimating confidence levels for predictions, detecting out-of-distribution (OOD) cases, and controlling false alarms. The proposed solution is based on a temporal convolutional autoencoder to automatically extract low-dimensional features from raw sensor data. Fault detection and diagnosis are respectively carried out using a binary and a multiclass classifier trained on the autoencoder latent and residual spaces. The classifiers are histogram-based gradient boosting models calibrated to output probabilities that can be interpreted as confidence levels. A relatively simple technique, based on inductive conformal anomaly detection, is used to identify OOD data. We leverage other simple yet effective techniques, such as cumulative sum control chart (CUSUM) to limit the false alarms, and threshold moving to address class imbalance in fault detection. The proposed framework is highly configurable and has been evaluated on simulated data, covering both nominal and anomalous operational scenarios. The results indicate that our solution is a promising first step, though testing with real data will be necessary to ensure that it achieves the required maturity level for operational use.

AI解读

好的，让我们来详细分析这篇论文，重点关注其方法和技术细节，并用通俗易懂的语言进行解释。

1. 核心方法与创新点

* 核心方法论：

这篇论文提出了一种基于深度学习的框架，用于空间运载火箭发动机电气系统的故障检测与诊断（FDD）。该框架的核心思想是利用时间卷积自编码器（TCAE）从原始传感器数据中自动提取低维特征，然后使用梯度提升树（HGBT）分类器在 TCAE 提取的特征上进行故障检测和诊断。为了提高模型的可靠性和实用性，该框架还集成了异常检测（OOD detection）、置信度估计（classifier calibration）以及假警报控制（CUSUM）等技术。
* 主要创新点：

1. TCAE + HGBT 组合：将 TCAE 和 HGBT 分类器结合用于故障检测与诊断，据作者所知，这在 FDD 领域，尤其是在电机故障诊断中，是首次尝试。TCAE 负责特征提取，HGBT 负责分类，充分利用了两种模型的优势。
2. CUSUM 应用于故障概率：将累积和控制图（CUSUM）应用于二元分类器预测的故障概率，以限制误报，这也是一种新颖的方法。CUSUM 可以有效地平滑噪声，并延迟触发故障警报，从而提高检测的可靠性。
3. 关注模型校准和异常检测：论文特别关注模型校准（classifier calibration）和共形异常检测（conformal anomaly detection）等技术，这些技术在故障诊断领域应用较少。这些技术可以提高预测的可靠性，并识别出与训练数据分布不同的异常数据。
4. 综合性框架：该框架不仅关注故障检测和诊断的准确性，还考虑了实际应用中的关键需求，例如置信度估计、异常检测和误报控制。这使得该框架更实用，更易于部署到实际系统中。

2. 算法细节与流程

1. 数据预处理

* 数据缩放：使用 Min-Max 缩放将每个特征缩放到 \[0, 1] 范围内。这是为了避免不同特征的数值范围差异过大，影响模型的训练。
* 滑动窗口：使用重叠的滑动窗口从时间序列数据中提取样本。窗口长度和步长是可配置的参数，用于控制样本的时序信息和数量。论文采用窗口长度 100，步长 10。

2. 特征提取 (TCAE)

* 训练TCAE: 使用只包含正常数据的训练集训练TCAE网络。
* 编码：将滑动窗口样本输入到训练好的TCAE编码器，得到低维度的潜在空间向量 *z*。
* 解码：将低维向量 *z* 通过解码器重构回原始数据空间，得到重构后的数据 ˆ*x*。
* 残差计算: 计算输入 *x* 和重构 ˆ*x* 之间的残差（residual）。残差越大，说明模型对该样本的重构能力越差，可能存在异常。
* 计算异常得分: 将残差的绝对误差（L1 loss）作为异常得分 *e*。 *e*可以用于OOD检测。

3. 故障检测

* 二元分类器: 将低维特征 *z*（或者残差 *r*，取决于配置）输入到经过校准的二元分类器，预测当前样本是否为故障。
* 概率输出: 经过校准的二元分类器输出每个样本属于故障类别的概率 *p_bin*，这个概率可以作为模型对预测的置信度。
* CUSUM 过滤: 使用 CUSUM 算法对二元分类器的概率输出进行平滑和过滤，以减少误报。 CUSUM 算法累积概率超过阈值的程度，只有累积值超过一定阈值时才触发故障警报。
* 阈值判断: 将 CUSUM 的输出与阈值进行比较，判断是否触发故障警报。

4. 故障诊断

* 多分类器: 如果检测到故障，则将低维特征 *r*（或者 *z*，取决于配置）输入到多分类器，诊断具体的故障类型。
* 类别输出: 多分类器输出样本属于每个故障类别的概率。选择概率最高的类别作为诊断结果。

5. 异常检测（OOD Detection）

* 重构误差作为异常指标: 使用TCAE的重构误差 *e* 作为异常指标。
* 共形异常检测: 使用共形异常检测方法，基于训练数据，计算异常阈值。
* OOD 判断: 如果样本的异常得分 *e* 超过阈值，则判定为 OOD (Out-of-Distribution) 样本。

3. 详细解读论文第三部分： Background

这一部分介绍了论文中使用的关键技术，尤其是一些在故障检测领域应用较少的，如模型校准和共形预测。

* 3.1 Temporal Convolutional Autoencoder (TCAE)

TCAE 的核心思想是利用时间卷积网络（TCN）来处理时序数据，并结合自编码器的结构进行特征提取。
* 卷积层: 普通的卷积操作，卷积核在输入序列上滑动，提取局部特征。缺点：感受野有限，难以捕捉长距离依赖。
* 膨胀卷积: 膨胀卷积 (dilated convolution) 通过在卷积核元素之间插入空隙来扩大卷积核的感受野，从而捕捉更长距离的依赖关系。膨胀率（dilation rate）决定了空隙的大小。
* 编码器:
1. 输入是维度为 (c, T) 的信号，其中 c 是时间序列的数量，T 是序列长度。本例中 c=14， T=100。
2. L 个膨胀卷积模块，每个模块包含：
* 64个卷积核大小为 k 的膨胀因果卷积滤波器。
* 16 个卷积核大小为 1 的卷积滤波器。
* ReLU 激活函数。
* Dropout层
3. 每个模块的输出沿着通道维度拼接，方便识别短时和长时序列模式。
4. 一个 1x1 卷积层减少通道数到 clatent
5. 平均池化层进行降采样。
6. 一个卷积层在编码器的最后用于进一步降维而不损失信息。
* 膨胀率计算: 膨胀率的计算方式如下：
* 第一个卷积层的膨胀率为 1。
* 后续卷积层的膨胀率以前一层的膨胀率为基础，乘以膨胀基数 b（通常为 2）。
* 公式 $$L=⌈log_b( \frac{(T-1)(b-1)}{2(k-1)}+1)⌉ $$ 用于确定卷积模块的数量，以确保网络能够覆盖整个输入序列。

* 解码器:
* 解码器与编码器结构对称，也使用膨胀卷积，但膨胀率与编码器相反。
* 解码器的目标是将低维特征 *z* 重构为原始输入 *x*。
* 3.2 Histogram-based Gradient Boosting Trees (HGBT)

HGBT 是一种梯度提升树的变体，针对大数据集进行了优化。

* 梯度提升: 多个决策树串行训练，每个树都试图纠正前一个树的错误。
* 直方图优化: HGBT 使用直方图离散化连续特征，加速梯度计算，减少内存占用。
* 优势: HGBT 对混合数据类型、缺失值和不平衡数据集具有鲁棒性。

* 3.3 Classifier Calibration

校准的目的是使分类器输出的概率能够准确反映预测的置信度。

* 为什么需要校准: 大多数分类器输出的分数 *s(x)* 只是样本 *x* 属于某个类别的排序，并不等同于真实的概率 *P(c|x)*。需要一个映射函数将分数 *s(x)* 转化为概率估计 ˆ*P(c|x)*。

* 可靠性图 (reliability diagram): 用于可视化分类器的校准情况。x 轴是预测分数，y 轴是实际属于该类别的样本比例。校准良好的分类器应该接近 y=x 这条线。

* 校准方法:

1. Platt scaling: 参数方法，使用 sigmoid 函数进行映射。适用于 SVM 模型，因为 SVM 的可靠性曲线通常呈 sigmoid 形状。
2. Isotonic regression: 非参数方法，使用保序回归进行映射。假设样本的排序与属于该类别的可能性一致。

* 评估指标:

1. Expected Calibration Error (ECE): 测量校准性能。计算公式为 $ECE = \sum_{i=1}^{B} \pi_i |o_i - e_i|$，其中 B 是 bin 的数量，$\pi_i$ 是第 i 个 bin 中样本的比例，$o_i$ 是第 i 个 bin 中正样本的比例，$e_i$ 是第 i 个 bin 中校准概率的均值。

2. Maximum Calibration Error (MCE): 测量校准方法的稳定性。计算公式为 $MCE = \max_{i=1}^{B} |o_i - e_i|$。

3. Brier score (Mean Squared Error, MSE): 测量校准性能。计算公式为 $MSE = \frac{1}{N} \sum_{i=1}^{N} (y_i - p_i)^2$，其中 N 是样本数量，$p_i$ 是校准后的概率，$y_i$ 是样本的标签。

* 3.4 Conformal Prediction

共形预测 (CP) 是一种统计技术，可以为分类任务提供置信度度量，生成具有指定覆盖概率的预测集。
* 核心思想: CP 通过评估新数据与训练数据的共形程度来量化不确定性。
* 优点: 提供良好的校准置信度分数，改善决策，减少误报。
* 缺点: 边缘有效性 (marginal validity)，在校准样本和测试样本分布差异较大时，准确率会降低。
* 3.5 OOD Detection

OOD检测用于识别与训练数据显著不同的输入，对于处理新的或未见过的故障类型至关重要。
* 核心思想: 识别潜在的危险情况，增强鲁棒性和早期预警能力。

* 3.6 Post-processing with CUSUM

CUSUM 通过跟踪滑动窗口的累积偏差来增强对偏移的敏感性，从而更可靠地检测随时间逐渐发展的异常。

* 3.7 Class Imbalance

类别不平衡是指某些类别（通常是 FDD 中的故障类别）的样本数量远少于正常操作数据的情况。
* 解决方法:
* 算法层面: 修改现有算法，考虑正样本的重要性。
* 数据层面: 重采样方法，包括随机过采样 (ROS)、随机欠采样 (RUS) 和合成过采样 (SMOTE)。
* 代价敏感学习: 为少数类别的错误分类分配更高的惩罚。例如，在二元分类中，调整阈值可以优先降低误报。
* 权值调整: 调整分类器训练过程中的参数，以便对少数类别进行更大的惩罚，从而更有效地处理类别不平衡。
* 阈值移动: 调整默认决策阈值，在二元分类中，可以优先减少假阳性或假阴性，具体取决于哪种类型的错误更严重。

数据层面的方法通常会导致模型校准不佳。

4. 实现细节与注意事项

* 数据预处理：

* 确保使用相同的缩放参数（从训练集获得）来缩放验证集、测试集和实际应用中的新数据。
* 滑动窗口的长度和步长需要根据具体应用进行调整。较小的窗口可以更快地检测到故障，但可能会增加误报的风险。较大的窗口可以提高检测的准确性，但可能会延迟检测时间。
* 训练和测试的步长需要保持一致。

* TCAE 模型：

* TCAE 的结构（卷积层数、卷积核大小、膨胀率等）需要根据数据的特点进行调整。
* 可以使用 Adam 等优化器来训练 TCAE 模型。
* 使用早停法（early stopping）可以防止过拟合。

* HGBT 分类器：

* HGBT 的超参数（树的数量、树的深度、叶节点数等）需要进行调优。
* 可以使用交叉验证等方法来选择最佳的超参数。
* 注意类别不平衡问题，并采取相应的措施（例如，调整类别权重、使用重采样方法）。
* HGBT需要做概率校准，提升置信度。

* CUSUM 算法：

* CUSUM 的阈值需要根据具体应用进行调整。较高的阈值可以减少误报，但可能会延迟检测时间。
* 如果需要快速检测到故障，可以禁用 CUSUM 算法。

* OOD 检测：

* OOD 检测的阈值需要根据具体应用进行调整。较低的阈值可以提高 OOD 检测的灵敏度，但可能会增加误报的风险。
* 选择合适的异常指标（例如，重构误差）对于 OOD 检测至关重要。

* 参数设置和调优：

* 使用网格搜索、随机搜索或贝叶斯优化等方法来自动调优模型的超参数。
* 使用验证集来评估模型的性能，并防止过拟合。
* 在实际应用中，需要根据数据的特点和应用需求，不断调整模型的参数和算法。

希望这个详细的分析对您有所帮助!