TransformEEG: Towards Improving Model Generalizability in Deep Learning-based EEG Parkinson's Disease Detection

论文摘要

Electroencephalography (EEG) is establishing itself as an important, low-cost, noninvasive diagnostic tool for the early detection of Parkinson's Disease (PD). In this context, EEG-based Deep Learning (DL) models have shown promising results due to their ability to discover highly nonlinear patterns within the signal. However, current state-of-the-art DL models suffer from poor generalizability caused by high inter-subject variability. This high variability underscores the need for enhancing model generalizability by developing new architectures better tailored to EEG data. This paper introduces TransformEEG, a hybrid Convolutional-Transformer designed for Parkinson's disease detection using EEG data. Unlike transformer models based on the EEGNet structure, TransformEEG incorporates a depthwise convolutional tokenizer. This tokenizer is specialized in generating tokens composed by channel-specific features, which enables more effective feature mixing within the self-attention layers of the transformer encoder. To evaluate the proposed model, four public datasets comprising 290 subjects (140 PD patients, 150 healthy controls) were harmonized and aggregated. A 10-outer, 10-inner Nested-Leave-N-Subjects-Out (N-LNSO) cross-validation was performed to provide an unbiased comparison against seven other consolidated EEG deep learning models. TransformEEG achieved the highest balanced accuracy's median (78.45%) as well as the lowest interquartile range (6.37%) across all the N-LNSO partitions. When combined with data augmentation and threshold correction, median accuracy increased to 80.10%, with an interquartile range of 5.74%. In conclusion, TransformEEG produces more consistent and less skewed results. It demonstrates a substantial reduction in variability and more reliable PD detection using EEG data compared to the other investigated models.

AI解读

好的，让我们来详细分析这篇关于 TransformEEG 的论文，重点关注其方法和技术细节。

1. 核心方法与创新点

这篇论文的核心是提出了一个名为 TransformEEG 的新型深度学习模型，用于利用脑电图（EEG）数据来检测帕金森病（PD）。其核心方法是结合了卷积神经网络（CNN）和Transformer模型的优点，旨在提升模型在不同个体之间的泛化能力，解决现有深度学习模型在 EEG 数据上的通用性较差的问题。

* 核心方法：
* 混合架构：结合 CNN 和 Transformer 的混合架构，利用 CNN 提取局部特征，Transformer 捕捉全局依赖关系。
* 深度可分离卷积 Tokenizer: 使用深度可分离卷积来生成 channel-specific 的 tokens，这一tokenizer可以更有效地提取每个channel（导联）的特征。

* 主要创新点：

1. 深度可分离卷积 Tokenizer（Depthwise Convolutional Tokenizer）：
* 技术亮点：传统 Transformer 模型通常使用类似 EEGNet 的结构作为编码器。而 TransformEEG 使用专门设计的深度可分离卷积 Tokenizer，该 Tokenizer 针对每个 EEG 导联（通道）提取特定的局部时序特征，生成包含通道特定信息的 tokens。
* 与现有方法的区别：现有方法通常直接使用空间卷积来混合不同导联的信息，可能导致信息冗余和通道特定特征的丢失。TransformEEG 的 Tokenizer 避免了在早期阶段进行通道混合，保留了每个通道的独立性，更好地表征了 EEG 数据的特性。

2. 更有效的特征混合：
* 技术亮点：通过 channel-specific 的 tokens，Transformer 编码器能够更有效地进行特征混合，捕捉 EEG 信号中的复杂模式。
* 与现有方法的区别：现有的基于 EEGNet 的 Transformer 模型，其注意力机制可能受到前期卷积层特征提取的限制，而 TransformEEG 能够更灵活地组合来自不同通道的特征。

3. 在多个公共数据集上验证泛化能力：
* 技术亮点：论文在四个公开 EEG 数据集上进行了充分的实验，并通过嵌套留一受试者交叉验证（Nested-Leave-N-Subjects-Out，N-LNSO）来评估模型的泛化能力。
* 与现有方法的区别：许多研究仅在单一数据集上进行验证，容易高估模型的性能。论文采用了更严格的交叉验证方法和多个数据集，更客观地评估了模型的泛化能力。

4. 使用 ARIS 评估数据增强
* 技术亮点：论文提出 Augmentation Relative Improvement Score (ARIS) 用于评估不同数据增强策略对模型性能的提升.
* 与现有方法的区别：现有的数据增强策略往往只关注模型准确率，ARIS不仅关注准确率，还兼顾模型的稳定性，能够更好的帮助我们选择更加有效的数据增强策略。

2. 算法细节与流程

TransformEEG 的算法流程可以概括为以下几个步骤：

1. 数据预处理：
* 使用 BIDSAlign 工具对四个公开数据集进行预处理，包括去除无关通道、移除头部和尾部的时间段、去除直流分量、重采样、滤波、独立成分分析（ICA）去除噪声、重参考到公共平均参考电极、选择 32 个常用通道、进一步降采样和 z-score 标准化。
* 将 EEG 数据分割成 16 秒的窗口，窗口之间有 25% 的重叠。

2. 深度可分离卷积 Tokenizer：
* 将预处理后的 EEG 数据输入到 Tokenizer 中。
* Tokenizer 包含两个堆叠的深度可分离卷积块。
* 每个深度可分离卷积块执行以下操作：
* 深度卷积（Depthwise Convolution）：每个输入通道应用单独的卷积核，提取通道特定特征。这里会将输入的通道数double，例如输入32通道，经过第一层depthwise convolution会变成64通道。
* 批归一化（Batch Normalization）和 ELU 激活函数。
* 平均池化（Average Pooling）：降低序列长度。
* Dropout：防止过拟合。
* 另一个深度卷积。
* 批归一化和 ELU 激活函数。
* 残差连接（Residual Connection）：改善梯度传播。

3. Transformer 编码器：
* 将 Tokenizer 生成的 tokens 输入到 Transformer 编码器中。
* Transformer 编码器包含多个 Transformer 编码器层。
* 每个 Transformer 编码器层执行以下操作：
* 自注意力机制（Self-Attention）：计算 tokens 之间的关系。
* 多层感知机（MLP）：进行非线性变换。
* 层归一化（Layer Normalization）：稳定训练。
* 不使用位置编码（Positional Encoding）和类别 token。

4. 分类 MLP：
* 将 Transformer 编码器的输出输入到分类 MLP 中。
* 全局平均池化（Global Average Pooling）：生成嵌入向量。
* MLP 包含一个隐藏层，使用 LeakyReLU 激活函数。
* Sigmoid 函数：输出概率值，表示样本来自 PD 患者 EEG 的可能性。

5. 训练与评估：
* 使用 N-LNSO 交叉验证，将数据集分成训练集、验证集和测试集。
* 使用 Adam 优化器训练模型。
* 使用二元交叉熵损失函数。
* 使用早停法（Early Stopping）防止过拟合。
* 使用平衡准确率（Balanced Accuracy）评估模型性能。
* 使用 ARIS 筛选最优的数据增强策略。

算法的技术优势和创新之处：

* 深度可分离卷积 Tokenizer：能够更好地提取通道特定特征，为后续的特征混合奠定基础。
* 混合架构：结合 CNN 和 Transformer 的优点，既能捕捉局部特征，又能捕捉全局依赖关系。
* 在多个数据集上验证：更客观地评估了模型的泛化能力。

3. 详细解读论文第三部分

论文的第三部分 (Results) 主要展示了实验结果，验证了 TransformEEG 的有效性。并没有具体的公式推导，但结果的统计分析方法值得关注。我将按照论文的结果展示顺序进行解读。

* 3.1 Baseline Comparison:

* 主要内容：在没有数据增强和阈值校正的情况下，比较 TransformEEG 与其他七个模型的性能。
* 关键结果： TransformEEG 在中值平衡准确率（78.45%）和四分位距（IQR，6.37%）方面均排名第一，且实现了最高的最低准确率（64.46%）。这表明 TransformEEG 在基本情况下已经优于其他模型，并且结果更加稳定。
* 有效训练周期（Effective Training Epochs）： TransformEEG 具有较高的中值有效训练周期（21 个），表明该模型在训练过程中能够持续学习，不易过早过拟合。xEEGNet虽然拥有最高的有效训练周期(37),但其参数量很小，泛化性能不佳。

* 3.2 Comparison Including Data Augmentation:

* 主要内容：评估在训练流程中加入最优数据增强方法后，模型性能的变化。
* 数据增强方法筛选：采用ARIS分数。只保留同时提高了中值和降低了四分位距的数据增强方法。
* ARIS公式：

$$
ARIS =
\begin{cases}
0 & \text{if } (M_b > M) \lor (IQR_b < IQR) \\
\frac{M - M_b}{M_b} \times \frac{IQR_b - IQR}{IQR_b} & \text{otherwise}
\end{cases}
$$

* $M_b$: 不使用数据增强时的平衡准确率中值（baseline 中值）。
* $M$: 使用数据增强后的平衡准确率中值。
* $IQR_b$: 不使用数据增强时的四分位距（baseline 四分位距）。
* $IQR$: 使用数据增强后的四分位距。
* 物理意义： ARIS 衡量了数据增强相对于基线性能的相对改进。它同时考虑了准确率的提升和结果稳定性的提高。如果数据增强没有同时提高中值和降低四分位距，则 ARIS 为 0。 `M - M_b`是模型准确率的提升， `IQR_b - IQR`是模型稳定性的提升。
* 关键结果： TransformEEG 在应用最优数据增强（time reverse + masking）后，中值平衡准确率提升至 79.21%，四分位距降低至 5.97%。同时，TransformEEG 几乎所有测试准确率（99/100）都高于 70%，体现了其出色的泛化能力和稳定性。ShallowNet的四分位距有所增大，说明其稳定性较差。

* 3.3 Comparison Including Threshold Correction:

* 主要内容：在应用最优数据增强的基础上，进一步对分类阈值进行校正，观察模型性能的变化。
* 阈值校正方法：通过在验证集上寻找最优阈值，使平衡准确率最大化，从而对默认的 0.5 阈值进行调整。
* 关键结果： TransformEEG 在进行阈值校正后，中值平衡准确率达到 80.10%，四分位距降至 5.74%。它是唯一一个中值平衡准确率超过 80% 且四分位距低于 baseline 的模型。

* 3.4 Model Scalability:

* 主要内容：分析当训练数据量减少时，模型性能的变化。
* 实验设置：将数据集减少到只包含 ds002778 和 ds003490 两个数据集（共 81 个受试者），观察模型性能变化。
* 关键结果：所有模型的性能都出现了明显的下降，且结果的四分位距增大。TransformEEG 的中值平衡准确率下降了 6.01%，表明数据量对 TransformEEG 的性能有较大影响。
* 结论：数据量不足会导致模型泛化能力下降，表明在训练深度学习模型时，需要足够数量的训练数据。

总结：论文第三部分通过一系列实验，验证了 TransformEEG 在帕金森病 EEG 检测任务中的有效性和优越性。实验结果表明，TransformEEG 在中值平衡准确率、结果稳定性以及泛化能力方面均优于其他模型。

4. 实现细节与注意事项

* 数据预处理：严格的数据预处理至关重要，需要仔细选择合适的滤波参数、ICA 参数等。可以考虑使用自动化的预处理流程，例如 BIDSAlign，以提高效率和一致性。
* Tokenizer 设计：深度可分离卷积 Tokenizer 是 TransformEEG 的核心组件，需要仔细设计卷积核大小、深度等参数，以提取合适的通道特定特征。
* Transformer 编码器： Transformer 编码器的层数、注意力头数等参数需要根据数据集大小和任务复杂度进行调整。论文中发现增加注意力头数并没有提升性能，可能的原因是数据集较小，容易过拟合。
* 数据增强：数据增强可以有效提升模型的泛化能力，需要根据 EEG 数据的特性选择合适的数据增强方法。论文中使用了 time reverse 和 masking 等方法，可以根据实际情况进行调整。使用 ARIS 筛选最优的数据增强策略。
* 训练参数：学习率、batch size、优化器等训练参数需要仔细调整，以获得最佳的训练效果。论文中使用 Adam 优化器和早停法，可以作为参考。
* 交叉验证：使用 N-LNSO 交叉验证可以更可靠地评估模型的泛化能力。需要根据数据集大小选择合适的 N 值，以保证测试集的独立性。
* 硬件要求： TransformEEG 包含 Transformer 结构，对 GPU 显存有一定要求。如果显存不足，可以尝试减小 batch size、降低模型复杂度或使用混合精度训练等方法。

* 实现难点和解决方案

* 深度可分离卷积的参数设置：深度可分离卷积对卷积核大小比较敏感，需要通过实验确定最佳的卷积核大小。
* Transformer 训练的稳定性： Transformer 模型在训练时容易出现梯度消失或梯度爆炸的问题，可以尝试使用梯度裁剪、warmup 等方法来稳定训练。
* N-LNSO 交叉验证的计算量： N-LNSO 交叉验证需要训练多个模型，计算量较大，可以考虑使用并行计算等方法来加速训练。

* 优化建议和最佳实践

* 模型压缩： TransformEEG 的参数量相对较大，可以考虑使用模型剪枝、量化等方法进行压缩，以减少模型大小和推理时间。
* 知识蒸馏：可以使用更大的模型作为教师模型，指导 TransformEEG 学习，以提升模型性能。
* 自监督学习：结合自监督学习方法，利用大量的无标签 EEG 数据进行预训练，以提升模型的泛化能力。

总而言之，TransformEEG 是一篇有价值的论文，它提出了一个新颖的深度学习模型，并详细评估了其在帕金森病 EEG 检测任务中的性能。该论文的实现细节和注意事项对实际应用具有指导意义。