Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion

作者:Caixia Dong et.al.

论文链接:http://arxiv.org/abs/2507.12938

发布日期:2025-07-17

解读时间:2025-07-19 18:57:56

论文摘要

Accurate coronary artery segmentation is critical for computeraided diagnosis of coronary artery disease (CAD), yet it remains challenging due to the small size, complex morphology, and low contrast with surrounding tissues. To address these challenges, we propose a novel segmentation framework that leverages the power of vision foundation models (VFMs) through a parallel encoding architecture. Specifically, a vision transformer (ViT) encoder within the VFM captures global structural features, enhanced by the activation of the final two ViT blocks and the integration of an attention-guided enhancement (AGE) module, while a convolutional neural network (CNN) encoder extracts local details. These complementary features are adaptively fused using a cross-branch variational fusion (CVF) module, which models latent distributions and applies variational attention to assign modality-specific weights. Additionally, we introduce an evidential-learning uncertainty refinement (EUR) module, which quantifies uncertainty using evidence theory and refines uncertain regions by incorporating multi-scale feature aggregation and attention mechanisms, further enhancing segmentation accuracy. Extensive evaluations on one in-house and two public datasets demonstrate that the proposed framework significantly outperforms state-of-the-art methods, achieving superior performance in accurate coronary artery segmentation and showcasing strong generalization across multiple datasets. The code is available at https://github.com/d1c2x3/CAseg.

AI解读

好的,我们来详细分析这篇论文。

1. 核心方法与创新点

这篇论文提出了一种新的冠状动脉分割框架,旨在利用视觉基础模型(VFMs)的强大能力。该框架的核心思想是并行使用视觉Transformer(ViT)和卷积神经网络(CNN)进行编码,并结合变分融合和证据学习的不确定性优化来提高分割精度。

主要创新点:

* 并行 ViT-CNN 编码架构:
* 亮点: 利用 ViT 捕获全局结构特征,同时利用 CNN 提取局部细节。这种并行结构克服了传统方法中 CNN 难以保持血管连续性,ViT 难以捕捉细微血管细节的问题。
* 区别: 现有混合方法通常是串行结合 CNN 和 ViT,或者仅在特征层面进行简单融合,而本文采用并行的编码结构,让 ViT 和 CNN 各司其职,更好地提取互补特征。激活ViT最后两个block,并引入注意力引导增强模块(AGE),进一步提升模型捕捉血管连续性和拓扑结构的能力
* 交叉分支变分融合(CVF)模块:
* 亮点: CVF 模块通过建模潜在分布并应用变分注意力机制,自适应地融合来自 ViT 和 CNN 的特征。
* 区别: 传统的特征融合方法(例如,简单的连接或相加)通常无法有效区分不同模态(ViT 和 CNN)特征的重要性。CVF 模块通过变分注意力机制,学习模态特定的权重,更好地平衡全局和局部信息。
* 证据学习不确定性优化(EUR)模块:
* 亮点: EUR 模块利用证据理论量化分割的不确定性,并通过多尺度特征聚合和注意力机制来优化不确定区域的预测。
* 区别: 传统的分割方法通常忽略预测的不确定性,导致在模糊或低对比度区域的分割效果不佳。EUR 模块通过量化不确定性,并有针对性地优化不确定区域,提高分割的鲁棒性。

2. 算法细节与流程

该算法的核心流程如下:

1. 输入图像: 输入 CCTA (冠状动脉计算机断层血管造影) 图像。
2. 并行 ViT-CNN 编码:
* 图像分别输入到 ViT 编码器和 CNN 编码器。
* ViT 编码器: 使用预训练的视觉基础模型(例如,SAM-Med3D)提取全局结构特征。激活最后两个ViT块,并引入注意力引导增强模块(AGE),进一步提升模型捕捉血管连续性和拓扑结构的能力。
* CNN 编码器: 使用 3D UNet 提取局部细节特征。
3. 交叉分支变分融合(CVF):
* ViT 和 CNN 的特征分别输入到 CVF 模块。
* CVF 模块学习每个分支的潜在分布,并计算变分注意力权重。
* 根据注意力权重,自适应地融合 ViT 和 CNN 的特征。
4. 证据学习不确定性优化(EUR):
* 融合后的特征输入到 EUR 模块。
* EUR 模块利用证据理论量化分割的不确定性。
* 利用多尺度特征聚合和注意力机制,优化不确定区域的预测。
5. 输出分割结果: 输出冠状动脉的分割结果。

算法的技术优势和创新之处:

* 互补性特征提取: ViT 和 CNN 的并行编码结构,能够有效地提取全局和局部特征,弥补了单一模型的不足。
* 自适应特征融合: CVF 模块通过变分注意力机制,能够自适应地融合不同模态的特征,提高了融合的效率和准确性。
* 不确定性优化: EUR 模块能够量化分割的不确定性,并有针对性地优化不确定区域的预测,提高了分割的鲁棒性。
* 可扩展性: 该框架可以灵活地选择不同的 ViT 和 CNN 模型,适应不同的应用场景和数据集。

3. 详细解读论文第三部分

论文第三部分详细介绍了CVF模块和EUR模块的数学原理和实现细节。

3.1 CVF模块:

* 潜在分布学习: CVF模块使用两个独立的编码器 Ev 和 Ec,分别对应ViT和CNN分支,从而获取全局和局部特征的潜在变量和互补性。这些编码器使用多层感知机 (MLP) 来参数化全局特征 ($F_v$) 和局部特征 ($F_c$) 的潜在分布,并使用高斯分布进行建模,学习均值和标准差。

* 全局特征的均值和标准差:
$$\mu_v = MLP(F_v), \sigma_v = MLP(F_v)$$
* 局部特征的均值和标准差:
$$\mu_c = MLP(F_c), \sigma_c = MLP(F_c)$$
* 使用重参数化技巧采样潜在变量 $Z_v$ 和 $Z_c$ 确保训练过程中的可微性:
$$Z_v = \mu_v + \sigma_v \cdot \epsilon_v$$
$$Z_c = \mu_c + \sigma_c \cdot \epsilon_c$$
其中 $\epsilon_v, \epsilon_c \sim N(0, I)$ 是从标准高斯分布中采样的随机变量.
* 物理意义: 通过建模特征的潜在分布, CVF模块能够捕获特征的内在变异性和互补性,生成更具表达力和鲁棒性的特征表示,并能够处理数据中的不确定性。
* 变分注意力融合: 使用编码器 Eav 和 Eac 将全局和局部特征的潜在变量进一步处理,生成中间潜在分布 Zav 和 Zac,计算自适应权重。

* 中间潜在变量的均值和标准差:
$$\mu_{av} = MLP(Z_v), \sigma_{av} = MLP(Z_v)$$
$$\mu_{ac} = MLP(Z_c), \sigma_{ac} = MLP(Z_c)$$

$$Z_{av} \sim N(\mu_{av}, \sigma_{av}^2), Z_{ac} \sim N(\mu_{ac}, \sigma_{ac}^2)$$

* 通过Softmax函数计算融合权重 βv 和 βc:
$$(\beta_v, \beta_c) = Softmax(Z_{av}, Z_{ac})$$
* 最终融合特征 Ffuse 通过加权组合潜在变量得到:
$$F_{fuse} = W_m \cdot (\beta_v \cdot Z_v + \beta_c \cdot Z_c)$$
其中 Wm 是一个可学习的权重矩阵,用于最优特征转换。
* 物理意义: 通过变分注意力机制,CVF模块能够根据输入数据的特征自适应地调整全局和局部特征的权重,从而更好地融合不同来源的信息。

3.2 EUR模块:

* 不确定性量化: EUR模块采用基于主观逻辑理论的证据学习范式,通过证据而非直接概率来对不确定性进行建模。
* Dirichlet分布用于捕捉体素级别的不确定性,证据图e通过一个非负激活函数Softplus计算:
$$e = Softplus(F)$$
其中F是输入特征图。
* Dirichlet参数由 α = e + 1 给出, α = [α1, ..., αK], K是类别数量。
* 不确定性估计为:
$$U = \frac{K}{S}$$
其中 $$S = \sum_{k=1}^{K} \alpha_k$$ 表示Dirichlet强度。
* 物理意义: 通过证据理论量化不确定性,EUR模块能够更准确地识别分割结果中存在风险的区域,并有针对性地进行优化。Dirichlet分布可以看作是多项式分布的共轭先验,可以有效建模概率分布的不确定性。S值越大,表示模型对当前像素的预测越自信,不确定性越小。
* 多尺度特征融合: 将来自不同解码器阶段的多尺度特征进行融合,以增强网络捕获上下文信息的能力。
* 通过公式(3),将较低分辨率的特征进行上采样,并与较高分辨率的特征进行融合。
* 最后将融合后的特征连接起来:
$$F_c = Cat(F'_1, F'_2, F'_3, F'_4)$$
其中Cat(·)表示连接操作。
* 使用空间注意力模块 (SAB) 进一步增强空间定位:
$$F_{fusion} = F_c + SAB(F_c)$$
* 物理意义: 多尺度特征融合能够整合来自不同感受野的信息,帮助网络更好地理解图像的上下文,从而提高分割的准确性。
* 不确定性引导的细化:
* 首先构建一个可靠掩码Mr来抑制不确定区域:
$$M_r = (P + F_{fusion}) \cdot exp(-U)$$
其中P是初始预测结果,exp(-U)抑制高不确定性区域,聚焦于更可靠的区域。
* 然后,通过注意力机制自适应地突出显示重要的空间区域,生成动态权重图λ:
$$\lambda = Sigmoid(Conv(ReLU(M_r)))$$
其中λ ∈ [0, 1]。
* 最终的精细化表示如下:
$$F_{refined} = \lambda \cdot P + (1 - \lambda) \cdot F_{fusion}$$
其中λ平衡了初始预测和融合特征的贡献,从而提高了精度。
* 物理意义: 通过不确定性引导的细化,EUR模块能够根据不确定性信息调整网络的注意力,从而更加关注那些需要细化的区域。

3.3 损失函数

论文使用组合分割损失函数 (Lseg) 和证据正则化损失函数 (LKL) 作为训练目标。
$$L = L_{seg} + L_{KL}$$
* $$L_{seg} = \gamma L_{Dice} + (1 - \gamma) L_{WCE}$$
其中γ经验地设置为0.6。 Lseg 是Dice损失和加权交叉熵损失 (WCE) 的加权和。
* 证据正则化损失 (LKL) 使用基于Dirichlet的项来引导不确定性估计。

4. 实现细节与注意事项

* ViT 和 CNN 模型的选择: 可以根据具体的应用场景和数据集选择不同的 ViT 和 CNN 模型。建议选择预训练的模型,以提高训练效率和分割精度。
* 数据预处理: 对 CCTA 图像进行预处理,例如,裁剪、缩放和归一化,以提高模型的鲁棒性。
* 超参数调整: CVF 模块和 EUR 模块中的超参数(例如,MLP 的层数、学习率、权重衰减)需要仔细调整,以获得最佳的分割效果。
* 损失函数权重: Lseg 中的γ和LKL的权重需要根据数据集进行调整,以平衡分割精度和不确定性估计。
* 训练策略: 可以使用不同的训练策略(例如,学习率衰减、早停)来提高模型的泛化能力。
* 硬件要求: 3D模型计算复杂度高,需要高性能GPU进行训练和推理。

实现难点和解决方案:

* ViT 和 CNN 特征的对齐: 由于 ViT 和 CNN 的输出特征维度可能不同,需要进行特征对齐,例如,使用 1x1 卷积或线性变换。
* 不确定性估计的稳定性: 证据理论中的 Dirichlet 分布可能会出现数值不稳定问题,需要进行数值稳定化处理,例如,增加一个小的常数到证据图 e。
* 模型训练的收敛性: 由于模型结构复杂,训练可能会出现不收敛问题,可以尝试使用更小的学习率、更长的训练时间和更强的正则化。

希望这个详细的分析能够帮助你更好地理解这篇论文。
返回论文列表