Toward Accurate Cardiac MRI Segmentation With Variational Autoencoder-Based Unsupervised Domain Adaptation 论文复现

创建：2025/7/7 科研机器学习论文语义分割 CMR 变分推理

论文链接：Toward Accurate Cardiac MRI Segmentation With Variational Autoencoder-Based Unsupervised Domain Adaptation
论文主要解决了心肌分割的问题，提出无监督域适应方法，将bSSFP(源域)的知识迁移到LGE(目标域)中，实现无需目标域标注的高精度分割。
关于论文的前置知识，可见KL散度、ELBO、VAE等博客。

传统VAE即变分自编码器只有Encoder与Decoder两部分，论文中的VAMCEI增加了分割器部分，并且通过若干个损失函数来对齐源域和目标域的特征空间。

根据架构图，源域和目标域图像都通过UNet风格的Encoder进行特征提取(到潜在z空间)，z空间通过Decoder进行重建；z空间通过分割器进行预测。根据论文的复现，有7个损失函数：

论文复现代码见：cardiac_uda_vamcei

接下来重点解析论文中的关键数学推导，包括：

关键公式与推导

VAE的核心目标是最大化观测数据 $(x, y)$ 的对数似然，通过变分推断转化为可优化的下界：

\log p_{θ} (x, y) \geq L B_{V A E} (θ, ϕ) = - D_{K L} (q_{ϕ} (z | x) ∥ p_{θ} (z)) + E_{q_{ϕ} (z | x)} [\log p_{θ} (x | y, z)] + E_{q_{ϕ} (z | x)} [\log p_{θ} (y | z)]

变量说明：

三项分解：

KL散度项：
$- D_{K L} (q_{ϕ} (z | x) ∥ p_{θ} (z))$
强制潜在空间 $z$ 服从标准正态分布（正则化）。
具体计算（公式2，两正态分布的KL散度有公式）：
$D_{K L} = \frac{1}{2} \sum_{j = 1}^{M} \sum_{i = 1}^{n} (σ_{i j}^{2} + μ_{i j}^{2} - \log σ_{i j}^{2} - 1)$
其中 $M$ 为 batch 大小， $n$ 为潜在空间维度， $μ_{i j}, σ_{i j}$ 为第 $j$ 个样本第 $i$ 维的均值和方差。
重建项：
$E_{q_{ϕ} (z | x)} [\log p_{θ} (x | y, z)]$
最大化重建图像 $\hat{x}$ 的似然，对应二值交叉熵损失（公式3）：
$L_{R} = - \sum_{i = 1}^{M} {\hat{x}}_{i} \log x_{i} + (1 - {\hat{x}}_{i}) \log (1 - x_{i})$
分割项：
$E_{q_{ϕ} (z | x)} [\log p_{θ} (y | z)]$
分割预测损失（公式4）：
$L_{s e g} = \sum_{i = 1}^{M} [L_{C E} (y_{i}, {\hat{y}}_{i}) + L_{D i c e} (y_{i}, {\hat{y}}_{i})]$
结合交叉熵和 Dice 损失处理类别不平衡。

核心问题： 源域和目标域潜在空间分布不一致，导致域偏移。

解决方案： 最小化两域潜在分布的 KL 散度。

双向 KL 散度（公式5）：
$D [q_{ϕ_{s}} (z), q_{ϕ_{t}} (z)] = D_{K L} [q_{ϕ_{s}} (z) ∥ q_{ϕ_{t}} (z)] + D_{K L} [q_{ϕ_{t}} (z) ∥ q_{ϕ_{s}} (z)]$
传统方法用 L2 距离，本文创新性地采用对称 KL 散度更准确度量分布差异。
小批量近似（公式6）：
$D_{K L} [q_{ϕ_{s}} (z) ∥ q_{ϕ_{t}} (z)] = \int [\frac{1}{M} \sum_{i = 1}^{M} q_{ϕ_{s}} (z | x_{S i})] \ln \frac{\frac{1}{M} \sum q_{ϕ_{s}} (z | x_{S i})}{\frac{1}{M} \sum q_{ϕ_{t}} (z | x_{T i})} d z$
高斯近似（公式7）：
$D_{K L} \approx \frac{1}{M^{2}} \sum_{i = 1}^{M} \sum_{j = 1}^{M} E_{q_{ϕ_{s}} (z | x_{S j})} [\ln q_{ϕ_{s}} (z | x_{S j}) - \ln q_{ϕ_{t}} (z | x_{T j})]$
独立维度分解（公式8）：
$D_{K L} = \frac{1}{M^{2}} \sum_{k = 1}^{n} \sum_{j = 1}^{M} \sum_{i = 1}^{M} [\ln \frac{σ_{T i k}}{σ_{S i k}} - \frac{1}{2} + \frac{σ_{S j k}^{2} + (μ_{S j k} - μ_{S i k})^{2}}{2 σ_{T i k}^{2}} + \frac{σ_{S j k}^{2} + (μ_{S j k} - μ_{T i k})^{2}}{2 σ_{S i k}^{2}}]$
其中 $μ_{S i k}, σ_{S i k}$ 为源域第 $i$ 个样本第 $k$ 维的均值和方差， $μ_{T i k}, σ_{T i k}$ 为目标域对应值。
关键在于将复杂的多维积分转化为可计算的求和。

目标： 对齐同类特征，分离异类特征（跨域）。
举例来说，是为了对齐源域和目标域中心肌 Myo 的特征，分离源域心肌 Myo 与目标域右心室 RV 的特征。

类别原型计算（公式9）：
$C_{k} = \frac{\sum_{i = 1}^{M} \sum_{j = 1}^{n} z_{i j} I (y_{i j} = k)}{\sum_{i = 1}^{M} \sum_{j = 1}^{n} I (y_{i j} = k)}$
其中 $z_{i j}$ 为第 $i$ 个样本第 $j$ 像素的特征向量， $I (y_{i j} = k)$ 为指示函数（像素属于类别 $k$ 时为 1）。
原型对比损失（公式10）：
$P r o (q_{s}, q_{T}) = \frac{1}{K} \sum_{k = 1}^{K} - \ln [\frac{\exp (⟨ C_{S k}, C_{T k} ⟩ / τ)}{\sum_{i \neq k} \exp (⟨ C_{S k}, C_{T i} ⟩ / τ) + \exp (⟨ C_{T k}, C_{T i} ⟩ / τ)}]$
其中 $⟨ \cdot, \cdot ⟩$ 为余弦相似度， $τ$ 为温度系数。

通过输出空间域判别器实现。

判别器损失（公式11）：
$L_{d i s_{d}} = E_{x_{S} \sim X_{S}} [\log (D i s (P_{S}))] + E_{x_{T} \sim X_{T}} [\log (1 - D i s (P_{T}))]$
目标：区分源域/目标域分割图 $P_{S}, P_{T}$ 。
生成器（编码器）损失（公式12）：
$L_{d i s_{g}} = E_{x_{T} \sim X_{T}} [\log (D i s (P_{T}))]$
编码器试图"欺骗"判别器，使目标域分割图 $P_{T}$ 被误判为源域，实现隐式特征对齐。

目标： 融合互补模型知识，避免语义错误。

知识蒸馏损失（公式16）：
$L_{d i s t i l l} = - \sum_{i = 1}^{K} \frac{\exp (p_{i} / T)}{\sum_{j} \exp (p_{j} / T)} \log (\frac{\exp (q_{i} / T)}{\sum_{j} \exp (q_{j} / T)})$
其中：
- $p_{i}$ ：教师模型平均概率（Target VAMCEI + Source VAMCEI）
- $q_{i}$ ：学生模型预测概率
- $T$ ：蒸馏温度（软化概率分布）
- $K$ ：类别数

物理意义： 最小化学生与教师输出的 KL 散度，传递"暗知识"（dark knowledge）。