变分推理、ELBO与变分自编码器

创建：2025/7/3 科研机器学习概率

变分推理与ELBO

定义

变分推理是一种近似推断方法，用于估计难以直接计算的概率分布（如贝叶斯后验分布）。其核心思想是：

选择一个简单的参数化分布族 $q (z; λ)$ （称为变分分布）
优化参数 $λ$ ，使 $q (z)$ 尽可能接近目标分布 $p (z | x)$
用 $q (z)$ 作为 $p (z | x)$ 的近似

公式推导

1. 问题设定

给定：观测数据 $x$ ，隐变量 $z$ 。

目标：计算后验分布

p (z | x) = \frac{p (x, z)}{p (x)}

其中边缘似然

p (x) = \int p (x, z) d z

通常难以计算（高维积分）。

2. KL 散度最小化

用变分分布 $q (z)$ 近似 $p (z | x)$ ，最小化 KL 散度：

λ^{*} = \arg min_{λ} KL (q (z; λ) ∥ p (z ∣ x))

KL 散度展开：

KL (q ∥ p) = \int q (z) \log \frac{q (z)}{p (z ∣ x)} d z

3. 导出证据下界 (ELBO)

将贝叶斯公式 $p (z | x) = \frac{p (x, z)}{p (x)}$ 代入：

\begin{aligned} KL (q ∥ p) & = \int q (z) [\log q (z) - \log p (z ∣ x)] d z \\ = \int q (z) [\log q (z) - \log \frac{p (x, z)}{p (x)}] d z \\ = \int q (z) \log q (z) d z - \int q (z) \log p (x, z) d z + \log p (x) \end{aligned}

整理得：

KL (q ∥ p) = - \underset{ELBO}{\underset{⏟}{[E_{q} [\log p (x, z)] - E_{q} [\log q (z)]]}} + \log p (x)

其中 $\log p (x)$ 是常数（证据），因此：

min KL (q ∥ p) \Leftrightarrow max ELBO (λ)

4. ELBO 分解

ELBO 可分解为两部分：

ELBO = E_{q (z)} [\log p (x ∣ z)] - KL (q (z) ∥ p (z))

推导：

\begin{aligned} ELBO & = E_{q} [\log p (x, z)] - E_{q} [\log q (z)] \\ = E_{q} [\log (p (x ∣ z) p (z))] - E_{q} [\log q (z)] \\ = E_{q} [\log p (x ∣ z)] + E_{q} [\log p (z)] - E_{q} [\log q (z)] \\ = E_{q} [\log p (x ∣ z)] - \underset{KL (q ∥ p)}{\underset{⏟}{(E_{q} [\log q (z)] - E_{q} [\log p (z)])}} \end{aligned}

5. 变分优化

最大化 ELBO 的梯度上升更新：

λ^{(t + 1)} = λ^{(t)} + η \nabla_{λ} ELBO

梯度计算使用重参数化技巧（Reparameterization Trick）：

令 $z = g (ϵ; λ)$ ，其中 $ϵ \sim p (ϵ)$

梯度：

\nabla_{λ} ELBO = E_{p (ϵ)} [\nabla_{λ} \log p (x, g (ϵ; λ)) - \nabla_{λ} \log q (g (ϵ; λ))]

关键点总结

本质：用优化问题替代积分计算
ELBO 性质：
- $ELBO \leq \log p (x)$ （故名"下界"）
- 最大化 ELBO 等价于最小化 $KL (q ∥ p)$
变分族选择：
- 平均场近似： $q (z) = \prod_{i} q_{i} (z_{i})$
- 高斯分布： $q (z) = N (μ, Σ)$
优势：将推断转化为可扩展的优化问题（适合大数据）
应用：贝叶斯神经网络、主题模型（LDA）、变分自编码器（VAE）

#变分自编码器

变分自编码器（VAE）

1. VAE 的定义

变分自编码器（Variational Autoencoder, VAE）是一种深度生成模型，结合了自编码器结构和变分推断。核心思想：

用神经网络参数化概率分布（编码器为近似后验，解码器为生成模型）
通过重参数化技巧实现端到端训练
目标：学习数据的潜在表示并生成新样本

2. VAE 的概率图模型

z \sim p (z) = N (0, I), x \sim p_{θ} (x ∣ z)

其中：

$z \in R^{d}$ ：潜在变量（低维表示）
$x \in R^{D}$ ：观测数据（ $D ≫ d$ ）
$θ$ ：生成模型（解码器）参数

3. VAE 的架构

编码器（推断网络）： $q_{ϕ} (z ∣ x) = N (z; μ_{ϕ} (x), σ_{ϕ}^{2} (x) I)$
解码器（生成网络）： $p_{θ} (x ∣ z) = {\begin{cases} N (μ_{θ} (z), σ^{2} I) & (连续数据) \\ Bernoulli (π_{θ} (z)) & (二值数据) \end{cases}$
$ϕ$ ：编码器参数
$θ$ ：解码器参数
神经网络实现： $μ_{ϕ}, σ_{ϕ} = {Encoder}_{ϕ} (x)$ $μ_{θ} = {Decoder}_{θ} (z)$

4. VAE 的推导：目标函数

步骤 1：变分下界 (ELBO)

VAE 最大化观测数据的对数似然下界：

\log p_{θ} (x) \geq ELBO (θ, ϕ; x) = E_{q_{ϕ} (z | x)} [\log p_{θ} (x | z)] - KL (q_{ϕ} (z | x) ∥ p (z))

步骤 2：KL 散度项解析解

当 $p (z) = N (0, I)$ 且 $q_{ϕ} = N (μ, σ^{2})$ 时：

KL (q_{ϕ} ∥ p) = - \frac{1}{2} \sum_{j = 1}^{d} (1 + \log σ_{j}^{2} - μ_{j}^{2} - σ_{j}^{2})

其中 $d$ 是潜在空间维度。

步骤 3：重建项估计

使用蒙特卡洛采样(随机抽样取平均)估计：

E_{q_{ϕ}} [\log p_{θ} (x | z)] \approx \frac{1}{L} \sum_{l = 1}^{L} \log p_{θ} (x ∣ z^{(l)})

其中 $z^{(l)} = g_{ϕ} (x, ϵ^{(l)}), ϵ^{(l)} \sim N (0, I)$ ，通常 $L = 1$ 。

5. 重参数化技巧 (Reparameterization Trick)

关键创新：将随机采样转化为确定性计算：

z = μ_{ϕ} (x) + σ_{ϕ} (x) ⊙ ϵ, ϵ \sim N (0, I)

$⊙$ 表示逐元素乘法， $ϵ$ 是随机采样的一个噪声，这样保证了"随机采样"的计算过程可以反向传播，即梯度可反向传播至编码器参数 $ϕ$ 。

6. 完整目标函数

对于数据集 $D = {x^{(i)}}_{i = 1}^{N}$ ，优化：

max_{θ, ϕ} L (θ, ϕ; D) = \sum_{i = 1}^{N} L (θ, ϕ; x^{(i)})

其中单样本目标：

L (θ, ϕ; x) = \underset{重建项}{\underset{⏟}{E_{q_{ϕ}} [\log p_{θ} (x | z)]}} - \underset{正则项}{\underset{⏟}{KL (q_{ϕ} (z | x) ∥ p (z))}}

实际计算（ $L = 1$ ）：

L (θ, ϕ; x) \approx \log p_{θ} (x ∣ z) - \frac{1}{2} \sum_{j = 1}^{d} (1 + \log σ_{j}^{2} - μ_{j}^{2} - σ_{j}^{2})

其中 $z = μ_{ϕ} + σ_{ϕ} ⊙ ϵ$ 。

7. 训练算法（伪代码）

典型的 VAE 训练流程如下：

从数据集中采样一个批次 ${x^{(i)}}_{i = 1}^{B}$
对每个 $x^{(i)}$ ：
- 计算 $μ_{ϕ} (x^{(i)}), σ_{ϕ} (x^{(i)})$
- 采样 $ϵ \sim N (0, I)$
- 计算 $z^{(i)} = μ_{ϕ} + σ_{ϕ} ⊙ ϵ$
- 计算重建 ${\hat{x}}^{(i)} = {Decoder}_{θ} (z^{(i)})$
计算损失：

L = \frac{1}{B} \sum_{i = 1}^{B} [- \log p_{θ} (x^{(i)} ∣ z^{(i)}) + \frac{1}{2} \sum_{j = 1}^{d} (μ_{j}^{2} + σ_{j}^{2} - \log σ_{j}^{2} - 1)]

反向传播，更新 $θ$ 和 $ϕ$

8. 生成新样本

z_{new} \sim p (z) = N (0, I), x_{new} \sim p_{θ} (x ∣ z_{new})

关键创新点总结

概率自编码器：
- 编码器 $\to$ 近似后验 $q_{ϕ} (z | x)$
- 解码器 $\to$ 生成模型 $p_{θ} (x | z)$
可微训练：重参数化技巧解决随机节点梯度问题
正则化潜在空间：KL 散度项强制潜在分布匹配先验 $N (0, I)$
生成能力：从 $p (z)$ 采样 $\to$ 解码器 $\to$ 生成新样本

LOADING