贝叶斯神经网络

创建：2025/8/10 科研贝叶斯推断机器学习

贝叶斯神经网络（Bayesian Neural Network, BNN）

贝叶斯神经网络（BNN）是传统人工神经网络（ANN）与贝叶斯概率理论结合的产物。传统神经网络通过“点估计”学习模型参数（如权重和偏置），而BNN则将参数视为随机变量，学习其概率分布（而非单一固定值），从而天然具备量化不确定性的能力，是解决“模型不确定性”问题的核心方法之一。

要理解BNN，首先需要对比其与传统神经网络（如CNN、MLP）的核心差异——对“参数”的认知不同：

BNN的参数学习完全基于贝叶斯定理，其核心是通过“先验分布”和“数据似然”推导“后验分布”，公式如下：

P (θ ∣ D) = \frac{P (D ∣ θ) \cdot P (θ)}{P (D)}

各部分含义：

$P (θ)$ ：参数先验分布（Prior）：在观察数据前，对参数（如权重 $θ$ ）的概率假设（如假设权重服从均值为0、方差为0.1的正态分布）。先验是BNN“注入领域知识”的关键（例如已知权重不应过大，可设小方差先验）。
$P (D ∣ θ)$ ：数据似然（Likelihood）：在给定参数 $θ$ 的情况下，观察到训练数据 $D$ 的概率（与传统神经网络的损失函数对应，如回归任务中似然常为高斯分布，分类任务中为Softmax分布）。
$P (D)$ ：证据（Evidence）：边际似然，即“所有可能参数下观察到 $D$ 的概率”，是一个与 $θ$ 无关的归一化常数，计算公式为 $P (D) = \int P (D ∣ θ) P (θ) d θ$ 。
$P (θ ∣ D)$ ：参数后验分布（Posterior）：观察到数据 $D$ 后，对参数 $θ$ 概率分布的更新结果——这是BNN最终要学习的目标。

BNN的核心难点在于：后验分布 $P (θ ∣ D)$ 通常无法直接计算。

原因是“证据” $P (D)$ 的积分（ $\int P (D ∣ θ) P (θ) d θ$ ）在高维参数空间（如深度神经网络的百万级权重）下是“不可解的”（积分维度与参数数量一致，计算量呈指数级增长）。

为解决这一问题，学界提出了多种近似推断方法，这里只介绍变分推断一种方法。

变分推断的核心思想是：用一个“简单、可计算的近似分布 $q (θ)$ ”替代复杂的后验分布 $P (θ ∣ D)$ ，通过最小化两者的“KL散度”（衡量两个分布的差异）来逼近后验。

定义近似分布族 $q (θ; ϕ)$ （ $ϕ$ 为变分参数，如正态分布的均值和方差）；
最小化KL散度 $K L (q (θ; ϕ) ∥ P (θ ∣ D))$ ，等价于最大化“证据下界（ELBO）”： $ELBO (ϕ) = E_{q (θ; ϕ)} [\log P (D ∣ θ)] - K L (q (θ; ϕ) ∥ P (θ))$
- 第一项 $E [\log P (D ∣ θ)]$ ：似然期望，鼓励模型拟合数据；
- 第二项 $- K L (q ∥ P)$ ：KL散度正则项，鼓励近似分布 $q$ 贴近先验 $P$ ，避免过拟合。

关于变分推断的更详细推导，可见变分推理、ELBO与变分自编码器一文。