LOADING

加载过慢请开启缓存 浏览器默认开启

CS229-4 Learning Theory

学习理论研究训练误差与泛化误差的关系。有限假设类用 Hoeffding inequality + union bound 得到 uniform convergence;无限假设类用 VC dimension 衡量模型复杂度,分析泛化所需样本量。

1. Bias / Variance Tradeoff

  • Bias: 模型的系统性偏差
  • Variance: 模型对训练数据扰动的敏感程度
情况 训练误差 测试误差 问题
High Bias 模型太简单
High Variance 模型太复杂
合适 较低 较低 泛化较好

2. 训练误差与泛化误差

训练误差(Empirical Error):

ε^(h)=1mi=1m1{h(x(i))y(i)}

模型在训练集上犯错的比例。

泛化误差(Generalization Error / True Error):

ε(h)=P(x,y)D(h(x)y)

模型在真实分布上新样本犯错的概率。

3. Empirical Risk Minimization (ERM)

从假设类 H 中选择训练误差最小的模型:

h^=argminhHε^(h)

其中 H 叫 hypothesis class(候选模型集合)。

4. Uniform Convergence

我们希望对所有 hH,训练误差都接近真实误差:

|ε^(h)ε(h)|γ

如果这个性质对所有 h 同时成立,就叫 uniform convergence——意味着每个模型的训练误差都是它真实误差的可靠估计。

为什么 uniform convergence 能保证 ERM 可靠?

h^=argminhHε^(h)h=argminhHε(h)。若 uniform convergence 成立(|ε^(h)ε(h)|γ 对所有 h 成立),则:

ε(h^)ε^(h^)+γε^(h)+γε(h)+2γ

即 ERM 选出的模型,真实误差最多比候选类中最好的模型差 2γ。(完整推导见附录 A

5. 有限假设类

假设 |H|=k,有限个候选模型。

5.1 Hoeffding Inequality

对固定 h,每个样本的分类对错可视为 Bernoulli 随机变量 Zi=1{h(x(i))y(i)},则 ε^(h)=1mi=1mZiε(h) 的估计。Hoeffding inequality 给出:

P(|ε^(h)ε(h)|>γ)2exp(2γ2m)

含义: 对固定模型,训练误差偏离真实误差的概率随样本数指数级下降。

5.2 Union Bound → Uniform Convergence

用 union bound 扩展到整个 H(推导见附录 B):

P(hH:|ε^(h)ε(h)|>γ)hHP(|ε^(h)ε(h)|>γ)2kexp(2γ2m)

5.3 Sample Complexity

设失败概率不超过 δ,即 2kexp(2γ2m)δ,解得:

m12γ2log2|H|δ

只要样本数满足此条件,就能以至少 1δ 的概率保证 hH,|ε^(h)ε(h)|γ

  • 想要误差更准(γ 小)→ 样本量 1/γ2 级别增长
  • 想要置信度更高(δ 小)→ 样本量 log(1/δ) 级别增长
  • 模型集合更大(|H| 大)→ 样本量 log|H| 级别增长

6. 无限假设类与 VC Dimension

|H|= 时,上述 log|H| 的 bound 失效,需要新的复杂度度量——VC Dimension

6.1 Shattering

给定点集 S={x(1),x(2),,x(d)},如果对任意标签分配 y(i){0,1},都存在 hH 能完美分类,则称 H shatters S

VC dimension VC(H) 定义为 H 能 shatter 的最大点集大小。

例子: 二维平面线性分类器 hw,b(x)=1{wTx+b0} 的 VC dimension 为 3。更一般地,n 维线性分类器的 VC dimension 为 n+1

6.2 泛化界

VC dimension 为 d 的假设类,泛化界依赖 d 而非 |H|,大致形式:

m=O(1γ2(dlog1γ+log1δ))

核心结论:

  • 有限 H 复杂度由 log|H| 控制
  • 无限 H 复杂度由 VC dimension 控制

附录 A:ERM 界推导

第 4 节中 uniform convergence 保证 ERM 可靠的推导,分步展开如下。

h^ 为 ERM 选出的模型,hH 中真实最优模型。若 |ε^(h)ε(h)|γ 对所有 hH 成立,则:

第一步 — 对 h^ 使用 uniform convergence:

ε(h^)ε^(h^)+γ

第二步h^ 是训练误差最小的,所以其训练误差不超过 h 的训练误差:

ε^(h^)ε^(h)

第三步 — 对 h 使用 uniform convergence:

ε^(h)ε(h)+γ

串联三步即得:

ε(h^)ε(h)+2γ

附录 B:Union Bound 推导

第 5.2 节中将 Hoeffding bound 从单个假设扩展到整个 H 的过程。

H={h1,h2,,hk},定义事件 Ai 为"第 i 个假设的训练误差偏离真实误差超过 γ":

Ai={|ε^(hi)ε(hi)|>γ}

那么"H 中存在某个假设偏差超过 γ"即所有 Ai 的并集:

P(hH:|ε^(h)ε(h)|>γ)=P(A1A2Ak)

union bound

P(A1A2Ak)i=1kP(Ai)

代入每个 Ai 的定义和 Hoeffding bound P(Ai)2exp(2γ2m)

P(hH:|ε^(h)ε(h)|>γ)i=1k2exp(2γ2m)=2kexp(2γ2m)