学习理论研究训练误差与泛化误差的关系。有限假设类用 Hoeffding inequality + union bound 得到 uniform convergence;无限假设类用 VC dimension 衡量模型复杂度,分析泛化所需样本量。
1. Bias / Variance Tradeoff
- Bias: 模型的系统性偏差
- Variance: 模型对训练数据扰动的敏感程度
| 情况 |
训练误差 |
测试误差 |
问题 |
| High Bias |
高 |
高 |
模型太简单 |
| High Variance |
低 |
高 |
模型太复杂 |
| 合适 |
较低 |
较低 |
泛化较好 |
2. 训练误差与泛化误差
训练误差(Empirical Error):
模型在训练集上犯错的比例。
泛化误差(Generalization Error / True Error):
模型在真实分布上新样本犯错的概率。
3. Empirical Risk Minimization (ERM)
从假设类 中选择训练误差最小的模型:
其中 叫 hypothesis class(候选模型集合)。
我们希望对所有 ,训练误差都接近真实误差:
如果这个性质对所有 同时成立,就叫 uniform convergence——意味着每个模型的训练误差都是它真实误差的可靠估计。
设 ,。若 uniform convergence 成立( 对所有 成立),则:
即 ERM 选出的模型,真实误差最多比候选类中最好的模型差 。(完整推导见附录 A)
5. 有限假设类
假设 ,有限个候选模型。
5.1 Hoeffding Inequality
对固定 ,每个样本的分类对错可视为 Bernoulli 随机变量 ,则 是 的估计。Hoeffding inequality 给出:
含义: 对固定模型,训练误差偏离真实误差的概率随样本数指数级下降。
用 union bound 扩展到整个 (推导见附录 B):
5.3 Sample Complexity
设失败概率不超过 ,即 ,解得:
只要样本数满足此条件,就能以至少 的概率保证 。
- 想要误差更准( 小)→ 样本量 级别增长
- 想要置信度更高( 小)→ 样本量 级别增长
- 模型集合更大( 大)→ 样本量 级别增长
6. 无限假设类与 VC Dimension
当 时,上述 的 bound 失效,需要新的复杂度度量——VC Dimension。
6.1 Shattering
给定点集 ,如果对任意标签分配 ,都存在 能完美分类,则称 shatters 。
VC dimension 定义为 能 shatter 的最大点集大小。
例子: 二维平面线性分类器 的 VC dimension 为 。更一般地, 维线性分类器的 VC dimension 为 。
6.2 泛化界
VC dimension 为 的假设类,泛化界依赖 而非 ,大致形式:
核心结论:
- 有限 : 复杂度由 控制
- 无限 : 复杂度由 VC dimension 控制
附录 A:ERM 界推导
第 4 节中 uniform convergence 保证 ERM 可靠的推导,分步展开如下。
设 为 ERM 选出的模型, 为 中真实最优模型。若 对所有 成立,则:
第一步 — 对 使用 uniform convergence:
第二步 — 是训练误差最小的,所以其训练误差不超过 的训练误差:
第三步 — 对 使用 uniform convergence:
串联三步即得:
附录 B:Union Bound 推导
第 5.2 节中将 Hoeffding bound 从单个假设扩展到整个 的过程。
设 ,定义事件 为"第 个假设的训练误差偏离真实误差超过 ":
那么" 中存在某个假设偏差超过 "即所有 的并集:
由 union bound:
代入每个 的定义和 Hoeffding bound :