Gaussian Discriminant Analysis (GDA) 与 朴素贝叶斯
1. Discriminative vs Generative
1.1 Discriminative Learning Algorithm
判别式学习直接学习:
或者直接学习映射:
典型例子:Logistic Regression、SVM、Neural Network、Softmax Regression。
它关心的是:给定特征
1.2 Generative Learning Algorithm
生成式学习建模的是:
然后通过 Bayes rule 得到:
其中:
叫 class prior(类别先验概率) 表示给定类别 时特征 的分布
分类时,
这就是生成式分类器的核心。
2. Gaussian Discriminant Analysis (GDA)
2.1 GDA Model
GDA 用于分类,假设输入是连续特征
参数含义:
| 参数 | 含义 |
|---|---|
| 类别 1 的先验概率,即 |
|
| 类别 0 的特征均值向量 | |
| 类别 1 的特征均值向量 | |
| 两类共享的协方差矩阵 |
2.2 Multivariate Gaussian
多元高斯分布记为
是均值向量 是协方差矩阵
概率密度函数:
其中最关键的量是 Mahalanobis distance:
它衡量样本
2.3 Prediction
训练得到
预测规则:
若
2.4 GDA vs Logistic Regression
在 GDA 的假设下,可以推导出后验概率具有 sigmoid 形式:
因此 GDA 和 Logistic Regression 的决策边界都是线性的。但二者并不等价:
| 模型 | 学什么 | 假设强度 | 特点 |
|---|---|---|---|
| Logistic Regression | 直接学 |
较弱 | MLE on |
| GDA | 学 |
更强(假设 Gaussian) | MLE on |
结论:
- 若 Gaussian 假设成立,GDA 数据效率更高,能更快收敛到好的分类器
- 若 Gaussian 假设不成立,Logistic Regression 更 robust
- 实践中数据量足够大时,Logistic Regression 通常是更安全的选择
3. Naive Bayes
3.1 Motivation & Assumption
GDA 适合连续特征。Naive Bayes 适合离散特征,常用于文本分类(spam classification、sentiment analysis、document classification)。
Naive Bayes 也是生成式模型,建模
给定类别
即 Naive Bayes (conditional independence) assumption:
“Naive” 的含义:现实中特征通常不独立,但这个假设极大简化了建模和计算。
3.2 Prediction Formula
由 Bayes rule 和条件独立假设:
分类时:
实际计算取 log 避免下溢:
3.3 Parameter Estimation
以二分类、离散特征为例,使用 MLE(本质上就是数频率)。
类别先验
特征条件概率
类似地,
3.4 Laplace Smoothing
为什么需要平滑? 若某个词在训练集中从未在一类中出现,
对一个取
Laplace smoothing 给每个类别"假装多出现一次":
4. Event Models for Text Classification
核心问题:一篇文档如何表示成特征?有两种常见思路。
4.1 Multi-variate Bernoulli Event Model
只关心某个词是否出现过。特征是二值向量
4.2 Multinomial Event Model
关心文档中每个位置出现了哪个词(等价于关心词频)。设文档长度
模型假设:
分类时(取 log):
Multinomial 模型通常比 Bernoulli 更适合文本分类。
4.3 Parameter Estimation
对于类别
- 分子:类别
的所有文档中词 出现次数 + 1 - 分母:类别
的所有文档的总词数 + 词表大小