从Linear Regression开始,到线性回归的Normal Equation与Probabilistic Interpretation;再引入Logistic Regression与Softmax Regression;最后使用Generalized Linear Models统一这三种回归。
1. Supervised Learning 基本设定
监督学习中,我们有训练集:
其中:
是第 个样本的输入,也叫 features / input variables; 是第 个样本的输出,也叫 target / label / output variable。
模型要学习一个函数:
这个函数叫 hypothesis(假设函数)。
目标是:给定新的输入
2. Linear Regression(线性回归)
2.1 模型形式
线性回归假设输出是输入特征的线性组合:
也就是:
其中
线性回归的本质是:找到一个超平面,使它尽可能拟合训练数据。 在二维中是拟合一条线;在高维中是拟合一个 hyperplane。
2.2 代价函数
线性回归使用平方误差:
这里的
目标是:
也就是寻找参数
2.3 LMS Algorithm(最小均方算法)
LMS 是 Least Mean Squares 的缩写。它其实就是对平方误差做梯度下降。
对于单个样本:
对参数
梯度下降更新:
代入得到:
这就是 LMS update rule。
3. Normal Equation(正规方程)
线性回归也可以不用迭代,直接求解析解。
把所有样本堆成设计矩阵:
标签写成:
模型预测为
对
得到:
所以:
这就是 normal equation。
几何意义
正规方程对应的是最小二乘问题:
几何意义是:在
4. Probabilistic Interpretation
假设真实标签由下面的过程生成:
其中噪声满足高斯分布:
那么:
所以条件概率为:
整个数据集的 likelihood 是:
取 log 得到 log-likelihood:
最大化 log-likelihood 等价于最小化:
结论:Least Squares 可以从 Gaussian noise assumption + Maximum Likelihood Estimation 推出来。
5. Locally Weighted Linear Regression(局部加权线性回归)
普通线性回归是全局拟合一个参数
局部加权线性回归的目标函数是:
其中权重通常取:
如果是多维输入,可以写成:
其中
| 模型非常局部 | 模型更接近普通线性回归 |
| 容易过拟合 | 更加平滑 |
6. Classification and Logistic Regression(分类与逻辑回归)
接下来从回归转到分类。
二分类任务中:
= negative class = positive class
如果直接用线性回归做分类,会有一个问题:
6.1 Sigmoid / Logistic Function
定义:
于是 logistic regression 的假设函数是:
它的输出范围是:
可以解释为:
因此:
可以合并写成:
6.2 似然函数
给定训练集,likelihood 是:
log-likelihood 是:
我们最大化这个 log-likelihood。
等价地,也可以最小化 negative log-likelihood,也就是 binary cross entropy:
6.3 梯度
一个非常重要的结论是:
所以梯度上升更新为:
如果是单样本 SGD:
注意它和线性回归 LMS 的形式完全一样:
但是含义不同:
Linear Regression Logistic Regression 来源 Gaussian likelihood Bernoulli likelihood
7. Generalized Linear Models(广义线性模型)
7.1 Exponential Family(指数族分布)
如果一个分布可以写成:
那么它属于 exponential family。
= natural parameter(自然参数) = sufficient statistic(充分统计量) = log partition function(对数配分函数) = base measure(基础测度)
7.2 GLM 的三个假设
构造 GLM 时通常有三个 assumptions:
Assumption 1: 给定
Assumption 2: 预测目标是条件期望:
Assumption 3: natural parameter
这三个假设非常关键。
7.3 Logistic Regression 是 GLM 的特例
对于二分类:
Bernoulli 分布可以写成指数族形式,并且它的 natural parameter 满足:
反过来:
由于 GLM 假设
这正是 logistic regression。
所以 sigmoid 不是随便拍脑袋选出来的,而是:Bernoulli distribution + GLM assumptions 自然推出的 inverse link function。
7.4 Linear Regression 是 GLM 的特例
对于连续值回归,假设:
在 Gaussian 的指数族形式中,预测均值为
而 GLM 假设
这就是 linear regression。
8. Softmax Regression
对于多分类:
使用 multinomial distribution。Softmax regression 的输出是:
它是 logistic regression 在多分类场景下的推广。
也可以写成向量形式:
Softmax 的核心作用是把任意实数 logits 变成概率分布:
并且:
GLM 的核心思路: 先把输出分布写成 exponential family,找出它的 natural parameter
,然后假设 。再利用 ,就能推出对应的 regression model。