正定 (PD) 与半正定 (PSD) 矩阵在机器学习中的作用。
1. 二次型:为什么总是出现 ?
线性回归
平方损失
协方差
对随机向量
协方差通过二次型描述数据在各方向上的方差。
高斯分布
多元高斯密度中的马氏距离:
衡量样本
优化
函数
其中
2. 正定与半正定的定义
对称矩阵
- 正定 (PD):
,记作 - 半正定 (PSD):
,记作
3. 为什么要求矩阵对称?
二次型
反对称部分
所以正定性讨论只针对对称矩阵。
4. 从特征值理解正定性
实对称矩阵
令
二次型本质:每个方向的平方
乘上该方向特征值 ,再求和。
因此:
- 所有
→ → 正定 - 所有
→ → 半正定 - 存在
→ 沿该特征方向 变负
即:
5. 为什么 一定是半正定?
对任意向量
因此
什么时候 进一步成为正定?
若
与第一讲的衔接:
列不满秩 → null space 非空 → 奇异(第一讲) 恒为 PSD; 列满秩则进一步为 PD;否则只是 PSD、不是 PD(第二讲)
6. 正定性与线性回归
线性回归平方损失
→ 损失函数是凸函数 ( 列满秩)→ 损失严格凸,有唯一最优解 但非 PD( 列不满秩)→ 凸但不严格凸,可能无穷多最优解
PSD → 凸;PD → 严格凸 / 唯一解。
7. 正定性与优化:Hessian 在看什么?
一维函数:二阶导 > 0 向上弯(局部最小),< 0 向下弯(局部最大)。多维推广:方向
:所有方向向上弯 → 局部最小,解稳定,牛顿法方向合理 :没有向下弯的方向,但可能有平坦方向 → 常见于参数冗余、过参数化、特征不满秩 不定(有正有负特征值):有些方向上升、有些下降 → 鞍点,深度学习高维空间中大量出现
8. 正定性与协方差矩阵
协方差矩阵
因此
什么时候协方差不是正定?
存在非零方向
- 数据落在低维子空间
- 某些特征是其他特征的线性组合
- 样本数太少,无法撑满整个维度
例如
9. 为什么高斯分布需要正定协方差?
多元高斯分布:
要求
- 方差必须合法:若有负特征值 → 某方向方差为负 → 无概率意义
必须存在:若 奇异则无法求逆,普通高斯密度无定义(退化高斯除外)
10. Mahalanobis Distance:为什么用 ?
马氏距离:
与欧氏距离
将
- 方差大的方向
大 → 对距离惩罚小 - 方差小的方向
小 → 对距离惩罚大
马氏距离本质上是用协方差结构重新定义"距离"。
11. 正定性与 Kernel Matrix
Kernel matrix
对任意系数
合并:
因此
若
12. 正定性与 Ridge Regression
Ridge 目标函数
已知
Ridge 目标严格凸,有唯一解。若
13. 正定矩阵的机器学习作用总结
| 场景 | 矩阵 | 为什么 PSD/PD 重要 |
|---|---|---|
| 线性回归 | Hessian,决定凸性和解是否唯一 | |
| Ridge | 变成 PD,保证可逆和稳定 | |
| 协方差 | 任意方向方差不能为负 | |
| 高斯分布 | 需要合法方差和可逆协方差 | |
| 马氏距离 | 用方差结构衡量距离 | |
| Kernel SVM | 必须能表示内积空间中的 Gram matrix | |
| PCA | 特征值表示各方向方差 | |
| 优化 | Hessian |
PSD 表示凸,PD 表示严格局部最小 |
14. 正定、半正定、奇异矩阵的关系
- 正定必可逆:
→ 所有 → 无可逆性障碍 - 半正定不一定可逆:
→ ,若有 则奇异。例如 是 PSD 但不可逆 的情况:永远 PSD; 列满秩 → PD(可逆); 列不满秩 → 仅 PSD(奇异)
15. 总结
正定和半正定不是在背定义,而是在保证机器学习中的"方差、距离、能量、曲率、内积"在所有方向上都是合理的。
- 协方差 PSD:任意方向方差非负
- Hessian PSD:优化问题没有向下弯的方向
- Hessian PD:局部像碗一样稳定
- Kernel PSD:相似度能解释成合法内积
- Ridge 变 PD:保证矩阵可逆、解唯一、数值稳定
核心直觉:
凡是机器学习里出现
,都要问:这个量表示什么?它能不能为负?如果不能, 就应该是 PSD;如果还要求每个非零方向都严格有意义, 就应该是 PD。