LOADING

加载过慢请开启缓存 浏览器默认开启

Matrix theory in machine learning

正定 (PD) 与半正定 (PSD) 矩阵在机器学习中的作用。

1. 二次型:为什么总是出现 xTAx

xTAx 的直观理解:矩阵 A 衡量方向 x 上的"大小"“能量”“方差”“曲率"或"距离”。在机器学习中反复出现。

线性回归

平方损失 Xθy2 展开为 (Xθy)T(Xθy),其中关于 θ 的二次项是 θTXTXθ——loss 由二次型控制。

协方差

对随机向量 X,协方差矩阵 Σ=E[(Xμ)(Xμ)T]。任意方向 a 上的方差:

Var(aTX)=aTΣa

协方差通过二次型描述数据在各方向上的方差。

高斯分布

多元高斯密度中的马氏距离:

(xμ)TΣ1(xμ)

衡量样本 x 离均值 μ 有多远,且考虑了不同方向的方差大小——又是一个二次型。

优化

函数 f(θ) 在某点的二阶近似:

f(θ+Δ)f(θ)+f(θ)TΔ+12ΔTHΔ

其中 H=2f(θ) 是 Hessian。ΔTHΔ 表示沿方向 Δ 的曲率。


2. 正定与半正定的定义

对称矩阵 A

  • 正定 (PD)xTAx>0, x0,记作 A0
  • 半正定 (PSD)xTAx0, x,记作 A0

3. 为什么要求矩阵对称?

二次型 xTAx 实际上只与 A 的对称部分有关。任意矩阵可拆分:

A=A+AT2+AAT2

反对称部分 B=AAT2 满足 xTBx=0,因此:

xTAx=xT(A+AT2)x

所以正定性讨论只针对对称矩阵。


4. 从特征值理解正定性

实对称矩阵 A 可特征分解:A=QΛQT,其中 Λ=diag(λ1,,λn)。于是:

xTAx=xTQΛQTx

z=QTxQ 正交,相当于旋转变换),得:

xTAx=zTΛz=i=1nλizi2

二次型本质:每个方向的平方 zi2 乘上该方向特征值 λi,再求和。

因此:

  • 所有 λi>0xTAx>0 (x0)A 正定
  • 所有 λi0xTAx0 (x)A 半正定
  • 存在 λi<0 → 沿该特征方向 xTAx 变负

即:

A0λi>0, iA0λi0, i

5. 为什么 XTX 一定是半正定?

对任意向量 z

zTXTXz=(Xz)T(Xz)=Xz220

因此 XTX0(恒为 PSD)。

什么时候 XTX 进一步成为正定?

zTXTXz=Xz2>0 对所有 z0 成立,即 Xz0, z0,等价于 Null(X)={0}——X 列满秩。所以:

XTX0X 列满秩

与第一讲的衔接:

  • X 列不满秩 → null space 非空 → XTX 奇异(第一讲)
  • XTX 恒为 PSD;X 列满秩则进一步为 PD;否则只是 PSD、不是 PD(第二讲)

6. 正定性与线性回归

线性回归平方损失 J(θ)=12Xθy2 的 Hessian 是 2J(θ)=XTX

  • XTX0 → 损失函数是凸函数
  • XTX0X 列满秩)→ 损失严格凸,有唯一最优解
  • XTX0 但非 PD(X 列不满秩)→ 凸但不严格凸,可能无穷多最优解

PSD → 凸;PD → 严格凸 / 唯一解。


7. 正定性与优化:Hessian 在看什么?

一维函数:二阶导 > 0 向上弯(局部最小),< 0 向下弯(局部最大)。多维推广:方向 v 上的二阶曲率 = vTHv

  • H0:所有方向向上弯 → 局部最小,解稳定,牛顿法方向合理
  • H0:没有向下弯的方向,但可能有平坦方向 → 常见于参数冗余、过参数化、特征不满秩
  • H 不定(有正有负特征值):有些方向上升、有些下降 → 鞍点,深度学习高维空间中大量出现

8. 正定性与协方差矩阵

协方差矩阵 Σ=E[(Xμ)(Xμ)T] 恒为 PSD,证明:

aTΣa=aTE[(Xμ)(Xμ)T]a=E[aT(Xμ)(Xμ)Ta]

aT(Xμ) 是标量,故:

aTΣa=E[(aT(Xμ))2]=Var(aTX)0

因此 Σ0

什么时候协方差不是正定?

存在非零方向 a 使 aTΣa=0,即 Var(aTX)=0——数据在该方向上无变化。常见于:

  • 数据落在低维子空间
  • 某些特征是其他特征的线性组合
  • 样本数太少,无法撑满整个维度

例如 xR10000 但只有 m=100 个样本,经验协方差矩阵必为低秩(奇异)。这也是 GDA、GMM、Factor Analysis 中常需处理协方差奇异的原因。


9. 为什么高斯分布需要正定协方差?

多元高斯分布:

p(x)=1(2π)n/2|Σ|1/2exp(12(xμ)TΣ1(xμ))

要求 Σ0,两个原因:

  1. 方差必须合法:若有负特征值 → 某方向方差为负 → 无概率意义
  2. Σ1 必须存在:若 Σ 奇异则无法求逆,普通高斯密度无定义(退化高斯除外)

10. Mahalanobis Distance:为什么用 Σ1

马氏距离:

dM(x,μ)2=(xμ)TΣ1(xμ)

与欧氏距离 xμ2(默认各方向尺度相同)的区别:马氏距离考虑了各方向的方差差异。

Σ=QΛQT 代入,Σ1=QΛ1QT,令 z=QT(xμ)

(xμ)TΣ1(xμ)=izi2λi
  • 方差大的方向 λi 大 → 对距离惩罚小
  • 方差小的方向 λi 小 → 对距离惩罚大

马氏距离本质上是用协方差结构重新定义"距离"。


11. 正定性与 Kernel Matrix

Kernel matrix Kij=K(xi,xj)。合法 kernel 的本质是 K(x,z)=ϕ(x)Tϕ(z),即某特征空间中的内积。

对任意系数 c

cTKc=i,jcicjK(xi,xj)=i,jcicjϕ(xi)Tϕ(xj)

合并:

cTKc=iciϕ(xi)20

因此 K0——kernel matrix 必须是 PSD。这不是人为规定,而是因为合法 kernel 必须能解释为某特征空间中的内积,而 Gram matrix 天然半正定。

K 不是 PSD,则不能对应任何真实内积空间中的 Gram matrix,SVM 优化问题可能不再凸,dual problem 不稳定。


12. 正定性与 Ridge Regression

Ridge 目标函数 J(θ)=Xθy2+λθ2 的 Hessian 是 XTX+λI

已知 XTX0,而 λI0(当 λ>0),故:

XTX+λI0

Ridge 目标严格凸,有唯一解。若 XTX 特征值为 μ1,,μn,则 XTX+λI 特征值为 μ1+λ,,μn+λ。原来 μi=0 导致不可逆,加 λ 后全部 >0,矩阵变正定、可逆。


13. 正定矩阵的机器学习作用总结

场景 矩阵 为什么 PSD/PD 重要
线性回归 XTX Hessian,决定凸性和解是否唯一
Ridge XTX+λI 变成 PD,保证可逆和稳定
协方差 Σ 任意方向方差不能为负
高斯分布 Σ 需要合法方差和可逆协方差
马氏距离 Σ1 用方差结构衡量距离
Kernel SVM K 必须能表示内积空间中的 Gram matrix
PCA Σ 特征值表示各方向方差
优化 Hessian H PSD 表示凸,PD 表示严格局部最小

14. 正定、半正定、奇异矩阵的关系

  • 正定必可逆A0 → 所有 λi>0 → 无可逆性障碍
  • 半正定不一定可逆A0λi0,若有 λi=0 则奇异。例如 A=[1000] 是 PSD 但不可逆
  • XTX 的情况:永远 PSD;X 列满秩 → PD(可逆);X 列不满秩 → 仅 PSD(奇异)

15. 总结

正定和半正定不是在背定义,而是在保证机器学习中的"方差、距离、能量、曲率、内积"在所有方向上都是合理的。

  • 协方差 PSD:任意方向方差非负
  • Hessian PSD:优化问题没有向下弯的方向
  • Hessian PD:局部像碗一样稳定
  • Kernel PSD:相似度能解释成合法内积
  • Ridge 变 PD:保证矩阵可逆、解唯一、数值稳定

核心直觉:

凡是机器学习里出现 xTAx,都要问:这个量表示什么?它能不能为负?如果不能,A 就应该是 PSD;如果还要求每个非零方向都严格有意义,A 就应该是 PD。