子空间、秩、奇异矩阵、最小二乘.
1. 从线性回归开始:矩阵 到底在做什么?
在线性回归里,数据矩阵:
= 样本数 = 特征数
参数
很多人觉得这只是一个矩阵乘法,但它有一个非常重要的几何意义:
把参数空间 中的一个参数向量 ,映射成样本空间 中的一个预测向量 。
即
2. Column Space:模型到底能预测出哪些 ?
则
所有可能的预测值组成的集合就是
模型通过调节参数
,所有可能产生的预测向量集合。
真实标签
- 若
:存在某个 使 ,训练误差可以为 0。 - 若
:无论怎么选 ,模型都不能完全拟合 ,只能找一个最接近的预测向量——这就是最小二乘。
3. 最小二乘:不是公式,而是投影
线性回归最小二乘问题:
几何意义:
在
里面,找一个点 ,让它离 最近。
即把
因为
整理得 normal equation(正规方程):
理解它的核心是:最优解对应的残差,必须和模型能表达的所有方向正交,而不是机械地记
4. Rank:数据里有多少个真正独立的方向?
矩阵
: 个特征列线性无关(列满秩) :特征之间有线性冗余,参数可能不唯一
5. Null Space:为什么参数会不唯一?
若存在非零向量
和 是两个不同的参数,但预测完全一样。
这在机器学习里很常见:特征冗余、样本数少于特征数、过参数化模型(如深度学习)都会导致非零零空间。例如 100 个样本、10000 个特征时,
6. 欠定、超定和机器学习中的三种情况
线性系统
超定( )
方程多于未知数,通常不能完全满足
方阵( )
若
欠定( )
未知数多于方程,通常有无穷多解。这在现代 ML 中非常常见(高维特征、过参数化、大模型参数远多于训练样本)。问题变成:在所有能拟合训练集的参数里,应该选哪个? 这就引出最小范数解、伪逆、正则化、implicit bias 等概念。
7. 为什么最小范数解重要?
假设很多解满足
零空间方向不影响训练集预测。但参数范数可能差很多——过大的参数会导致数值不稳定、对扰动敏感、泛化变差。因此我们偏好范数较小的解:
这就是最小范数解,它和伪逆有关:
当参数不唯一时,伪逆会选择其中范数最小的那个解。
8. 为什么普通逆不够?伪逆和正则化
普通逆矩阵只适用于满秩方阵。但 ML 中的
于是需要:
- 伪逆:处理非方阵和奇异矩阵
- SVD:看清矩阵哪些方向可逆、哪些不可逆
- Ridge:给
加 使其更稳定
Ridge 形式:
直觉:若
9. 用一条链条串起来
对于
10. 回到机器学习:这些概念解决什么问题?
为什么线性回归有时候不能直接用公式解?
为什么特征冗余会造成不稳定?
存在
为什么最小二乘是投影?
模型所有可能预测值都在
为什么需要正则化?
矩阵不可逆或接近不可逆时解非常不稳定。正则化相当于说:不要为了拟合训练集,在数据无法可靠确定的方向上乱跑。
11. 总结
线性回归表面上在找参数
- 用
的列空间描述模型能表达的所有预测结果 - 把真实标签
投影到这个预测空间里 - 在所有能产生该预测的参数中,选择合适的参数
的列空间足够大 → 模型表达能力强 不满 → 特征冗余、参数不唯一 奇异 → 普通逆失效,需要 SVD、伪逆、正则化
第一讲的核心不是"会不会求 rank",而是这个意识:
矩阵的 rank 决定信息量,column space 决定模型能表达什么,null space 决定参数有哪些冗余方向,最小二乘就是投影,奇异矩阵意味着某些方向的信息丢失。