高斯核(Gaussian Kernel)是一种常用的核函数(Kernel Function),广泛应用于支持向量机(SVM)、核主成分分析(KPCA)、聚类等机器学习任务中,尤其擅长处理非线性问题。其核心原理是通过“隐式映射”将低维空间中线性不可分的数据转换到高维空间,从而在高维空间中实现线性可分,同时避免了直接计算高维空间的复杂运算。
一、核函数的基本概念
在解释高斯核之前,先明确核函数的作用:
现实中很多数据在低维空间是线性不可分的(比如二维平面上的环形数据),此时需要将数据映射到更高维的空间(比如三维),使得在高维空间中数据可以用线性超平面分隔。
设低维空间的样本为
核函数的定义为:
即核函数直接计算低维样本的某种关系,等价于高维空间中映射后的内积。
核函数的优势在于:无需显式定义映射函数
二、高斯核的定义
高斯核(也称为径向基函数核,RBF Kernel)的数学表达式为:
其中:
是低维空间中样本 和 的欧氏距离平方(衡量样本间的“物理距离”); 是带宽参数(Bandwidth),控制核函数的“宽窄”;
三、高斯核的核心原理
高斯核的原理可以从“相似度衡量”和“隐式高维映射”两个角度理解:
1. 本质是样本相似度的度量
高斯核的输出值
- 当
时,欧氏距离 ,此时 (相似度最高); - 当
和 距离越远时, 越大,指数部分越接近 , 越接近0(相似度越低)。
因此,高斯核通过“距离越近,相似度越高”的逻辑,刻画了样本间的内在关联。
2. 隐式映射到无限维空间
高斯核的关键特性是:它对应一个从低维空间到无限维空间的隐式映射。
我们可以通过泰勒展开验证这一点:
对于一维样本
为方便理解,做以下推导:
已知高斯核(简化形式,省略
利用向量差的平方公式
对
指数函数的泰勒展开式为
构造“隐式映射函数”
定义无限维映射函数:
此时,
这与高斯核的表达式完全一致,即:
通过泰勒展开 + 向量内积重组,证明了高斯核可对应一个无限维的隐式映射函数
-
无需显式写出高维空间的全部维度,仅通过低维样本的指数运算,就能等价于高维空间的内积;
-
映射函数
的分量包含 的各阶幂次( ),系数由泰勒展开的余项决定。 -
若
是多维向量(如 ),推导逻辑类似,仅需将“一维幂次”替换为“多维多项式组合”(如 ); -
实际应用中,无需显式计算
,直接用核函数公式即可完成高维内积的“隐式计算”(核技巧,Kernel Trick)。
3. 带宽参数 的作用
参数
较小时:核函数曲线尖锐(“窄核”),只有与样本 非常近的样本 才会被认为有较高相似度(核值接近1)。此时模型容易过拟合(对噪声敏感,只关注局部细节)。 较大时:核函数曲线平缓(“宽核”),更多距离较远的样本会被认为有较高相似度。此时模型容易欠拟合(忽略局部差异,过度平滑数据)。
形象地说,