LOADING

加载过慢请开启缓存 浏览器默认开启

高斯核

高斯核(Gaussian Kernel)是一种常用的核函数(Kernel Function),广泛应用于支持向量机(SVM)、核主成分分析(KPCA)、聚类等机器学习任务中,尤其擅长处理非线性问题。其核心原理是通过“隐式映射”将低维空间中线性不可分的数据转换到高维空间,从而在高维空间中实现线性可分,同时避免了直接计算高维空间的复杂运算。

一、核函数的基本概念

在解释高斯核之前,先明确核函数的作用:
现实中很多数据在低维空间是线性不可分的(比如二维平面上的环形数据),此时需要将数据映射到更高维的空间(比如三维),使得在高维空间中数据可以用线性超平面分隔。

设低维空间的样本为x,y,映射函数ϕ将其映射到高维空间ϕ(x),ϕ(y),则高维空间中两个样本的内积为ϕ(x)ϕ(y)
核函数的定义为:

K(x,y)=ϕ(x)ϕ(y)

核函数直接计算低维样本的某种关系,等价于高维空间中映射后的内积

核函数的优势在于:无需显式定义映射函数ϕ(甚至无需知道ϕ的具体形式),就能间接实现高维空间的内积运算,大幅降低计算复杂度。

二、高斯核的定义

高斯核(也称为径向基函数核,RBF Kernel)的数学表达式为:

K(x,y)=exp(xy22σ2)

其中:

  • |xy2是低维空间中样本xy欧氏距离平方(衡量样本间的“物理距离”);
  • σ是带宽参数(Bandwidth),控制核函数的“宽窄”;

三、高斯核的核心原理

高斯核的原理可以从“相似度衡量”和“隐式高维映射”两个角度理解:

1. 本质是样本相似度的度量

高斯核的输出值K(x,y)本质上是两个样本x,y的相似度

  • x=y时,欧氏距离xy2=0,此时K(x,y)=exp(0)=1(相似度最高);
  • xy距离越远时,xy2越大,指数部分越接近K(x,y)越接近0(相似度越低)。

因此,高斯核通过“距离越近,相似度越高”的逻辑,刻画了样本间的内在关联。

2. 隐式映射到无限维空间

高斯核的关键特性是:它对应一个从低维空间到无限维空间的隐式映射

我们可以通过泰勒展开验证这一点:
对于一维样本x,高斯核的映射函数ϕ(x)可表示为无穷多个基函数的组合(例如1,x,x2,x3,的加权形式)。这意味着,高斯核无需手动设计高维映射,就能自动将数据“嵌入”到无限维空间,从而理论上可以处理任意复杂的非线性关系。

为方便理解,做以下推导:
已知高斯核(简化形式,省略σ参数):

K(xi,xj)=exp{xixj2}

利用向量差的平方公式 xixj2=xi2+xj22xixj(假设 xi,xj 为一维标量,多维可推广),代入核函数:

K(xi,xj)=exp{xi2xj2+2xixj}=exp{xi2}exp{xj2}exp{2xixj}

exp{2xixj}做泰勒展开:
指数函数的泰勒展开式为 exp{z}=n=0znn!zR)。令 z=2xixj,则:

exp{2xixj}=n=0(2xixj)nn!=n=02nn!(xixj)n

构造“隐式映射函数”ϕ(x) ,观察展开式的结构,可将 exp{xi2}exp{2xixj}exp{xj2} 重新组合为两个向量的内积

定义无限维映射函数

ϕ(x)=exp{x2}(200!,211!x,222!x2,,2nn!xn,)

此时,ϕ(xi)ϕ(xj) 的内积为:

ϕ(xi)ϕ(xj)=exp{xi2}exp{xj2}n=02nn!xinxjn=exp{xi2xj2+2xixj}

这与高斯核的表达式完全一致,即:

K(xi,xj)=ϕ(xi)ϕ(xj)

通过泰勒展开 + 向量内积重组,证明了高斯核可对应一个无限维的隐式映射函数ϕ(x)

  • 无需显式写出高维空间的全部维度,仅通过低维样本的指数运算,就能等价于高维空间的内积;

  • 映射函数ϕ(x)的分量包含x的各阶幂次(x0,x1,x2,),系数由泰勒展开的余项决定。

  • xi,xj 是多维向量(如 x=(x1,x2,,xd)),推导逻辑类似,仅需将“一维幂次”替换为“多维多项式组合”(如 x1ax2bxdk);

  • 实际应用中,无需显式计算ϕ(x),直接用核函数公式即可完成高维内积的“隐式计算”(核技巧,Kernel Trick)。

3. 带宽参数σ的作用

参数σ是高斯核的核心超参数,直接影响模型性能:

  • σ较小时:核函数曲线尖锐(“窄核”),只有与样本x非常近的样本y才会被认为有较高相似度(核值接近1)。此时模型容易过拟合(对噪声敏感,只关注局部细节)。
  • σ较大时:核函数曲线平缓(“宽核”),更多距离较远的样本会被认为有较高相似度。此时模型容易欠拟合(忽略局部差异,过度平滑数据)。

形象地说,σ决定了模型“关注范围”的大小:σ越小,关注局部;σ越大,关注全局。