LOADING

加载过慢请开启缓存 浏览器默认开启

矩阵求导法则

创建:2026/5/30 科研 机器学习

矩阵求导的定义与常见公式。

一、矩阵求导的定义

X=[x11x1nxm1xmn]

共有 m×n 个变量。

那么定义:

fX=(fxij)

fX=[fx11fx1nfxm1fxmn]

结论

对于 f:Rm×nR,即:输入是矩阵,输出是标量。

则:fXX 形状相同

即:XRm×n,那么 fXRm×n


AI 里常见的矩阵求导公式

1. 线性项

f=aTx

导数:

fx=af=xTa

导数:

fx=a

2. 二范数

f=xTx

导数:

fx=2x

3. 二次型

f=xTAx

导数:

fx=(A+AT)x

A=AT(对称),则:

fx=2Ax

4. Frobenius 范数

f=WF2

导数:

fW=2W

5. 线性变换

y=Wx

x 求导:

yx=W

W 求导(反向传播常用,其中 L=L(y)):

LW=LyxT

这是神经网络权重更新最核心的公式。

6. Trace 技巧

Xtr(AX)=ATXtr(XTAX)=(A+AT)X

A 对称:

Xtr(XTAX)=2AX