矩阵求导法则

创建：2026/5/30 科研机器学习

矩阵求导的定义与常见公式。

一、矩阵求导的定义

设

X = [\begin{matrix} x_{11} & \dots & x_{1 n} \\ ⋮ & ⋮ \\ x_{m 1} & \dots & x_{m n} \end{matrix}]

共有 $m \times n$ 个变量。

那么定义：

\frac{\partial f}{\partial X} = (\frac{\partial f}{\partial x_{i j}})

即

\frac{\partial f}{\partial X} = [\begin{matrix} \frac{\partial f}{\partial x_{11}} & \dots & \frac{\partial f}{\partial x_{1 n}} \\ ⋮ & ⋮ \\ \frac{\partial f}{\partial x_{m 1}} & \dots & \frac{\partial f}{\partial x_{m n}} \end{matrix}]

结论

对于 $f : R^{m \times n} \to R$ ，即：输入是矩阵，输出是标量。

则： $\frac{\partial f}{\partial X}$ 与 $X$ 形状相同。

即： $X \in R^{m \times n}$ ，那么 $\frac{\partial f}{\partial X} \in R^{m \times n}$ 。

AI 里常见的矩阵求导公式

1. 线性项

f = a^{T} x

导数：

\frac{\partial f}{\partial x} = a

f = x^{T} a

导数：

\frac{\partial f}{\partial x} = a

2. 二范数

f = x^{T} x

导数：

\frac{\partial f}{\partial x} = 2 x

3. 二次型

f = x^{T} A x

导数：

\frac{\partial f}{\partial x} = (A + A^{T}) x

若 $A = A^{T}$ （对称），则：

\frac{\partial f}{\partial x} = 2 A x

4. Frobenius 范数

f = ∥ W ∥_{F}^{2}

导数：

\frac{\partial f}{\partial W} = 2 W

5. 线性变换

y = W x

对 $x$ 求导：

\frac{\partial y}{\partial x} = W

对 $W$ 求导（反向传播常用，其中 $L = L (y)$ ）：

\frac{\partial L}{\partial W} = \frac{\partial L}{\partial y} x^{T}

这是神经网络权重更新最核心的公式。

6. Trace 技巧

\frac{\partial}{\partial X} tr (A X) = A^{T}

\frac{\partial}{\partial X} tr (X^{T} A X) = (A + A^{T}) X

若 $A$ 对称：

\frac{\partial}{\partial X} tr (X^{T} A X) = 2 A X

LOADING

矩阵求导法则

一、矩阵求导的定义

AI 里常见的矩阵求导公式

1. 线性项

2. 二范数

3. 二次型

4. Frobenius 范数

5. 线性变换

6. Trace 技巧