矩阵求导

后验笔记: https://www.notion.so/Learning-Methods-Summary-Pixel-based-df38101788744ef7b9a05a7419d9bd90

Note

💡 在机器学习和深度学习中，我们往往用到的是标量对矩阵求导的方法，因为一般来说损失函数是标量。

标量对矩阵求导

定义： $\frac{\partial f}{\partial X} = [\frac{\partial f}{\partial X _{ij}}]$ ，即逐元素求导并排列成等同于 $X$ 的矩阵

矩阵微分和矩阵导数之间的联系： $df = i = 1 \sum m j = 1 \sum n \frac{\partial f}{\partial X _{ij}} d X = t r (\frac{\partial f}{\partial X}^{T} d X)$

若标量函数 $f$ 是矩阵 $X$ 经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对 $f$ 求微分，再使用迹技巧给 $df$ 套上迹并将其它项交换至 $d X$ 左侧，对照导数与微分的联系 $df = t r (\frac{\partial f}{\partial X}^{T} d X)$ ，即能得到导数。

部分例题可以在下面的第一个链接中找到。

阵对矩阵求导

也可以退化成向量对矩阵求导，先略。用的少。需要的时候学一下最下面的链接：矩阵求导术（二）

常见的矩阵微分运算法则

加减法： $d (X \pm Y) = d X \pm d Y$
矩阵乘法： $d (XY) = (d X) Y + X (d Y)$
转置： $d (X^{T}) = (d X)^{T}$
迹： $d (t r (X)) = t r (d X)$
逆： $d (X^{- 1}) = - X^{- 1} d X X^{- 1}$
行列式： $d ∣ X ∣ = t r (X^{#} d X)$

$X^{#}$ 表示 $X$ 的伴随矩阵，若 $X$ 可逆，则可以写成 $d ∣ X ∣ = ∣ X ∣ t r (X^{- 1} d X)$ [可参见教材P279]
逐元素乘法： $d (X ⨀ Y) = d X ⨀ Y + X ⨀ d Y$
逐元素函数： $d σ (X) = σ^{^{'}} (X) ⨀ d X$

$σ (X) = [σ (X_{ij})]$ 是逐元素标量函数运算， $σ^{^{'}} (X) = [σ^{^{'}} (X_{ij})]$ 是逐元素求导

常见的迹（Trace）技巧 (Trick)

标量套迹值不变： $a = t r (a)$

转置： $t r (A^{T}) = t r (A)$

线性： $t r (A \pm B) = t r (A) \pm t r (B)$

矩阵乘法直接交换： $t r (AB) = t r (BA) = ij \sum A_{ij} B_{ji}$

矩阵乘法与逐元素乘法交换： $t r (A^{T} (B ⨀ C)) = t r ((A ⨀ B)^{T} C)$ 其中三个矩阵 $A, B, C$ 尺寸相同，两侧都等于 $ij \sum A_{ij} B_{ij} C_{ij}$

指向原始笔记的链接

参考：矩阵求导术（上）
矩阵求导术（下）

My Obsidian Blog

探索

矩阵求导

矩阵求导

标量对矩阵求导

阵对矩阵求导

常见的矩阵微分运算法则

常见的迹（Trace）技巧 (Trick)

关系图谱

目录