矩阵求导
后验笔记: https://www.notion.so/Learning-Methods-Summary-Pixel-based-df38101788744ef7b9a05a7419d9bd90
Note
💡 在机器学习和深度学习中,我们往往用到的是标量对矩阵求导的方法,因为一般来说损失函数是标量。
标量对矩阵求导
定义: ,即逐元素求导并排列成等同于 的矩阵
矩阵微分和矩阵导数之间的联系:
若标量函数 是矩阵 经加减乘法、逆、行列式、逐元素函数等运算构成,则使用相应的运算法则对求微分,再使用迹技巧给 套上迹并将其它项交换至左侧,对照导数与微分的联系 ,即能得到导数。
部分例题可以在下面的第一个链接中找到。
阵对矩阵求导
- 也可以退化成向量对矩阵求导, 先略。用的少。需要的时候学一下最下面的链接:矩阵求导术(二)
常见的矩阵微分运算法则
-
加减法:
-
矩阵乘法:
-
转置:
-
迹:
-
逆:
-
行列式:
表示的伴随矩阵,若可逆,则可以写成 [可参见教材P279]
-
逐元素乘法:
-
逐元素函数:
是逐元素标量函数运算, 是逐元素求导
常见的迹(Trace)技巧 (Trick)
指向原始笔记的链接
- 标量套迹值不变:
- 转置:
- 线性:
- 矩阵乘法直接交换:
- 矩阵乘法与逐元素乘法交换: 其中三个矩阵 尺寸相同,两侧都等于