矩阵求导

后验笔记: https://www.notion.so/Learning-Methods-Summary-Pixel-based-df38101788744ef7b9a05a7419d9bd90

Note

💡 在机器学习和深度学习中,我们往往用到的是标量对矩阵求导的方法,因为一般来说损失函数是标量。

标量对矩阵求导

定义: ,即逐元素求导并排列成等同于 的矩阵

矩阵微分和矩阵导数之间的联系:

若标量函数 是矩阵 经加减乘法、逆、行列式、逐元素函数等运算构成,则使用相应的运算法则对求微分,再使用迹技巧给 套上迹并将其它项交换至左侧,对照导数与微分的联系 ,即能得到导数。

部分例题可以在下面的第一个链接中找到。

阵对矩阵求导

  • 也可以退化成向量对矩阵求导, 先略。用的少。需要的时候学一下最下面的链接:矩阵求导术(二)

常见的矩阵微分运算法则

  1. 加减法:

  2. 矩阵乘法:

  3. 转置:

  4. 迹:

  5. 逆:

  6. 行列式:

    表示的伴随矩阵,若可逆,则可以写成 [可参见教材P279]

  7. 逐元素乘法:

  8. 逐元素函数:

    是逐元素标量函数运算, 是逐元素求导


常见的迹(Trace)技巧 (Trick)

  1. 标量套迹值不变:
  2. 转置:
  3. 线性:
  4. 矩阵乘法直接交换:
  5. 矩阵乘法与逐元素乘法交换: 其中三个矩阵 尺寸相同,两侧都等于
指向原始笔记的链接


参考: 矩阵求导术(上)
矩阵求导术(下)