Multi-head self-attention

通过阅读先验知识，我们知道实际上在单头自注意力（普通的 SA）中，

假设输入的特征 $X$ 维度是 $d_{in}$ (可以通过变换改变维度至 $Q, K$ 的维度，但是输入的维度这里就暂时这样表示)
输出的特征 $Y$ 维度一般和 value $V$ 的维度是一样的，我们用 $d_{o u t}$ 来表示

对于多头自注意力，上述维度的表示依然相同。

假设有 $N_{h}$ 个头，每个头都要对 $X$ 进行一次单头 SA 操作，设每个 head 的输出维度是 $d_{h}$ ，如果 $d_{h} \times N_{h} = d_{o u t}$ ，那么皆大欢喜，我们直接将所有 head 的输出进行拼接即可。但是应用中很可能两者并不严格等于，此时我们应该额外添建一个 FC 层 ( $W_{o u t}$ ) 用来对齐维度，使得最终的输出为 $d_{o u t}$ ，公式表示如下

MHSA (X) := h \in [N_{h}] concat [Self-Attention (X)] W_{out} + b_{out}

[! Attention]

实际应用中，我们常常指定 $N_{h}$ , 然后计算 $d_{h} = d_{o u t} // N_{h}$

每个 head 直接接受 $X$ 作为输入，而不会对 $X$ 做 Split (分成 $N_{h}$ 份)

My Obsidian Blog

探索

Multi-head self-attention

关系图谱