Multi-Head Attention Collaborate Instead of Concatenate

论文地址：

对 $\mathbf Q,\mathbf K$ 降维，然后通过对角阵增加模型表达力，最后达到相当的效果。

计算方式：

压缩率 $p$ ， $h$ 为头数；
输入： $\mathbf X\in \mathbb R^{n\times d},\mathbf Y\in \mathbb R^{m\times d},m_i\in \mathbb R,i=1,\ldots, h$ ，记 $d_1=\lfloor pd\rfloor$
for $i=1,\ldots, h$
- 计算 $\mathbf Q= \mathbf X\mathbf W_Q^{(i)} \in \mathbb R^{n\times (d_1 /h)},\mathbf K= \mathbf X\mathbf W_K^{(i)} \in \mathbb R^{m\times (d_1 /h)}, \mathbf V =\mathbf X\mathbf W_V^{(i)}\in \mathbb R^{m\times (d /h)}$
- $\mathbf H^{(i)}=\mathrm{MHA}(\mathbf Q\mathrm{diag}(m_i), \mathbf K, \mathbf V)$
输出： $\mathrm{Concat}[\mathbf H^{(i)}]$

说明：

对于每个头，时间复杂度为：

O(nmd_1/h + mnd/h)=O(nmpd/h + mnd/h)

所以 $h$ 个头的时间复杂度为：

O(mn(p+1)d )

略过。

因为只改了Head部分，所以适用于所有场景；作者进行了大量实验，效果均不错。

降维比例为30%的时候也能达到相当效果。

总结：

Last updated 3 years ago