Multi-Head Attention Collaborate Instead of Concatenate
Multi-Head Attention: Collaborate Instead of Concatenate
论文地址:
整体思路以及计算方式
对降维,然后通过对角阵增加模型表达力,最后达到相当的效果。
计算方式:
压缩率,为头数;
输入:,记
for
计算
输出:
说明:
尽管原文中不同头算的是共享的,但实际实现的时候并不是;
时间复杂度
对于每个头,时间复杂度为:
所以个头的时间复杂度为:
训练以及loss
略过。
代码
实验以及适用场景
因为只改了Head部分,所以适用于所有场景;作者进行了大量实验,效果均不错。
细节
降维比例为30%的时候也能达到相当效果。
简评
总结:
很简洁的思路,通过降维减少参数量,然后再通过少量参数恢复性能;
非常简洁,值得复现;
Last updated