论文地址:
https://arxiv.org/pdf/2007.08442.pdf
利用Kronecker内积的方式计算Attention,但实际上这里使用只是外积。
计算方式:
给定q,k,v∈Rn×dq, k, v\in \mathbb R^{n\times d}q,k,v∈Rn×d
计算qmean,kmean∈Rn×1q_{mean}, k_{mean}\in \mathbb R^{n\times 1}qmean,kmean∈Rn×1
计算MHA(qmean,kmean,v)∈Rn×d\mathrm{MHA}(q_{mean}, k_{mean},v) \in \mathbb R^{n\times d}MHA(qmean,kmean,v)∈Rn×d
尽管使用了降维,但是计算复杂度仍然为O(n2d)O(n^2d)O(n2d)。
不变。
https://github.com/lucidrains/kronecker-attention-pytorcharrow-up-right
原始方法只适用于Encoder,但是将mean修改为前iii项的均值可以适用于Decoder;论文里测试了CV的结果,效果比较一般。
暂无。
优点:
实现比较简单,算一种降维方法;
总结:
虽然效果一般,但可以尝试复现;
Last updated 2 years ago