Last updated 2 years ago
论文地址:
置换加分块的方式计算Attention:
假设块的大小为mmm,总时间复杂度为O(nmd)O(nmd)O(nmd)。
不变。
暂无。
因为涉及到置换,所以只适用于Decoder。
简单有效的想法。