On Learning the Transformer Kernel
论文地址:
整体思路以及计算方式
Kernel法,使用了不同的kernel进行测试:
时间复杂度
。
训练以及loss
不变。
代码
实验以及适用场景
论文测试了encoder场景,性能可以相当。
细节
暂无。
简评
创新点不太多,但是可以学习下代码。
PreviousA Dot Product Attention Free TransformerNextMomentum Transformer: Closing the Performance Gap Between Self-attention and Its Linearization
Last updated