On Learning the Transformer Kernel

论文地址:

整体思路以及计算方式

Kernel法,使用了不同的kernel进行测试:

O=ϕ(Q)[ϕ(K)V]\mathbf O=\phi(\mathbf Q)[\phi(\mathbf K^\top) \mathbf V]

时间复杂度

O(nd2)O(nd^2)

训练以及loss

不变。

代码

实验以及适用场景

论文测试了encoder场景,性能可以相当。

细节

暂无。

简评

创新点不太多,但是可以学习下代码。

Last updated