On Learning the Transformer Kernel

论文地址：

整体思路以及计算方式

Kernel法，使用了不同的kernel进行测试：

\mathbf O=\phi(\mathbf Q)[\phi(\mathbf K^\top) \mathbf V]

$O(nd^2)$ 。

不变。

论文测试了encoder场景，性能可以相当。

暂无。

创新点不太多，但是可以学习下代码。

Last updated 3 years ago