论文地址:
https://arxiv.org/abs/2106.06899arrow-up-right
利用两点来减少计算:
利用top-k取每行attention score的前kkk个最大值;
通过chunk的方式减少内存的锋值;
时间复杂度为O(nkd)O(nkd)O(nkd),内存峰值为O(knd)O(knd)O(knd)。
不变。
https://github.com/ag1988/top_k_attentionarrow-up-right
适用于所有场景,效果尚可。
暂无。
算是一个工程优化,不过简单优雅。
Last updated 2 years ago