Last updated 2 years ago
论文地址:
利用两点来减少计算:
利用top-k取每行attention score的前kkk个最大值;
通过chunk的方式减少内存的锋值;
时间复杂度为O(nkd)O(nkd)O(nkd),内存峰值为O(knd)O(knd)O(knd)。
不变。
适用于所有场景,效果尚可。
暂无。
算是一个工程优化,不过简单优雅。