CoLT5: Faster Long-Range Transformers with Conditional Computation
论文地址:
整体思路以及计算方式
分成两个部分:
Attention部分使用Sparse Attention,类似于window attention加上少量global pattern,后续记为;
在Attention和FFN部分别使用Heavy和Light模块,前者参数多,后者参数少;
计算方式如下:
输入;
路由函数:;
Topk函数:,取值最大的个值,其余设置为;
Attention部分:
;
FFN部分:
;
时间复杂度
见论文。
代码
简评
很工程的思路,感觉一般。
Last updated