Luna: Linear Unified Nested Attention
PreviousLongT5: Efficient Text-To-Text Transformer for Long SequencesNextMemory-efficient Transformers via Top-k Attention
Last updated
Last updated
论文地址:
思路非常简单,利用MHA降维得到中间状态,然后再利用一个MHA计算最终结果,整体思路如下:
双向版本:
外部输入,输入
单向版本:
定义
可选1 + elu / softplus(不能按行使用Softmax,因为会有信息泄露)
可选Softmax(按行归一化)
输出
不变。
适用于所有场景,效果总的来说不错。
暂无。
这篇论文思路还是挺不错的,利用Attention来降维的思路也见到过很多次,然后单向版本的算法可以再仔细思考下。
单向双向的时间复杂度都为,但是单向版本本质上是RNN,速度会比较慢。