Last updated 2 years ago
论文地址:
只将Query变成多头,Key和Value都是单头,最后的结果是性能接近,显存降低不少。
不变。
暂无,但是原论文有伪代码。
测试了机器翻译和lm,性能如之前所述。
论文也测试了local attention,最后的性能相当。
提速其实不太明显,但是总体来说,值得复现。