Scaling Transformer to 1M tokens and beyond with RMT

论文地址:

参考资料:

整体思路以及计算方式

基于Recurrent Memory Transformer的思路进行一些toy example的验证,可以参考之前写的笔记。

简评

任务设定比较简单,但是可以测一下LM外推性的效果。

Last updated