Scaling Transformer to 1M tokens and beyond with RMT
论文地址:
参考资料:
整体思路以及计算方式
基于Recurrent Memory Transformer的思路进行一些toy example的验证,可以参考之前写的笔记。
简评
任务设定比较简单,但是可以测一下LM外推性的效果。
Last updated
论文地址:
参考资料:
基于Recurrent Memory Transformer的思路进行一些toy example的验证,可以参考之前写的笔记。
任务设定比较简单,但是可以测一下LM外推性的效果。
Last updated