Adapting Language Models to Compress Contexts
论文地址:
整体思路以及计算方式
和Recurrent Memory Transformer非常类似,首先回顾Recurrent Memory Transformer的形式:
接着看这篇文章的形式:
memory到summary token只是换了名字,真正的区别在于本文将每一段的summary token都作为当前段的前缀输入。
代码
简评
相当于增加了short cut,这应该是带来提升的原因。
Last updated