Adapting Language Models to Compress Contexts
Last updated
Last updated
论文地址:
和Recurrent Memory Transformer非常类似,首先回顾Recurrent Memory Transformer的形式:
接着看这篇文章的形式:
memory到summary token只是换了名字,真正的区别在于本文将每一段的summary token都作为当前段的前缀输入。
相当于增加了short cut,这应该是带来提升的原因。