论文地址:
https://arxiv.org/pdf/2305.14788.pdfarrow-up-right
和Recurrent Memory Transformer非常类似,首先回顾Recurrent Memory Transformer的形式:
接着看这篇文章的形式:
memory到summary token只是换了名字,真正的区别在于本文将每一段的summary token都作为当前段的前缀输入。
https://github.com/princeton-nlp/AutoCompressorsarrow-up-right
相当于增加了short cut,这应该是带来提升的原因。
Last updated 2 years ago