Transformer-Evolution-Paper

Ctrlk

Rnn

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute Linear Transformers Are Secretly Fast Weight Programmers Going Beyond Linear Transformers with Recurrent Fast Weight Programmers Parallelizing Linear Recurrent Neural Nets Over Sequence Length Quasi-recurrent neural networks

PreviousTowards a General Purpose CNN for Long Range Dependencies in ND NextWhen Attention Meets Fast Recurrence: Training Language Models with Reduced Compute

Last updated 3 years ago