Transformer-Evolution-Paper

Ctrlk

Pretrain

XLNet Generalized Autoregressive Pretraining for Language Understanding Transcormer Transformer for Sentence Scoring with Sliding Language Modeling Optimus Organizing Sentences via Pre-trained Modeling of a Latent Space ELECTRA Pre-training Text Encoders as Discriminators Rather Than Generators Cramming: Training a Language Model on a Single GPU in One Day

PreviousRandomized Positional Encodings Boost Length Generalization of Transformers NextXLNet Generalized Autoregressive Pretraining for Language Understanding

Last updated 2 years ago