Transcormer Transformer for Sentence Scoring with Sliding Language Modeling
PreviousXLNet Generalized Autoregressive Pretraining for Language UnderstandingNextOptimus Organizing Sentences via Pre-trained Modeling of a Latent Space
Last updated
Last updated
论文地址:
本文的主要出发点是解决Sentence Scoring计算效率和性能问题。
记:
ALM计算方式:
MLM计算方式:
可以看到,MLM的计算复杂度远大于ALM,但ALM只能利用单向信息,本文就是解决这点,思路也很简单,即利用如下分解:
计算公式:
Attention部分为之前的3倍。
不变。
不变,未来应该会更新。
适用于所有场景,作者主要测试了Sentence Scoring场景,其实不太清楚该任务的主要应用。
暂无。
思路挺简洁的,不过我不太了解Sentence Scoring,所以对该论文做个简单了解即可。