Optimus Organizing Sentences via Pre-trained Modeling of a Latent Space
论文地址:
参考资料:
整体思路以及计算方式
利用VAE的思想训练LM,本质上是Encoder-Decoder结构,整体思路如下。
首先将LM的目标改为条件LM,z表示隐变量:
pθ(x∣z)=t=1∏⊤pθ(xt∣x<t,z) 损失函数为:
LβLELR=LE+βLR=−Eqϕ(z∣x)[logpθ(x∣z)]=KL(qϕ(z∣x)∥p(z)) 论文中z是通过Encoder(BERT)计算,然后输入给Decoder(GPT),最后得到结果,使用z的方式有两种:
Memory:相当于给每一层增加一个token,hMem=WMz
Embedding:直接和embedding相加,hEmb′=hEmb+WDz
时间复杂度
因为是预训练方式,所以不考虑时间复杂度。
训练以及loss
见之前讨论。
代码
实验以及适用场景
是一种预训练方式,论文和GPT2进行了对比,提升了一些效果。
细节
暂无。
简评
性能提升的并不明显,暂时不考虑复现。