Pretraining Without Attention
论文地址:
整体思路以及计算方式
在双向LM上测试了S4,注意S4本身不支持双向,需要进行翻转才可以处理双向:
使用了24hBERT的设置,最后的结论是Gated版本和Transformer结果相当。作者简单分析了一下Stacked和Gated的区别,感觉信息量不大,最后的结论是Gated版本效果更好。
PreviousSimplified State Space Layers for Sequence ModelingNextWhat Makes Convolutional Models Great on Long Sequence Modeling?
Last updated