Generalization through Memorization: Nearest Neighbor Language Models
论文地址:
代码:
参考资料:
整体思路以及计算方式
利用Knn做模型集成,整体思路如下:
- 记; 
- 假设有一个训练好的语言模型; 
- 我们构造如下KV数据库: 
- 然后利用下式构造概率分布: 
- 最后模型的输出为: 
简评
- 最后的效果是十分明显的,这里唯一的问题是,KV数据库和训练文本大小成正比,如果训练文本太大,则开销太大; 
- 另一方面Knn的作用似乎是记忆功能,所以基于Transformer的模型似乎记忆能力较弱?是否可以引入类似功能的模块提升性能; 
- 基于检索的LM是否有可行性? 
PreviousBranchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and UnderstandingNextFFN
Last updated