Generalization through Memorization: Nearest Neighbor Language Models
PreviousBranchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and UnderstandingNextFFN
Last updated
Last updated
论文地址:
代码:
参考资料:
利用Knn做模型集成,整体思路如下:
记;
假设有一个训练好的语言模型;
我们构造如下KV数据库:
然后利用下式构造概率分布:
最后模型的输出为:
最后的效果是十分明显的,这里唯一的问题是,KV数据库和训练文本大小成正比,如果训练文本太大,则开销太大;
另一方面Knn的作用似乎是记忆功能,所以基于Transformer的模型似乎记忆能力较弱?是否可以引入类似功能的模块提升性能;
基于检索的LM是否有可行性?