Generalization through Memorization: Nearest Neighbor Language Models

论文地址：

代码：

参考资料：

整体思路以及计算方式

利用Knn做模型集成，整体思路如下：

记 $c_t=\left(w_1, \ldots w_{t-1}\right)$ ；
假设有一个训练好的语言模型 $f$ ；
我们构造如下KV数据库：
$(\mathcal{K}, \mathcal{V})=\left\{\left(f\left(c_i\right), w_i\right) \mid\left(c_i, w_i\right) \in \mathcal{D}\right\}$
然后利用下式构造概率分布：
$p_{\mathrm{kNN}}(y \mid x) \propto \sum_{\left(k_i, v_i\right) \in \mathcal{N}} \mathbb{1}_{y=v_i} \exp \left(-d\left(k_i, f(x)\right)\right)$
最后模型的输出为：
$p(y \mid x)=\lambda p_{\mathrm{kNN}}(y \mid x)+(1-\lambda) p_{\mathrm{LM}}(y \mid x)$

Last updated 2 years ago