Naive Bayes-based Context Extension
论文地址:
整体思路以及计算方式
苏神提出的方法,注意思路基于朴素贝叶斯,问题的描述为根据问题S1,…,Sn生成T,即估计p(T∣S1,S2,⋯,Sn),根据贝叶斯公式可得:
p(T∣S1,S2,⋯,Sn)∝p(S1,S2,⋯,Sn∣T)p(T) 根据朴素贝叶斯假设可得:
p(S1,S2,⋯,Sn∣T)=i=1∏np(Si∣T)=i=1∏np(T)p(T∣Si)p(Si) 即:
p(T∣S1,S2,⋯,Sn)∝pn−1(T)∏i=1np(T∣Si) 所以可以根据右式进行采样。转换为对数概率情形可得:
logp(T∣S1,S2,⋯,Sn)=i=1∑np(T∣Si)−(n−1)p(T)+C=np(T∣S)−(n−1)p(T)+Cp(T∣S)=n∑i=1np(T∣Si) 然后苏神引入超参数β,上式变为:
logp(T∣S1,S2,⋯,Sn)=βp(T∣S)−(β−1)p(T) 代码
细节
实现时,将∅,S1,S2,…,Sn分别作为模型的输入得到n+1个结果,然后基于上述方法进行采样即可。