参考:
https://zhuanlan.zhihu.com/p/669661536
topK,topP
https://www.douyin.com/video/7380126984573127945
主要是softmax产生的词表每个词的概率分布后,
topK,比如K=3,表示采样概率最大的前3个,其他全部舍弃,在这前3个词选择
topP,P比如P=0.7,表示采样前面概率最大的加和>=0.7的所有词,后续在这些词中进行再选择,其他舍弃
综合下来:topP一般给后续选择的空间比topK要多些
Temperature
https://www.douyin.com/video/7380324563369889061
主要是在改变 softmax 生成解码token的概率上(所有词表每个词的可能概率):
正常softmax
加速Temperature后的softmax
每个指数除以t;e是自然是约等于2.7
T大于1,越大 softmax生成的每个词的概率差别不大,所以更随机
T小于1,越小 softmax生成的每个词的概率差别大,所以更确认,就是少部分几个词的概率最大