最近我在研究大语言模型,想用它来给样本打分。
起初,我尝试让模型用1到5分来评分,但它总是极端地给出最低分或最高分,评分缺乏中间地带。
于是我换了个方法,不再用数字,而是用描述性的词语,比如“非常差”到“非常好”。
这一改变,模型的评分立刻变得多样化,不再是简单的极端评价。
我又进一步尝试,让模型用百分制来评分。
这个范围更广,从1分到100分,模型可以更细致地评价样本的质量。
这些实验其实都是关于强化学习的奖励模型。
通过这些实验,我发现不同的评分方式对模型的表现有很大影响。
现在,我想和大家分享一个案例实验。
我们将看看这些不同的评分方法在实际应用中会有什么不同。
内容迁移微信公众号:李孟聊AI