推荐 4月13日的一篇有趣的 paper,特来分享。
👉 当前的大型语言模型(LLMs)具有强大的数据合成和推理能力,但它们在直接预测尚未发生事件的准确性上常常受到限制。传统的预测方法依赖于直接询问模型关于未来的问题。
本研究采用了一种双重提示策略来评估ChatGPT-3.5和ChatGPT-4的未来事件预测准确性。研究团队利用了ChatGPT在实验时的一个限制:即训练数据只到2021年9月。因此,他们利用ChatGPT对2022年的事件进行预测,采用了直接预测和“未来叙事”两种策略。
本文的挑战
1️⃣ 挑战1:如何提高预测具体未来事件的准确性
解决方法: 研究中采用的“未来叙事”提示策略,让ChatGPT讲述设定在未来的虚构故事,这些故事中的角色经历了训练数据后的事件。例如,模型可能被提示创建一个故事,在这个故事中,一个角色描述了他们在2022年观看奥斯卡颁奖典礼的经历。这种方法通过利用模型的叙事构建能力来提高数据综合和推断,从而提高预测的准确性。
2️⃣ 挑战2:如何有效利用模型的叙事能力进行预测
解决方法: 在经济情境中,研究者们利用模型扮演像美联储主席杰罗姆·鲍威尔这样的公众人物来进行叙事预测。通过让ChatGPT-4“扮演”鲍威尔,预测例如通货膨胀率这类宏观经济变量,研究发现模型在这种设置下能更准确地预测未来经济趋势。这说明通过故事叙述可以更有效地利用模型的生成能力,进行更深入的数据分析和预测。
图:ChatGPT3.5 最佳男配角预测。
本文的一些有趣发现 👉
1️⃣ 未来叙事策略的有效性: 研究发现,与直接预测相比,使用未来叙事的提示策略显著提高了ChatGPT-4在预测未来事件(特别是奥斯卡奖项和经济趋势)的准确性。这表明,利用故事叙述的方式可以更好地激发模型的数据综合和推断能力。
2️⃣ 模型对公众意见敏感的场景表现出色: 特别在预测涉及公众意见的领域(如奥斯卡奖项)时,ChatGPT-4的叙事预测非常准确。这可能表明,在公众意见对结果有显著影响的情景中,大型语言模型可以展现出更好的性能。
3️⃣ 预测准确性的双重性: 在一些宏观经济现象的预测中,尽管叙事提示提高了预测的准确性,但在某些情况下,重要的信息分享可能导致估计结果出现反向偏差。这说明在使用这些模型进行预测时,信息的处理和整合方式极其重要。
总而言之,本文通过展示未来叙事策略在提高大型语言模型预测准确性方面的潜力,鼓励读者重新思考我们如何设计和利用AI工具的方式。作者希望借此引发关于如何负责任地使用AI技术的更广泛讨论,尤其是在确保使用AI时能够保障人类福祉和权利方面。