大模型中幂律缩放法则和涌现能力

幂律缩放法则是一种用于描述两个变量之间关系的数学模型。

根据幂律缩放法则，当一个变量的值变化时，另一个变量的值以指数方式变化。具体而言，幂律缩放法则可以表示为Y = a * X^b，其中Y表示一个变量的值，X表示另一个变量的值，a和b是常数。根据这个模型，当X的值增加时，Y的值会以指数方式增加或减少，取决于b的正负。

大模型的性能提升大部分时候遵循幂律缩放法则，即模型性能线性增长，其所需的资源需要成倍增长，如图2所示。图2中，纵坐标代表的性能可以是任何指标，例如准确率、对数概率等，横坐标代表的资源可以是模型参数量、数据规模或者训练算力。幂律缩放法则既表明了扩大模型和训练规模可以带来的好处，也一定程度上暗示了扩大规模这条路的上限。因为指数级的资源增长是不可持续的，如今大模型的发展在算力和数据规模上已几乎进入饱和阶段，难以在短时间内获得大幅增长。

幂律缩放法则揭示了模型性能随着规模增长的可预测性，让开发人员可以从一系列较小模型的效果和参数中拟合出幂律增长曲线，从而预测出更大规模模型的性能。这一特点非常重要，因为百亿甚至千亿参数以上的大模型训练存在各式各样的困难和问题，可预测性有助于开发人员判断大模型的训练是否正常以及是否符合预期。例如，GPT-4的训练报告显示，在最终版的GPT-4开始训练之前，OpenAI的开发人员就根据较小规模模型的性能拟合出了幂律缩放的曲线，并预测出GPT-4最终的性能。几个月后训练完成的GPT-4的性能几乎完美地落在了这条曲线上，由此说明GPT-4的训练是成功的。

大模型某些能力的出现存在“涌现”现象，即模型只有在大小达到一定规模之后才开始在某些任务上显现效果，而在模型规模小时则完全不能完成这些任务，呈现出的规律如图3所示。和幂律缩放法则不同，涌现现象是不可预测的。涌现能力使得在大模型中可以观察到小模型中完全观察不到的能力。比较典型的涌现能力是进行思维链（chain-of-thought）推理的能力。虽然最近的一些观点认为涌现能力与评价指标有关，离散化的评价指标更容易观察到涌现现象，但不可否认的是，推理等涌现能力的确是大模型特有的产物。