文章目录
- 1 为何来自暗黑大陆
- 2 GPT-3的野心
- 3 GPT-3的效果
- 4 Beyond GPT-3
本文为李弘毅老师【來自獵人暗黑大陸的模型 GPT-3】的课程笔记,课程视频youtube地址,点这里👈(需翻墙)。
下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。
文章索引:
上篇 - 7-3 BERT and its family - ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and more
下篇 - 7-5 Multilingual BERT
总目录
1 为何来自暗黑大陆
GPT-3是一个language model,它的参数量相当巨大,是ELMO的2000倍!要训练一个GPT-3大概要花掉1200万美元!简直是一个炫富专用的模型!GPT-3不光是参数量大,它的论文也是相当大啊,有72页?!和本科生的毕业论文差不多了啊!
正式因为GPT-3的大大大,所以把它称作是来自暗黑大陆的模型,这里的暗黑大陆就是全职猎人里的暗黑大陆,里面都是巨大的怪兽,没看过这部动漫的同学建议补一下。
2 GPT-3的野心
虽然GPT-3和BERT等模型一样,但是GPT-3是不需要针对特定的task做finetune的,也就是说GPT-3只需要预训练就够了。要是这实现了,也太牛了!
具体是什么意思呢?GPT-3定义了三种learning,第一个是"few-shot learning",就是先告诉模型要干什么,然后给几个例子,最后给模型一个题目让它做出来;第二个是"one-shot learning",就是告诉模型要干什么,然后给一个例子,最后给模型一个题目让它做出来;最后一个是"zero-shot learning",就是告诉模型要干什么,然后给模型一个题目让它做出来。这就相当于人一样了。而且更值得遗体的是,这里的learning并不是要做梯度下降的那种learning,而是全都作为输入直接塞进去就可以了,这种learning被GPT-3的作者们称作"in-context learning"。
3 GPT-3的效果
那么花了那么大工作搞出来的GPT-3效果如何呢?在42个NLP任务上的平均准确率随参数量的变化如下图所示,可见随着参数两的增大,准确率是在一直上升的。
GPT-3在closed book QA上的表现如下所示,之前的QA都是给一个knowledge source,让模型从中找出答案,而所谓的closed book就是没有knowledge source的QA,就只给问题,看模型能不能够打上来。在175B参数量的情况下,用few-shot是可以超过SOTA的。
GPT-3咋SuperGLUE的表现如下图所示,总结一下就是参数量越大,给的例子越多,模型的表现就越好。
GPT-3也可以用在生成任务上,下图是不同参数量下GPT-3生成的文章让人去辨别是不是机器生成时的准确率,当参数量最大时,人几乎已经无法辨别出时机器还是人写的了。
GPT-3也会做算术,如下图所示,问它"What is 17 minus 14?"这样的两位数的加减法基本都会回答正确,但是三位数及以上就不灵了。感觉还是数据驱动的原因。
当然,GPT-3也有不擅长的任务,比如NLI任务,GPT-3的结果就和随便猜的一样。NLI就是给两句话,让模型判断是矛盾,还是相近,还是中立。
4 Beyond GPT-3
既然我们已经有了这么多那么庞大的language model,我们自然也要给模型难度更大的任务了,比如Turing Advice Challenge,就是让模型去reddit让给别人的求助提建议,然后看人觉得有用的建议有多少。T5这样的大模型也只有9%的建议是有点用的,GPT-3还没试过。可见这是一个很难的任务。期待之后的NLP的发展情况!