GPT1–finetune
- 12层单向transformer
- 预训练+精调
- 被bert比下去了
GPT2-元学习
- 输入:加上任务描述
- “英翻法:This is life”
- 输出:
- “C’est la vie”
- 参数15亿
- 在NLU:比不上bert
- 也比不过其他大参数模型:如Turing-NLG
GPT3-Language Models are Few-Shot Learners
paper链接:https://arxiv.org/abs/2005.14165
github链接:https://github.com/openai/gpt-3
- 无需finetune
- finetune缺点:
- 过分依赖领域数据
- 数据少,会过拟合(非常容易……)
- finetune缺点:
- 目标:用更少的领域数据、且不经过精调步骤去解决问题。
- 参数量:
- 仍是单向,在预测新的token时会对之前的examples进行编码。
- GPT-3在Few-shot设定下,在部分NLU任务上超越了当前Fine-tuning的SOTA。
参考
paper链接:https://arxiv.org/abs/2005.14165
GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!