LLM发展史
GPT模型是一种自然语言处理模型,使用Transformer来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。
- GPT-1(117亿参数),GPT-1有一定的泛化能力。能够用于和监督任务无关的任务中。
- GPT-2(15亿参数),在生成方面表现出很大天赋,阅读摘要、聊天、续写、编故事。
- GPT-3(1750亿参数),作为一个自监督模型,可以完成自然语言处理的绝大部分任务,模仿人类叙事,创作定制诗歌,生成游戏剧本等。
- InstructGPT是一个经过微调的新版GPT-3,可以将有害的不真实的有偏差的输出最小化。
- ChatGPT是InstructGPT的衍生产品,将人类的反馈纳入训练的过程。更好的使模型输出与用户意料保持一致。
- ChatGPT-4.0多模态数据支撑,智能程度更高、具备更强大的常识、Plugins插件。
关于大模型
- AI大模型是“人工智能预训练大模型”的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。
- 预训练大模型具备大量基础知识,针对某个垂直领域只需做微调就能完成任务。
- 当前AI大模型包含自然语言处理(NLP)、计算机视觉(CV)等,统一整合的多模态大模型等。
语言模型
- 统计语言模型是在1990年代基于统计学习方法发展起来的。其基本思想是基于马尔科夫假设,例如根据最近的上下文预测下