GPT图解,从0到1构建大模型。
本书将以生动活泼的笔触,将枯燥的技术细节化作轻松幽默的故事和缤纷多彩的图画,引领读者穿梭于不同技术的时空,见证自然语言处理技术的传承、演进与蜕变。在这场不断攀登技术新峰的奇妙之旅中,读者不仅能深入理解自然语言处理技术的核心原理,还能自己动手,从零开始搭建起一个又一个语言模型。
无论你是在校学生还是人工智能从业者,这本书都将成为一盏明灯,照亮你探索人工智能无限奥秘的道路。
这 一 本小书,希望从纯技术的角度,为你梳理生成式语言模型的发展脉络,对 从 N-Gram、Bag-of-Word、Word2Vec、NPLM、RNN、S2S、Attention、 Transformer、BERT 到 GPT 的技术一一进行解码,厘清它们的传承关系。
这些具体技术的传承关系如下。
■ N-Gram 和 Bag-of-Word :都是早期用于处理文本的方法,关注词频和局 部词序列。
■ Word2Vec :实现了词嵌入方法的突破, 能从词频和局部词序列中捕捉词汇的 语义信息。
■ NPLM :基于神经网络的语言模型,从此人类开始利用神经网络处理词序列。
■ RNN :具有更强大的长距离依赖关系捕捉能力的神经网络模型。
■ Seq2Seq :基于 RNN 的编码器 - 解码器架构,将输入序列映射到输出序列, 是 Transformer 架构的基础。
■ Attention 机制:使 Seq2Seq 模型在生成输出时更关注输入序列的特定部分。
Transformer :摒弃了 RNN,提出全面基于自注意力的架构,实现高效并行 计算。
■ BERT :基于 Transformer 的双向预训练语言模型,具有强大的迁移学习 能力。
■ 初代 GPT :基于 Transformer 的单向预训练语言模型,采用生成式方法进 行预训练。
■ ChatGPT :从 GPT-3 开始,通过任务设计和微调策略的优化,尤其是基于 人类反馈的强化学习,实现强大的文本生成和对话能力。
■ GPT-4:仍基于 Transformer 架构,使用前所未有的计算和数据规模进行 训练,展现出比以前的 A I 模型更普遍的智能,不仅精通语言处理,还可以解决 涉及数学、编码、视觉、医学、法律、心理学等各学科的难题, 被誉为“人工 通用智能的灵光闪现”(Sparks of Artificial General Intelligence)。