文章目录
- 大模型的架构
- encoder only
- decoder noly
- encoder-decoder
- 为什么现在decoder-only为主流
大模型的架构
encoder only
使用encoder-only的模型主要的思路是通过编码器,将大量文本、时序数据等资料进行编码、压缩,达到进一步抽象理解输入数据的能力。
encoder-only模型,特点侧重于:
理解和分类输入信息,比如判断一段文本的感情倾向,或者文本主题分类。这种架构主要用于处理输入数据,专注于理解和编码信息,而不是生成新的文本。Encoder-Only模型在理解和分类任务中更为有效,例如文本分类、情感分析等
decoder noly
使用decoder-only的模型主要是通过解码器,对已输入的信息进行解码衍生。
decoder-only模型,特点侧重于:
擅长创造性的写作,比如写小说或自动生成文章。它更多关注于从已有的信息(开头)扩展出新的内容。
OpenAI 选择了Decoder-Only方案(如GPT系列),因为它对于自然语言生成特别有效。这种架构能够更好地理解和预测语言模式,尤其适合处理开放式的、生成性的任务。
encoder-decoder
基于encoder-decoder结构的模型,同时能够编码和解码对应的输入信息。
encoder-decoder结构的模型,特点侧重于:
擅长处理需要理解输入然后生成相关输出的任务,比如翻译或问答系统。
这种模型在需要深入理解输入内容并生成相关响应的任务中表现良好,例如机器翻译、问答系统等。
为什么现在decoder-only为主流
-
decoder-only和encoder-decoder结构相比,有什么优势?
相比较而言,decoder-only需要的计算资源更少,能够更快学习和训练得到最终的模型。 -
decoder-only和encoder-only结构相比,有什么优势?
. decoder-only和encoder-only结构相比,有什么优势?
encoder-only更加侧重于对信息的压缩与分类,在对输入内容进行扩展的情况下效果不佳。