大模型的架构演进史——为什么Decoder-Only成为最终的胜利者

大模型的架构演进史——为什么Decoder-Only成为最终的胜利者

pingmian/2025/4/27 4:05:33/文章来源:https://blog.csdn.net/weixin_43186779/article/details/140762941

文章目录

大模型的架构
encoder only
decoder noly
encoder-decoder
为什么现在decoder-only为主流

大模型的架构

在这里插入图片描述

encoder only

使用encoder-only的模型主要的思路是通过编码器，将大量文本、时序数据等资料进行编码、压缩，达到进一步抽象理解输入数据的能力。

encoder-only模型，特点侧重于：

理解和分类输入信息，比如判断一段文本的感情倾向，或者文本主题分类。这种架构主要用于处理输入数据，专注于理解和编码信息，而不是生成新的文本。Encoder-Only模型在理解和分类任务中更为有效，例如文本分类、情感分析等

decoder noly

使用decoder-only的模型主要是通过解码器，对已输入的信息进行解码衍生。

decoder-only模型，特点侧重于：

擅长创造性的写作，比如写小说或自动生成文章。它更多关注于从已有的信息（开头）扩展出新的内容。

OpenAI 选择了Decoder-Only方案（如GPT系列），因为它对于自然语言生成特别有效。这种架构能够更好地理解和预测语言模式，尤其适合处理开放式的、生成性的任务。

encoder-decoder

基于encoder-decoder结构的模型，同时能够编码和解码对应的输入信息。

encoder-decoder结构的模型，特点侧重于：

擅长处理需要理解输入然后生成相关输出的任务，比如翻译或问答系统。

这种模型在需要深入理解输入内容并生成相关响应的任务中表现良好，例如机器翻译、问答系统等。

为什么现在decoder-only为主流

decoder-only和encoder-decoder结构相比，有什么优势？
相比较而言，decoder-only需要的计算资源更少，能够更快学习和训练得到最终的模型。
decoder-only和encoder-only结构相比，有什么优势？

. decoder-only和encoder-only结构相比，有什么优势？

encoder-only更加侧重于对信息的压缩与分类，在对输入内容进行扩展的情况下效果不佳。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/51276.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

WEB前端12-axios基础

WEB前端12-axios基础

Vue2-axios基础 1.axios基本概念在现代的前端开发中，处理网络请求是至关重要的一部分。Axios 是一个流行的基于 Promise 的 HTTP 客户端，它可以在浏览器和 Node.js 环境中使用。它的设计简单易用，支持并行请求、拦截器、CSRF 防护等特性&a…

阅读更多...

【JavaScript】函数的动态传参

【JavaScript】函数的动态传参

Javacript（简称“JS”）是一种具有函数优先的轻量级，解释型或即时编译型的编程语言。虽然它是作为开发Web页面的脚本语言而出名，但是它也被用到了很多非浏览器环境中，JavaScript基于原型编程、多范式的动态脚本语言&…

阅读更多...

Linux 常用命令之文件处理

Linux 常用命令之文件处理

Linux 文件处理命令指南文件查看命令 cat (Concatenate and display files) # 显示文件内容 cat file.txt# 显示多个文件的内容 cat file1.txt file2.txt# 将文件内容合并并输出到新文件 cat file1.txt file2.txt > combined.txt# 以行号显示文件内容 cat -n file.txtta…

阅读更多...

写代码对人的影响

写代码对人的影响

1 代码是需要跑起来的，不能你写了一段代码运行不了 2 代码过程中有大量的bug，经常异常报错，你需要花费时间去解决对人的影响就是解决问题的态度得到强化，解决问题要比坚持正确困难，坚持正确只是需要自然而然的努力&…

阅读更多...

C++学习/复习29--哈希

C++学习/复习29--哈希

一、二、

阅读更多...

淘宝NPM镜像地址已经改了，2022年以前发布的相关内容的博文已经没参考价值

淘宝NPM镜像地址已经改了，2022年以前发布的相关内容的博文已经没参考价值

http://npm.taobao.org和 http://registry.npm.taobao.org 已于2022.06.30正式下线和停止DNS解析淘宝NPM镜像站的新域名为 http://npmmirror.com http://registry.npm.taobao.org > https://registry.npmmirror.com windows系统在命令行窗口下执行如下命令即可&#xff1a…

阅读更多...

C++ primer plus 第16章string 类和标准模板库, 算法的通用特征

C++ primer plus 第16章string 类和标准模板库, 算法的通用特征

C primer plus 第16章string 类和标准模板库, 算法的通用特征 C primer plus 第16章string 类和标准模板库, 算法的通用特征文章目录 C primer plus 第16章string 类和标准模板库, 算法的通用特征16.6.2 算法的通用特征 16.6.2 算法的通用特征正如您多次看到的，…

阅读更多...

掌握SQL Server的PowerShell魔法：自动化数据库管理的艺术

掌握SQL Server的PowerShell魔法：自动化数据库管理的艺术

掌握SQL Server的PowerShell魔法：自动化数据库管理的艺术 SQL Server与PowerShell的结合为数据库管理员(DBA)提供了一种强大的自动化数据库管理工具。通过PowerShell，可以执行复杂的数据库任务，从简单的查询到复杂的数据迁移和备份策略的实现…

阅读更多...

Python接口自动化测试框架（实战篇）-- 数据库操作MySQL

Python接口自动化测试框架（实战篇）-- 数据库操作MySQL

文章目录一、前言二、数据库什么是数据验证为什么需要操作数据库做数据验证?现在回到怎样做数据验证的问题上来三、[PyMSQL](https://pypi.org/project/pymssql/)pymysql如何操作数据库实际应用四、总结一、前言说起数据库的操作，咱们应该保持一颗敬畏的心&a…

阅读更多...

Ubuntu安装terminator教程

Ubuntu安装terminator教程

Terminator 是一个高级的终端仿真器，专为 Linux 和 Unix 系统设计。它的主要特点是提供了丰富的多窗口和多标签功能，使用户能够在一个窗口中管理多个终端会话。这对于系统管理员、开发人员以及需要同时运行多个命令行任务的用户来说，极为方便。一、安装 1、更新包 sudo a…

阅读更多...

【Python】计算游戏得分

【Python】计算游戏得分

一、题目 Kevin and Stuart want to play the The Minion Game. Game Rules Both players are given the san string S.Both players have to make substrings using the letters of the string S.Stuart has to make words starting with consonants.Kevin has to make wor…

阅读更多...

Could not find a package configuration file provided by “catkin_simple“ 的参考解决方法

Could not find a package configuration file provided by “catkin_simple“ 的参考解决方法

文章目录写在前面一、问题描述二、解决方法参考链接写在前面自己的测试环境： Ubuntu20.04 ROS-Noetic 一、问题描述 CMake Error at /***/CMakeLists.txt:4 (find_package):By not providing "Findcatkin_simple.cmake" in CMAKE_MODULE_PATH thisp…

阅读更多...

vue项目启动报错 vue与vue-template-compiler版本不一致

vue项目启动报错 vue与vue-template-compiler版本不一致

出现错误 Vue packages version mismatch: vue2.6.12 (/Users/work_ws/project/my/astar-education/astar-education-ui/node_modules/vue/dist/vue.runtime.common.js)vue-template-compiler2.6.13 (/Users/work_ws/project/my/astar-education/astar-education-ui/node_mod…

阅读更多...

图中的最短环

图中的最短环

2608. 图中的最短环现有一个含 n 个顶点的双向图，每个顶点按从 0 到 n - 1 标记。图中的边由二维整数数组 edges 表示，其中 edges[i] [ui, vi] 表示顶点 ui 和 vi 之间存在一条边。每对顶点最多通过一条边连接，并且不存在与自身相连的顶…

阅读更多...

Hive——UDF函数：高德地图API逆地理编码，实现离线解析经纬度转换省市区（离线地址库，非调用高德API）

Hive——UDF函数：高德地图API逆地理编码，实现离线解析经纬度转换省市区（离线地址库，非调用高德API）

文章目录 1. 需求背景数据现状业务需求面临技术问题寻求其他方案 2. 运行环境软件版本Maven依赖 3. 获取离线地址库4. Hive UDF函数实现5. 创建Hive UDF函数6. 参考 1. 需求背景数据现状目前业务系统某数据库表中记录了约3亿条用户行为数据，其中两列记录了用户触…

阅读更多...

Java1.2标准之重要特性及用法实例(十三)

Java1.2标准之重要特性及用法实例(十三)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 新书发布：《Android系统多媒体进阶实战》🚀 优质专栏： Audio工程师进阶系列…

阅读更多...

SciPy 与 MATLAB 数组

SciPy 与 MATLAB 数组

SciPy 与 MATLAB 数组 SciPy 是一个开源的 Python 库，广泛用于科学和工程计算。它构建在 NumPy 数组的基础之上，提供了许多高级科学计算功能。MATLAB 是一个高性能的数值计算环境，它也使用数组作为其基础数据结构。在这篇文章中，我们将探讨 SciPy 和 MATLAB 在数组操作上的…

阅读更多...

征服 Docker 镜像访问限制：KubeSphere v3.4.1 成功部署全攻略

征服 Docker 镜像访问限制：KubeSphere v3.4.1 成功部署全攻略

近期，KubeSphere 社区的讨论中频繁出现关于 Docker 官方镜像仓库访问受限的问题。本文旨在为您提供一个详细的指南， 展示在 Docker 官方镜像访问受限的情况下，如何通过 KubeKey v3.1.2 一次性成功部署 KubeSphere v3.4.1 以及 Kubernetes …

阅读更多...

深入剖析：GaussDB与MySQL在COUNT查询中的并行化技术

深入剖析：GaussDB与MySQL在COUNT查询中的并行化技术

引言数据库查询性能优化是数据库管理和开发中的一个重要议题。在处理大数据量的COUNT查询时，传统的单线程处理方式可能无法满足现代应用的性能需求。GaussDB(for MySQL)和MySQL作为流行的数据库系统，它们在并行查询优化方面有着各自的策略和技术。本文…

阅读更多...

Python批量采集某东评论，实现可视化分析

Python批量采集某东评论，实现可视化分析

女朋友没事就喜欢网购，买一大堆又不用，总说不合适，为了不让她花冤枉钱，于是我决定用Python写一个采集商品评论的脚本，然后对商品进行分析，这样就不怕踩到坑了！ 让我们直接开始本次操作准备工作…

阅读更多...

最新文章