基于 Transformer 的大语言模型

语言建模作为语言模型(LMs)的基本功能,涉及对单词序列的建模以及预测后续单词的分布。

近年来,研究人员发现,扩大语言模型的规模不仅增强了它们的语言建模能力,而且还产生了处理传统NLP任务之外更复杂任务的新兴能力。

这些扩大规模的语言模型被称为大型语言模型(LLMs)。

主流的LLMs基于Transformer架构设计

具体来说,一个典型的Transformer架构由多个堆叠的Transformer块组成。

图片

通常,一个Transformer块由一个多头自注意力(MHSA)模块、一个前馈网络(FFN)和一个层归一化(LN)操作组成。

对于每个块,它接收前一个块的输出特征作为输入,并通过每个子模块传递特征以获得输出。

特别地,在第一个块之前,使用分词器将原始输入句子转换为一系列标记,随后的嵌入层用于将标记转换为输入特征。

然后,将额外的位置嵌入添加到输入特征中,以编码每个输入标记的顺序。

Transformer架构的核心概念是自注意力机制,它在MHSA模块中采用。具体来说,表示输入特征为X = [x1, x2, ..., xn],MHSA模块对它们进行线性投影并获得一组查询Q、键K和值V,如公式所示:

图片

其中WQi、WKi和WVi分别是第i个头的投影矩阵。

然后自注意力操作应用于每组(Qi, Ki, Vi)并得到第i个头的特征Zi,如公式所示:

图片

其中dk是查询(键)的维度。

注意,自注意力操作包含矩阵乘法操作,其计算复杂度是对输入长度的二次方。最后,MHSA模块将所有注意力头的特征连接起来,并通过线性投影形成其输出Z,如公式所示:

图片

其中WO是投影矩阵。

可以看到,自注意力机制允许模型识别不同输入部分的重要性,无论距离如何,并且可以捕捉输入句子中的长距离依赖和复杂关系。

Transformer块中的另一个重要模块是FFN。

通常,FFN位于MHSA模块之后,由两个带有非线性激活函数的线性变换层组成。它接收MHSA模块的输出特征X,如公式所示:

图片

其中W1和W2表示两个线性层的权重矩阵,σ(·)表示激活函数。

本文翻译自清华大学最新成果论文:《A Survey on Efficient Inference for Large Language Models 》,https://arxiv.org/pdf/2404.14294。


更多关于大语言模型的介绍,可以查看《Transformer最后一公里》专栏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/27458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RAC11G修改监听默认端口

大多数现场集群都采用的是默认端口,现XX现场客户领导要求不使用默认端口,以下是修改监听端口的步骤,配置过程中若有疑问可添加文末公众号发私信一对一答疑解惑。 一.修改SCAN listener port 1.1 修改SCAN listener port 1.1.1.crs配置中修…

C++11中的类型推演工具decltype

decltype是根据表达式的实际类型推演出定义变量时所用的类型 auto和decltype的区别 auto类型用编译器计算变量的初始值来推断其类型, decltype虽然也让编译器分析表达式并得到它的类型,但是不实际计算表达式的值。 推演表达式类型作为变量的定义类型 int main()…

4-字符串-11-反转字符串-LeetCode344

4-字符串-11-反转字符串-LeetCode344 LeetCode: 题目序号344 更多内容欢迎关注我(持续更新中,欢迎Star✨) Github:CodeZeng1998/Java-Developer-Work-Note 技术公众号:CodeZeng1998(纯纯技术文&#xff0…

认识一些分布函数-Frechet分布及其应用

1. 何为Frechet分布 Frechet分布也称为极值分布(EVD)类型II,用于对数据集中的最大值进行建模。它是四种常用极值分布之一。另外三种是古贝尔分布、威布尔分布和广义极值分布(Gumbel Distribution, the Weibull Distribution and the Generalized Extreme Value Distributi…

MyBatis-PageHelper 源码解说

归档 GitHub: MyBatis-PageHelper-源码解说 总说明 源码仓库: https://github.com/pagehelper/Mybatis-PageHelper克隆:git clone https://github.com/pagehelper/Mybatis-PageHelper.git切分支(tag):git checkout m…

亿达中国武汉园区入选“武汉市科技金融工作站”及“武汉市线下首贷服务站”

近日,武汉市2024科技金融早春行活动在深交所湖北资本市场培育基地举行。会上,第四批武汉市科技金融工作站试点单位名单及第五批武汉地区金融系统线下首贷服务站名单正式公布,武汉软件新城成功入选上述两个名单。 为缓解科技型企业融资难题&a…

vue2+echarts实现简易的2d地图效果

背景 公司的一个可视化数据大屏里面,有一个使用echarts实现的2d地图。不是我开发的,在此记录一下实现过程以及一些扩展解构。应该是从哪个航空航线图改动了一下,效果看起来还是可以的。 效果预览 版本 vue版本使用的是"^2.6.12"…

TypeScript中的数组类型

数组类型 目录 数组类型 目录自动推断类型配置只读数组多维数组 自动推断 不定义类型,推断为never let array []; //never推断为字符串数组 const akun [akun.com, akun001] //const akun : string[] hd.push(100) //因为类型不允许,所以报错推断…

我要成为算法高手-双指针篇

目录 什么是双指针?问题1:移动零问题2:复写零问题3:快乐数问题4:盛最多水的容器问题5:有效三角形个数问题6:查找总价格和为目标值的两个商品(两数之和)问题7:三数之和问题8:四数之和…

Linux中“计划任务”设置以及补充

目录 一、关闭防火墙 (1)关闭防火墙 (2)关闭防火墙2 (3)关闭selinux 二、安装 php 第一步:yum源 第二步:下载php 第三步:启动php 第四步: 检查php是…

web前端开发前途:探索、挑战与无限可能

web前端开发前途:探索、挑战与无限可能 在数字化浪潮席卷全球的今天,Web前端开发作为连接技术与用户的桥梁,其前途无疑充满了探索、挑战与无限可能。本文将从四个方面、五个方面、六个方面和七个方面,深入剖析Web前端开发的前途&…

私域流量新利器:大模型+智慧客服+知识智能多管齐下,效果倍增!

前言 随着互联网环境的发展,线上市场竞争日益激烈,越来越多的企业开始关注私域流量的运营和管理——将品牌的用户数据在品牌官网、微信公众号、APP等自有平台上进行管理和运营,通过与用户建立深入的关系和互动,提升用户黏性、增强…

LNMP搭建:Linux+Nginx+MySQL+PHP

关闭防火墙和核心防护,使用一台机器Node1搭建LNMP systemctl stop firewalld; setenforce 0 所需源码包:可以去官网下载 编译Nginx 创建/data,在/data/下放源码包 [rootNode1 ~]#:mkdir /data;cd /data 安装依赖包 [rootNode1 data]#:yum …

利用STM32F103驱动舵机的指南(使用HAL库)

利用STM32F103驱动舵机的指南(使用HAL库) 舵机是一种常用的执行器,可以在机器人、遥控模型、自动化装置等项目中用来进行角度控制。本文将介绍如何利用STM32F103微控制器,通过HAL库来驱动舵机。 硬件准备 STM32F103开发板&…

第一个SpringBoot程序

第一个SpringBoot程序 目录介绍 当我们创建了一个SpringBoot项目之后,会出现如下的目录结构 SpringBoot项⽬有两个主要的⽬录: src/main/java: Java源代码 src/main/resources:为静态资源或配置⽂件: /static:静态资源⽂件夹,⽐…

Spring Cloud Netflix 之 Ribbon

前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家:https://www.captainbed.cn/z ChatGPT体验地址 文章目录 前言前言1、负载均衡1.1、服务端负载均衡1.2、客户端负载均衡 2、Ribbon实现服务…

python 多线程条件竞争利用失败print不显示的原因

如下脚本,利用php的PHP_SESSION_UPLOAD_PROGRESS条件竞争漏洞执行一直着没反应: import requests import threading import syssession requests.session() sess zzx url1 "http://192.168.50.162/a.php" flag # file后为phpsession的路径 …

大模型企业落地:制造业可以选择的应用场景

前言 在当今制造业快速发展的背景下,设备稳定运行对于企业的发展至关重要。然而,传统的设备维修模式已无法满足现代企业的需求。为此,引入智能化、数字化的设备维修解决方案成为必然趋势。本文将探讨如何利用大模型技术,构建企业…

智慧工厂人员定位系统的影响与前景展望

随着科技的不断发展,智能制造正在迅速崛起,而智慧工厂人员定位系统作为其中的重要组成部分,正在改变传统制造业的面貌。这一系统通过利用物联网、室内定位等技术手段,能够实时准确地追踪和监控工厂内人员的位置。那么,…

车路协同,大模型擂台赛,AI的新知识处理,AI与医学的未来

一支烟花社区官网:(更多内容) https://agifun.love 智源社区 车路协同多智能体协作大牛齐聚,ECCV24「协同智能」Workshop开启征稿啦 coop-intelligence 投稿量子位 | 公众号 QbitAI近年来,具身智能(如自动驾驶和机器人等自主智…