NLP高频面试题（四十七）——探讨Transformer中的注意力机制：MHA、MQA与GQA

NLP高频面试题（四十七）——探讨Transformer中的注意力机制：MHA、MQA与GQA

pingmian/2025/4/22 14:53:50/文章来源:https://blog.csdn.net/qq_41667743/article/details/147314860

MHA、MQA和GQA基本概念与区别

1. 多头注意力（MHA）

多头注意力（Multi-Head Attention，MHA）通过多个独立的注意力头同时处理信息，每个头有各自的键（Key）、查询（Query）和值（Value）。这种机制允许模型并行关注不同的子空间上下文信息，捕捉复杂的交互关系。然而，MHA存在一个明显问题：计算和内存开销巨大，尤其在长序列任务中，键值缓存（KV-cache）显著增加，限制了模型在实际推理阶段的可扩展性。

2. 多查询注意力（MQA）

MQA（Multi-Query Attention）提出的解决方案是将所有查询头共享同一组键值对，极大地减少KV缓存大小。这种共享机制提高了推理时的效率和速度，但因缺少独立键值，可能在精细化任务或复杂场景下出现性能下降。

3. 分组查询注意力（GQA）

GQA（Grouped Query Attention）则折中于MHA与MQA之间，提出将查询头分为若干组，每组共享一套键

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/77509.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

51单片机的原理图和PCB绘制

51单片机的原理图和PCB绘制

51单片机最小系统原理图加了两个led灯和按键检测电路。 PCB中原件摆放位置成品资源链接：https://download.csdn.net/download/qq_61556106/90656365

阅读更多...

使用注解方式整合ssm时，启动tomcat扫描不到resource下面的xxxmapper.xml

使用注解方式整合ssm时，启动tomcat扫描不到resource下面的xxxmapper.xml

解决org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.xxx.mapper.方法在Spring与Mybatis整合时，可能会遇到这样的报错原因： 其原因为mapper路径的映射错误，表示在尝试执行某个 Mapper 接口的方法时…

阅读更多...

提示词设计：动态提示词标准提示词

提示词设计：动态提示词标准提示词

提示词设计：动态提示词标准提示词研究背景：随着人工智能与司法结合的推进以及裁判文书公开数量增多，司法摘要任务愈发重要。传统司法摘要方法生成质量有待提升，大语言模型虽有优势，但处理裁判文书时存在摘要结构信息缺失、与原文不一致等问题。研究方法 DPCM方法：分为大…

阅读更多...

Jenkins 多分支管道

Jenkins 多分支管道

如果您正在寻找一个基于拉取请求或分支的自动化 Jenkins 持续集成和交付 (CI/CD) 流水线，本指南将帮助您全面了解如何使用 Jenkins 多分支流水线实现它。 Jenkins 的多分支流水线是设计 CI/CD 工作流的最佳方式之一，因为它完全基于 git（源代…

阅读更多...

跨境电商管理转型：日事清通过目标管理、流程自动化助力智优美科技项目管理升级与目标落地复盘

跨境电商管理转型：日事清通过目标管理、流程自动化助力智优美科技项目管理升级与目标落地复盘

1.客户背景介绍深圳市智优美科技有限公司是一家专业从事外贸B2C的电子商务公司，公司总部位于深圳市宝安区，旗下拥有三家子公司。目前销售的品类有：家居用品、电子产品、电子配件产品等，在深圳外贸电商行业销售额稳居行业前10名。…

阅读更多...

基于Docker+k8s集群的web应用部署与监控

基于Docker+k8s集群的web应用部署与监控

项目架构图 server ip master 192.168.140.130 node1 192.168.140.131 node2 192.168.140.132 ansible 192.168.140.166 jumpserver 192.168.100.133 firewall 192.168.1.86 nfs 192.168.140.157 harbor 192.168.140.159 Promethethus 192.168.140.130 Jen…

阅读更多...

量子计算与经典计算融合：开启计算新时代

量子计算与经典计算融合：开启计算新时代

一、引言随着科技的飞速发展，计算技术正迎来一场前所未有的变革。量子计算作为前沿技术，以其强大的并行计算能力和对复杂问题的高效处理能力，吸引了全球科技界的关注。然而，量子计算并非要完全取代经典计算，而是与经典…

阅读更多...

【HarmonyOS 5】makeObserved接口详解

【HarmonyOS 5】makeObserved接口详解

【HarmonyOS 5】makeObserved接口详解一、makeObserved接口是什么？ makeObserved 接口（API version 12 起可用）用于将非观察数据转为可观察数据，适用于三方包类、Sendable 装饰的类、JSON.parse 返回的对象、collections.Array…

阅读更多...

豆瓣图书数据采集与可视化分析（二）- 豆瓣图书数据清洗与处理

豆瓣图书数据采集与可视化分析（二）- 豆瓣图书数据清洗与处理

文章目录前言一、查看数据基本信息二、拆分pub列三、日期列处理四、价格列处理五、出版社列处理六、评价人数列处理七、缺失值处理八、重复数据处理九、异常值处理十、完整代码十一、清洗与处理后的数据集展示前言豆瓣作为国内知名的文化社区，拥有庞大且丰富的图…

阅读更多...

Wasm -WebAssembly简介

Wasm -WebAssembly简介

WebAssembly 是什么？ WebAssembly/wasm WebAssembly 或者 wasm 是一个可移植、体积小、加载快并且兼容 Web 的全新格式 WebAssembly（简称 Wasm）是一种二进制指令格式，设计用于在现代 Web 浏览器中高效运行程序。它可以被认为是一…

阅读更多...

驱动开发硬核特训 · Day 15：电源管理核心知识与实战解析

驱动开发硬核特训 · Day 15：电源管理核心知识与实战解析

在嵌入式系统中，电源管理（Power Management）并不是“可选项”，而是实际部署中影响系统稳定性、功耗、安全性的重要一环。今天我们将以 Linux 电源管理框架为基础，从理论结构、内核架构，再到典型驱动实战&a…

阅读更多...

【SpringBoot】99、SpringBoot中整合RabbitMQ实现重试功能

【SpringBoot】99、SpringBoot中整合RabbitMQ实现重试功能

最近在做一个项目，需要使用 MQ 实现重试功能，在这里给各位分享一下。 1、整合 RabbitMQ  <dependency><groupId>org.springframework.boot</groupId><

阅读更多...

AI 中的 CoT 是什么？一文详解思维链

AI 中的 CoT 是什么？一文详解思维链

文章目录 CoT 的组成CoT 的作用CoT 的推理结构变体CoT 的特点CoT 的适用场景总结在人工智能领域，尤其是自然语言处理和机器学习中，有一种名为思维链（Chain of Thought，CoT）的技术，它正逐渐改变着我们对 AI…

阅读更多...

Vue3集成Element Plus完整指南：从安装到主题定制上

Vue3集成Element Plus完整指南：从安装到主题定制上

一、Element Plus简介 Element Plus是一套基于Vue 3.0的桌面端组件库，由饿了么前端团队开源维护。它提供了丰富的UI组件，能够帮助开发者快速构建企业级中后台产品。 1. 安装与卸载 bash 复制下载 # 安装最新版本 npm install element-plus -S# 卸…

阅读更多...

Java29：Spring MVC

Java29：Spring MVC

一：Springmvc简介 1.简介： Spring Web MVC 是基于Servlet API构建的原始Web框架，从一开始就包含在Spring Framework中。正式名称“Spring Web MVC” 来自其源模块名称（spring-webmvc）但它通常被称为“Spring Mvc” …

阅读更多...

VLC搭建本机的rtsp直播推流和拉流

VLC搭建本机的rtsp直播推流和拉流

媒体---流---捕获设备，选择摄像头，点击串流 x下一步选择rtsp，点击添加看到了端口，并设置路径： 选择Video -H 264 mp3(TS) 点击下一个， 点击流，就开始推流了拉流，观看端&#x…

阅读更多...

云点数据读写

云点数据读写

一、常见点云数据格式 LAS/LAZ格式 LAS是点云数据的行业标准格式 LAZ是LAS的压缩版本支持地理参考信息、颜色、强度等属性 PCD格式(Point Cloud Data) PCL(Point Cloud Library)开发的格式支持ASCII和二进制存储包含头部信息和数据部分 PLY格式(Polygon File Format…

阅读更多...

[RHEL8] 指定rpm软件包的更高版本模块流

[RHEL8] 指定rpm软件包的更高版本模块流

背景：挂载RHEL ISO使用kickstart安装操作系统，安装包未指定安装perl，但是安装完可以查到其版本，且安装的是ISO中多个版本中的最低版本。原因：（1）为什么没有装perl，perl -v可以看到版…

阅读更多...

Spring 事务管理核心机制与传播行为应用

Spring 事务管理核心机制与传播行为应用

Spring 事务详解一、Spring 事务简介 Spring 事务管理基于 AOP（面向切面编程）实现，通过声明式事务（注解或 XML 配置）统一管理数据库操作，确保数据一致性。核心目标：保证多个数据库操作的原子…

阅读更多...

JavaScript解密实战指南：从基础到进阶技巧

JavaScript解密实战指南：从基础到进阶技巧

JavaScript加密技术广泛应用于数据保护、反爬虫和代码混淆，但掌握解密方法能帮助开发者突破技术壁垒。本文结合爬虫实战与安全分析场景，系统梳理JS解密的核心方法与工具。一、基础解密方法 1. Base64解码适用于简单编码场景，如Cookie加密…

阅读更多...

最新文章