大语言模型---什么是注意力机制？LlaMA 中注意力机制的数学定义

大语言模型---什么是注意力机制？LlaMA 中注意力机制的数学定义

web/2025/11/3 19:03:13/文章来源:https://blog.csdn.net/weixin_43883448/article/details/143981995

摘要

注意力机制（Attention Mechanism）是一种在深度学习和人工智能中广泛使用的技术，旨在使模型在处理信息时能够重点关注重要的部分，从而提升任务的效率和精度。它最初应用于自然语言处理（NLP），并迅速扩展到计算机视觉（CV）、语音处理等领域。

什么是注意力机制？

注意力机制模仿了人类的注意力分配过程。在面对大量信息时，人类不会对每一部分内容平均分配注意力，而是会优先关注重要的部分。计算机通过注意力机制实现类似的功能，即在处理输入数据时动态地分配更多资源到对当前任务最重要的部分。
例如，在机器翻译中，注意力机制使模型能够聚焦于源句子中与目标词汇最相关的部分，而不是处理整个句子。

LlaMA 中注意力机制的数学定义

LLaMA 的注意力机制采用标准 Transformer 的自注意力结构，其计算公式为：
注意力机制公式
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V$
其中：

$Q = XW_Q$ ：查询（Query），通过输入 $X$ 和权重矩阵 $W_Q$ 投影生成。
$K = XW_K$ ：键（Key），通过输入 $X$ 和权重矩阵 $W_K$ 投影生成。
$V = XW_V$ ：值（Value），通过输入 $X$ 和权重矩阵 $W_V$ 投影生成。
$W_V \in \mathbb{F}^{dim_{\text{head}}\times dim}$ ， $dim_{\text{head}}=\frac{dim}{the\ number\ of\ head}$
softmax 是计算注意力分数的归一化函数。
值得注意的是， $d$ 是 $\frac{hidden\_size}{num\_attention\_heads}$ ，也是 $Q / K / V$ 向量的长度。进行这种缩放是为了防止大值在下一步中主导标准化（softmax）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/60947.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

IDEA2023版本配置项目全局编码

IDEA2023版本配置项目全局编码

IDEA默认的项目编码是UTF-8，有时候拿到别人的代码使用的编码是GBK，虽然可以在idea右下角进行修改，但是一个一个的修改太慢了。所以需要去进行该项目的编码全局配置。接下来直接讲步骤，以IDEA2023版本为例。第一步 File>Sett…

阅读更多...

大数据学习18之Spark-SQL

大数据学习18之Spark-SQL

1.概述 1.1.简介 Spark SQL 是 Apache Spark 用于处理结构化数据的模块。 1.2.历史 1.2.1.Shark Hadoop诞生初期，Hive是唯一在Hadoop上运行的SQL-on-Hadoop工具，MR的中间计算过程产生了大量的磁盘落地操作，消耗了大量的I/O，降低…

阅读更多...

【Android】Service使用方法：本地服务 / 可通信服务 / 前台服务 / 远程服务（AIDL）

【Android】Service使用方法：本地服务 / 可通信服务 / 前台服务 / 远程服务（AIDL）

1 本地Service 这是最普通、最常用的后台服务Service。 1.1 使用步骤步骤1：新建子类继承Service类：需重写父类的onCreate()、onStartCommand()、onDestroy()和onBind()方法步骤2：构建用于启动Service的Intent对象步骤3：调用st…

阅读更多...

QML学习 —— 34、视频媒体播放器（附源码）

QML学习 —— 34、视频媒体播放器（附源码）

效果说明您可以单独使用MediaPlayer播放音频内容（如音频），也可以将其与VideoOutput结合使用以渲染视频。VideoOutput项支持未转换、拉伸和均匀缩放的视频演示。有关拉伸均匀缩放演示文稿的描述，请参见fillMode属性描述。播放可能出错问题出现的问题: DirectS…

阅读更多...

Spring MVC练习(前后端分离开发实例)

Spring MVC练习(前后端分离开发实例)

White graces：个人主页 🙉专栏推荐:Java入门知识🙉 🐹今日诗词:二十五弦弹夜月，不胜清怨却飞来🐹 ⛳️点赞 ☀️收藏⭐️关注💬卑微小博主🙏 ⛳️点赞 ☀️收藏⭐️关注&#x1f4…

阅读更多...

对docker安装的mysql实现主从同步

对docker安装的mysql实现主从同步

1:分别安装mysql主,从数据库将主库容器名称改为mysql_master,将从库容器名称改为mysql_slave 安装教程:docker安装mysql 2:配置主库的my.cnf挂载文件 [mysqld] #log-bin：表示启用binlog功能，并指定二进制日志的存储目录。 log-binmysql-bin #binlog_f…

阅读更多...

探索 Spring 框架核心组件：构建强大 Java 应用的基石

探索 Spring 框架核心组件：构建强大 Java 应用的基石

Spring框架作为Java企业级开发的首选框架之一，其强大的功能和灵活的架构深受开发者喜爱。Spring框架的核心组件共同构建了一个高效、可扩展的应用程序开发平台。本文将深入探讨Spring框架的核心组件，揭示它们如何在Spring框架中发挥关键作用。一、Bean…

阅读更多...

如何把大模型调教成派大星？

如何把大模型调教成派大星？

目录主要内容模型图实验结果如何把大模型变成派大星？chatglm3-6B 数据集准备代码运行微调结果文章声明：非广告，仅个人体验：参考文献：https://www.aspiringcode.com/content?id17197387451937&uid291a2ae1546b48…

阅读更多...

国土安全部发布关键基础设施安全人工智能框架

国土安全部发布关键基础设施安全人工智能框架

美国国土安全部 (DHS) 发布建议，概述如何在关键基础设施中安全开发和部署人工智能 (AI)。 https://www.dhs.gov/news/2024/11/14/groundbreaking-framework-safe-and-secure-deployment-ai-critical-infrastructure 关键基础设施中人工智能的角色和职责框架 https:/…

阅读更多...

异或操作解决一些问题

异或操作解决一些问题

前提： 异或操作符合交换律，结合律（因为其根本上来抽象理解，就是查看所有项二进制数相同位是否有奇数个1，对运算结果二进制数而言，没有该位为0，有该位为1，与顺序无关）。 …

阅读更多...

【人工智能】基于PyTorch的深度强化学习入门：从DQN到PPO的实现与解析

【人工智能】基于PyTorch的深度强化学习入门：从DQN到PPO的实现与解析

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！深度强化学习（Deep Reinforcement Learning）是一种结合深度学习和强化学习的技术，适用于解决复杂的决策问题。深度Q网络（DQN）和近端策略优化（PPO）是其中两种经典的算法，被广泛应用于游戏、机器人控…

阅读更多...

windows server 2012 反向代理修改默认80端口转向3000

windows server 2012 反向代理修改默认80端口转向3000

我们用npm start项目以后一般端口都是3000或者其他，这个方法可以直接80端口跳3000. Nginx的方法： 修改配置文件在 Nginx 配置文件中，您需要找到默认的 server block，并将其配置为监听 80 端口，并将请求代理到 3000 端…

阅读更多...

项目缓存之Caffeine咖啡因

项目缓存之Caffeine咖啡因

文章目录理论使用理论 🍎缓存缓存是提升系统性能的一个不可或缺的工具，通过缓存可以避免大部分重复的请求到数据库层，减少IO链接次数，进而提升整体的响应速率；缓存工具可以分为本地缓存（如Caffeine&…

阅读更多...

QML TableView 实例演示 + 可能遇到的一些问题（Qt_6_5_3）

QML TableView 实例演示 + 可能遇到的一些问题（Qt_6_5_3）

一、可能遇到的一些问题 Q1：如何禁用拖动？ 在TableView下加一句代码即可： interactive: false 补充：这个属性并不专属于TableView，而是一个通用属性。很多Controls下的控件都可以使用，其主要作用就是控…

阅读更多...

C基础上机题目51_55

C基础上机题目51_55

51.字符数组x中存有任意一串字符；请编制函数，按给定的替代关系对数组x中的所有字符进行替代，仍存入数组x的对应的位置上，最后调用函数把结果x输出。替代关系：f(p)p*11%256 (p是数组中某一个字符的ASCII值&#xff0c…

阅读更多...

03-微服务搭建

03-微服务搭建

1、搭建分布式基本环境分布式组件功能 SpringCloud Alibaba - Nacos 注册中心（服务发现/注册）、配置中心（动态配置管理） SpringCloud Alibaba - Sentinel 服务容错（限流、降级、熔断） SpringCloud …

阅读更多...

2024强网杯--babyheap house of apple2解法

2024强网杯--babyheap house of apple2解法

house of apple2 这次比赛看到这道题想到了用house of apple2，但是卡在了它把_IO_wfile_jumps给清零了，然后根据house of apple的调用链，我就以为做不了，其实是我对这个地方的理解不深刻。利用_IO_wfile_overflow函数控制程序执…

阅读更多...

Java八股（一）

Java八股（一）

目录 1.JVM、JRE、JDK之间的关系 2.static关键字作用（通俗版） 3.面向对象、面向过程 4.私有方法 5.Java代码执行与编译 6.IOC 1.JVM、JRE、JDK之间的关系 Java一次编写到处运行，可移植性好，保证这一点的就是iava虚拟机JVM …

阅读更多...

pytest 通过实例讲清单元测试、集成测试、测试覆盖率

pytest 通过实例讲清单元测试、集成测试、测试覆盖率

1. 单元测试概念定义: 单元测试是对代码中最小功能单元的测试，通常是函数或类的方法。目标: 验证单个功能是否按照预期工作，而不依赖其他模块或外部资源。特点: 快速、独立，通常是开发者最先编写的测试。示例：pytest 实现单…

阅读更多...

Cannot find a valid baseurl for repo: centos-sclo-rh/x86_64

Cannot find a valid baseurl for repo: centos-sclo-rh/x86_64

yum install 报错: Cannot find a valid baseurl for repo: centos-sclo-rh/x86_64 CentOS7的SCL源在2024年6月30日停止维护了。当scl源里面默认使用了centos官方的地址，无法连接，需要替换为阿里云。 cd /etc/yum.repos.d/ 找到 CentOS-SCLo-scl.repo 和…

阅读更多...

最新文章