SwiGLU激活函数

SwiGLU激活函数

bicheng/2025/7/6 18:48:20/文章来源:https://blog.csdn.net/transformer_WSZ/article/details/138592215

SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体，公式如下：
$\operatorname{SwiGLU}(x, W, V, b, c, \beta)=\operatorname{Swish}_\beta(x W+b) \otimes(x V+c)$

Swish

$\operatorname{Swish_\beta}(x)=x \otimes \sigma(\beta x)$
在nlp和cv任务上，Swish性能都和GELU接近，稍微略高点。但Swish公式更简洁优雅。

GELU早期被BERT、RoBERTa、ALBERT采用。

GLU

$\operatorname{GLU}(x, W, V, b, c)=\sigma(x W+b) \otimes(x V+c)$
单纯从公式看，GLU是一个神经网络层。左右两个线性变换层，左边再接一个门控机制来控制信息流通多少。

SwiGLU

将Swish作为左侧激活函数就得到了SwiGLU。代码如下：

F.silu(self.w1(x)) * self.w2(x)

在 GLU Variants Improve Transformer 论文中，作者比较了各种GLU变体的激活函数，SwiGLU在各项任务上表现出众。但作者并未给出解释原因，只能说后验是这样，那就选它呗，所以成了LLM的标配。

各激活函数示意图

act

参考

GLU Variants Improve Transformer
SWISH: A SELF-GATED ACTIVATION FUNCTION
超越ReLU却鲜为人知，3年后被挖掘：BERT、GPT-2等都在用的激活函数
大模型基础｜激活函数｜从ReLU 到SwiGLU

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/8742.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

开源免费的发票识别OCR应用：Invoice

开源免费的发票识别OCR应用：Invoice

Invoice：轻松识别，发票电子化扫描烦恼消- 精选真开源，释放新价值。概览 Invoice 是github社区上一个采用开源许可协议发布的增值税发票光学字符识别（OCR）解决方案项目。该项目不仅集成了预训练的高级模型&#xff0c…

阅读更多...

AtCoder Beginner Contest 332 B题 Glass and Mug

AtCoder Beginner Contest 332 B题 Glass and Mug

B题：Glass and Mug 标签：模拟题意：给定 G G G容量的玻璃杯和 M M M容量的马克杯，一开始两个杯子里面都没水，给定以下操作先后顺序，求 K K K次操作之后，两个杯子中各自的水量。（ G &…

阅读更多...

2024-05-07 问AI: 介绍一下music 21 工具包

2024-05-07 问AI: 介绍一下music 21 工具包

文心一言 Music21是一个由MIT开发的功能强大的计算音乐学分析Python库。这个工具包提供了丰富的功能，包括处理多种格式的音乐文件（如MusicXML、MIDI、abc等），以及从零开始构建音乐文件或对音乐进行分析。Music21也可以方便地使用…

阅读更多...

Python | Leetcode Python题解之第78题子集

Python | Leetcode Python题解之第78题子集

题目： 题解： class Solution:def subsets(self, nums: List[int]) -> List[List[int]]:self.res []self.backtrack([], 0, nums)return self.resdef backtrack(self, sol, index, nums):self.res.append(sol)for i in range(index, len(nums)):self…

阅读更多...

Jenkins +git +web(vue) centos8.5 实战打包部署运维系列二

Jenkins +git +web(vue) centos8.5 实战打包部署运维系列二

1新建一个工程 #cat qy.sh #!/bin/bash cd /data/.jenkins/workspace/web rm -rf dist/ rm -rf qysupweb.tar.gz npm run build tar -czvf qysupweb.tar.gz dist/ #点击构建

阅读更多...

基于控制工程的牛鞭效应simulink建模与仿真

基于控制工程的牛鞭效应simulink建模与仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述牛鞭效应”对供应链性能和绩效产生了严重的影响。基于控制理论建立了多级线性供应链的模型，分别利用噪声带宽和Matlab／Simulink对一个可扩…

阅读更多...

平航杯复现

平航杯复现

简单介绍及前期操作 esxi镜像挂载是一个新的创新点就根据官方的wp进行挂载就可以了，后面差不多常规的服务器取证操作，然后服务器和计算机，u盘取证都有点联系，还是需要队友配合好一点配置网段我的建议是把本机的配置改一下&am…

阅读更多...

box-decoration-break 使用介绍

box-decoration-break 使用介绍

box-decoration-break属性的使用一、定义 box-decoration-break是CSS片段模块（CSS Fragmentation Module Level 3）中的一个属性，主要用于指定背景（background）、内边距（padding）、边框&#…

阅读更多...

低代码在物品领用领域数字化转型的案例分析

低代码在物品领用领域数字化转型的案例分析

办公用品管理数字化不仅代表了企业管理模式的革新，更是提升运营效率和成本控制的关键举措。通过数字化手段，企业能够实现采购、库存、领用等流程的自动化和智能化管理，大幅减少人工操作，提高处理速度，确保数据的准确性…

阅读更多...

Kafka 面试题（一）

Kafka 面试题（一）

1. 简述什么是 Kafka 的 Topic ？ Kafka的Topic是消息队列中的基本消息通道，可以理解为一个命名的管道。生产者将消息发送到特定的Topic，而消费者则订阅感兴趣的Topic来接收消息。Topic在逻辑上是一个概念，它可以细分为多个分区&a…

阅读更多...

ruoyi-nbcio 基于flowable规则的多重并发网关的任意跳转

ruoyi-nbcio 基于flowable规则的多重并发网关的任意跳转

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址前后端代码： https://gitee.com/nbacheng/ruoyi-nbcio 演示地址：RuoYi-Nbcio后台管理系统 http://218.75.87.38:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址后端代码： h…

阅读更多...

如何使用Python下载哔哩哔哩（Bilibili）视频字幕

如何使用Python下载哔哩哔哩（Bilibili）视频字幕

在本文中，我将向大家展示如何使用Python下载哔哩哔哩（Bilibili）视频的字幕。通过这个方法，你可以轻松地获取你喜欢的视频的字幕文件，方便学习和交流。准备工作在开始之前，我们需要安装一些必要的库&…

阅读更多...

熟悉Redis吗，那Redis的过期键删除策略是什么

熟悉Redis吗，那Redis的过期键删除策略是什么

对于Redis，我们业务开发一般都只关心Redis键值对的查询、修改操作，可能因为懒或者只想能用就行，呵呵。很少关心键值对存储在什么地方、键值对过期了会怎么样、Redis有没什么策略处理过期的键、Redis处理过期键又有什么作用？但这些…

阅读更多...

ListNode.__lt__ = lambda a, b: a.val ＜ b.val进行堆排序的比较

ListNode.lt = lambda a, b: a.val ＜ b.val进行堆排序的比较

在Python中，如果你想让自定义的数据类型（如链表节点ListNode）能够用于堆排序，并且希望这些节点能够基于某个属性（比如节点的值val）进行排序，你需要为这个数据类型实现比较方法。在你的例子中&…

阅读更多...

PCL 霍夫变换探测三维直线

PCL 霍夫变换探测三维直线

文章目录一、简介1.1二维空间1.2三维空间二、实现代码三、实现效果参考文献一、简介 1.1二维空间 “Hough变换”(HT)算法最初作为美国专利所发布，是一种定位任何形状的通用方法，该方法最早被应用于二维图像领域之中，但其仍适用于在二维、三维点集探测各种形状。基础理论：…

阅读更多...

固定资产管理系统参考论文（论文 + 源码）

固定资产管理系统参考论文（论文 + 源码）

【免费】固定资产管理系统.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89282536 固定资产管理系统摘要随着计算机信息技术的发展以及对资产、设备的管理科学化、合理化的高要求，利用计算机实现设备及资产的信息化管理已经显得非常重要。固…

阅读更多...

LeetCode例题讲解:快乐数

LeetCode例题讲解:快乐数

编写一个算法来判断一个数 n 是不是快乐数。「快乐数」定义为： 对于一个正整数，每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1，也可能是无限循环但始终变不到 1。如果这个过程结果为 1&#xff0c…

阅读更多...

李飞往事之wifi恶魔

李飞往事之wifi恶魔

程序员侠李飞是一名技术高超的年轻程序员，他在城市中打击各种网络犯罪活动，保护市民的网络安全。一天，他接到了一个任务，说是城市中有一个邪恶的wifi恶魔正在肆虐，许多人的个人信息被盗取，银行账户被盗刷&a…

阅读更多...

System Verilog通过CORDIC算法迭代16次求sin和cos值

System Verilog通过CORDIC算法迭代16次求sin和cos值

求5~85度的sin和cos值其它角度和Verilog实现代码类似，查表、移位和加法器 define DIE 16 //迭代次数 define PIE 3.1415926 define MUL 100_000_000 //同比放大 initial begin int die; int x[17]; int y[17]; int z[17…

阅读更多...

Isaac Sim 3（学习笔记5.8）

Isaac Sim 3（学习笔记5.8）

Isaac Sim 利用深度学习获取mask掩码图参考内容 Kubernetes官网在 Linux 系统中安装并设置 kubectl | Kubernetes准备开始 kubectl 版本和集群版本之间的差异必须在一个小版本号内。例如：v1.30 版本的客户端能与 v1.29、 v1.30 和 v1.31 版本的控制面通信。用…

阅读更多...

最新文章