论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/144388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】文件系统中inode与软硬链接以及读写权限问题

文章目录 前言一、 简单理解文件系统二、文件操作具体步骤1.新建文件2.删除文件3.查找文件 三、目录的重新理解1.目录下没有w权限,无法对其下的文件进行创建与删除2.目录下没有r权限,无法对其下的文件进行查看3.目录下没有x权限,无法进入这个…

黑芝麻智能完成上市备案,这一次国产汽车芯片真得崛起了?

“轮子上的数据中心”——现在,越来越多人用这句话来形容新能源汽车。 而芯片作为处理新能源汽车“数据中心”的大脑,其市场规模呈现增长趋势。车百智库近期发布的《汽车芯片产业发展报告(2023)》显示,2022年我国汽车…

内网Jenkins 部署.net(dotnet)项目

一、前置条件 内网部署Jenkins,并安装好所需插件 此篇内容需承接内网搭建Jenkins自动化远程部署项目到Windows服务器_jenkins内网安装-CSDN博客 ,才更好操作与理解 二、在Jenkins中创建项目 三、配置项目 General Source Code Management Build Envi…

Docker - 容器数据卷

Docker - 容器数据卷 什么是容器数据卷 等同于挂载,将容器内的目录地址指向于宿主机文件系统中 直接使用命令来挂载 -v docker run -it -v 主机目录:容器内目录# 测试 docker run -it -v /root:/home centos /bin/bash [rootiZ2zeg7mctvft5renx1qvbZ ~]# docker …

baidu贴吧邮箱采集小工具【写着玩】

这里写自定义目录标题 小工具写着玩小工具写着玩 之前有一个小业务,需要进行批量邮箱协议群发,然后需要采集一些真实的邮箱数据,最后想了一下让用户自己留下的基本上都是真实的,tieba又属于一个流量比较大的地方,后来就写了一个小教本进行测试; 工具还可以进行继续的延伸…

什么是CMDB?为什么企业需要CMDB?

CMDB即Configuration Management Database,配置管理数据库,它是组织IT基础结构中配置项CI(Configuration Item)及其关系的数据库。 而CI是指任何需要进行管理以确保成功提供服务的条目,CI可以是一个具体的实体,如服务器、交换机&…

基于单片机设计的水平仪(STC589C52+MPU6050)

一、前言 【1】项目背景 水平仪是一种常见的测量工具,用于检测物体或设备的水平姿态。在许多应用中,如建筑、制造和航空等领域,保持设备的水平姿态是非常重要的。为了实现实时的水平检测和显示,基于单片机设计的水平仪是一个常见…

堆的应用-----Top k 问题

目录 前言 Topk问题 1.问题描述 2.解决方法 3.代码实现(C/C) 前言 在人工智能算法岗位的面试中,TopK是问得最多的几个问题之一: 到底有几种方法? 这些方案里蕴含的优化思路究竟是怎么样的? 为啥T…

无线WiFi安全渗透与攻防(五) aircrack-ng(亲测有效)、mdk3联合攻击

无线WiFi安全渗透与攻防(五) aircrack-ng(亲测有效)、mdk3联合攻击 一. kali虚拟机 WiFi一、虚拟机连接网卡1、插入网卡进行连接2、检查是否连接成功输入ifconfig看是否出现wlan0,若没成功,可以输入ifconfig -a看一下是否出现wlan03、常见问题具体操作如下:二、使用airm…

【从入门到起飞】JavaSE—IO工具包(Commons-io,Hutool) (2)

🎊专栏【JavaSE】 🍔喜欢的诗句:天行健,君子以自强不息。 🎆音乐分享【如愿】 🎄欢迎并且感谢大家指出小吉的问题🥰 文章目录 🌺工具包Commons-io⭐使用步骤🛸新建一个文…

代驾预约小程序系统源码 :提起预约,避免排队 带完整搭建教程

大家好啊,又到罗峰来给大家分享好用的源码系统的时间了。今天要给大家分享的第一款代驾预约小程序源码系统。传统的代驾服务中,用户往往需要在酒后代驾、长途驾驶等场景下,面对排队等待代驾司机空闲时间的繁琐过程。这不仅浪费了用户的时间和…

如何准备2024年的系统设计面试?

1 前言 如果你正在准备软件工程师或软件开发人员的面试,那么你可能知道由于其开放性质和广泛性,准备系统设计是多么困难,但同时你也不能忽略它。在软件工程界,如果你正在申请高级工程师/主管/架构师或更高级别的角色,系统设计是最受追捧的技能,也是整个过程中最重要的环节之一…

CSS 实现新拟态(Neumorphism) UI 风格

什么是新拟态(Neumorphism) UI 风格?网上似乎还没有一个准确统一的定义。按照我个人的通俗理解,就是将界面的一部分凸起来,另一部分凹下去,形成的一种错落有致的拟物风格。代表作是乌克兰设计师 Alexander Plyuto 在各平台发布的新…

雷欧REO控制器维修REOVIB MFS268 M DP24

REO雷欧控制器维修常见型号包括: MFS268, MTS442, MTS443, MFR100/200, MFS158,MFS168等 涉及双层线圈层间短路的修理:振动控制器维修,双层线圈在上下层间发生层间短路,是由于层间材质不好或嵌…

AJAX入门Day01笔记

Day01_Ajax入门 知识点自测 如下对象取值的方式哪个正确? let obj {name: 黑马 }A: obj.a B: obj()a 答案 A选项正确 哪个赋值会让浏览器解析成标签显示? let ul document.querySelector(#ul) let str <span>我是span标签</span>A: ul.innerText str B: ul…

opencv的MinGW-W64编译

最近使用Qt&#xff0c;需要用到opencv,安装详情参考下面这个网址&#xff0c;写的挺好&#xff1a; opencv的MinGW-W64编译 - 知乎 我电脑安装Qt中自带了MinGW,所以不需要像上面网址中的下载MinGw&#xff0c;只需要将Qt中自带的MinGW添加到环境变量即可&#xff0c;如&…

c# 常用集合类型

动态数组 using System.Collections; using System.Text.RegularExpressions; namespace demo1 {/// <summary>/// 常用的集合类型有动态数组&#xff08;ArrayList类&#xff09;、堆栈&#xff08;Stack类&#xff09;、Queue类和Hashtable类/// </summary>inte…

同一个IP地址可有不同的写法?

每个人在上网的时候&#xff0c;都会被分配一个IP地址&#xff0c;这是互联网世界中的“身份证号码”。IP地址是以数字形式呈现的&#xff0c;例如192.168.1.1。然而&#xff0c;你是否知道&#xff0c;尽管一个IP地址的数字串唯一标识一个设备&#xff0c;但它可以有不同的写法…

【App测试】adb三大连接方式-夜神模拟器+真机+android真机(详细步骤)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 adb连接安卓模拟器…

接口测试自动化测试的总结与思考,超详细的~

服务端接口测试介绍 什么是服务端? 一般所说的服务端是指为用户在 APP 或 PC 使用的互联网功能提供数据服务的背后的一切。以天猫精灵智能音箱系列的产品链路为例&#xff0c;服务端便是网关&#xff08;包括网关在内&#xff09;之后的链路。 什么是接口? 官方点说&#…