EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

本文是LLM系列文章,针对《EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models》的翻译。

EdgeMoE:基于MoE的大型语言模型的快速设备推理

  • 摘要
  • 1 引言
  • 2 实验与分析
  • 3 EDGEMOE设计
  • 4 评估
  • 5 相关工作
  • 6 结论

摘要

GPT和LLaMa等大型语言模型(LLM)由于其在广泛的机器学习任务中的卓越能力,迎来了机器智能的一场革命。然而,LLM从数据中心向边缘设备的过渡带来了一系列挑战和机遇。虽然这种转变可以增强隐私和可用性,但这些模型的巨大参数大小阻碍了这种转变,导致不切实际的运行时成本。
鉴于这些考虑,我们介绍了EdgeMoE,这是第一个为专家(MoE)LLM的混合量身定制的设备上推理引擎,这是稀疏LLM的一种流行变体,其参数大小尺度显示出几乎恒定的计算复杂性。EdgeMoE通过在存储层次结构中战略性地划分模型,实现了内存和计算效率。具体而言,非专家权重存储在设备的存储器中,而专家权重则保存在外部存储器中,只有在激活时才会被提取到存储器中。这一设计的基础是一个关键的见解,即专家权重虽然庞大,但由于激活模式稀疏,很少被访问。为了进一步减轻与专家I/O交换相关的开销,EdgeMoE结合了两种创新技术:(1)专家位宽自适应:这种方法在可接受的精度损失水平上减少了专家权重的大小。(2) 专家管理:它提前预测将被激活的专家,并将其预加载到计算机I/O管道中,从而进一步优化流程。在对成熟的MoE LLM和各种边缘设备进行的经验评估中,与竞争对手的基线解决方案相比,EdgeMoE展示了显著的内存节约和性能改进。

1 引言

2 实验与分析

3 EDGEMOE设计

4 评估

5 相关工作

6 结论

在这项工作中,我们提出了EdgeMoE,这是第一个用于混合专家(MoE)LLM的设备上推理引擎。EdgeMoE集成了两种创新技术:特定于专家的位宽自适应,在可接受的精度损失的情况下减少专家大小,以及专家预加载,它可以预测激活的专家并使用计算机I/O管道预加载他们。大量实验表明,EdgeMoE能够在边缘CPU和GPU平台上对MoE LLM进行实时推理,同时保持可容忍的精度损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/87713.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣26:删除有序数组中的重复项

26. 删除有序数组中的重复项 - 力扣(LeetCode) 题目: 给你一个 非严格递增排列 的数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现一次 ,返回删除后数组的新长度。元素的 相对顺序 应该保持 …

关于业务库从MySQL迁移到DM8的操作指南

升级前准备 jdbc:dm://10.252.10.15:5237 username: datashare password: datashare123 把当前MySQL数据库下的数据库表以及数据迁移到DM8。通过达梦8自带的工具可以实现迁移(仅支持Win) DM8管理工具下载:https://www.dameng.com/DM8.html…

Leetcode 95. 不同的二叉搜索树 II

文章目录 题目代码&#xff08;9.21 首刷看解析&#xff09; 题目 Leetcode 95. 不同的二叉搜索树 II 代码&#xff08;9.21 首刷看解析&#xff09; class Solution { public:vector<TreeNode*> generateTrees(int n) {return build(1,n);}vector<TreeNode*> bu…

将本地前端工程中的npm依赖上传到Nexus

【问题背景】 用Nexus搭建了内网的依赖仓库&#xff0c;需要将前端工程中node_modules中的依赖上传到Nexus上&#xff0c;但是node_modules中的依赖已经是解压后的状态&#xff0c;如果直接机械地将其简单地打包上传到Nexus&#xff0c;那么无法通过npm install下载使用。故有…

Jenkins Job的Migrate之旅

场景 使用Jenkins 做为应用的定时任务处理&#xff0c; 在上面建立的800个左右的Job, 这个环境运行了很多年&#xff0c; 当初安装的最新版本是Jenkins 1.642.3&#xff0c; 现在因为OS需要升级等原因&#xff0c; 驻在上面的Jenkins 服务器也需要一并升级&#xff0c;在新的服…

Mock.js之Element-ui搭建首页导航与左侧菜单

&#x1f3ac; 艳艳耶✌️&#xff1a;个人主页 &#x1f525; 个人专栏 &#xff1a;《Spring与Mybatis集成整合》《springMvc使用》 ⛺️ 生活的理想&#xff0c;为了不断更新自己 ! 1、Mock.js的使用 1.1.什么是Mock.js Mock.js是一个模拟数据的生成器&#xff0c;用来帮助前…

浅谈C++|文件篇

C中的文件操作是通过使用文件流来实现的。文件流提供了对文件的输入和输出功能。下面是C文件操作的基本步骤&#xff1a; 1. 包含头文件&#xff1a;首先&#xff0c;包含 <fstream> 头文件&#xff0c;它包含了进行文件操作所需的类和函数。 2 . 进行文件读写操作&#…

9领域事件

本系列包含以下文章&#xff1a; DDD入门DDD概念大白话战略设计代码工程结构请求处理流程聚合根与资源库实体与值对象应用服务与领域服务领域事件&#xff08;本文&#xff09;CQRS 案例项目介绍 # 既然DDD是“领域”驱动&#xff0c;那么我们便不能抛开业务而只讲技术&…

Windows专业版的Docker下载、安装与启用Kubenetes、访问Kubernetes Dashboard

到Docker 官网https://www.docker.com/ 下载windows操作系统对应的docker软件安装 Docker Desktop Installer-Win.exe 2023-09版本是4.23 下载后双击安装 重启windows后&#xff0c;继续安装 接受服务继续安装 解决碰到的Docker Engine stopped 打开 控制面板》程序》启用或关…

Python 与 Qt c++ 程序共享内存,传递图片

python 代码 这里Python 使用 shared_memory QT 使用 QSharedMemory 简单协议&#xff1a; 前面4个字节是 图片with,height,0,0 后面是图片数据 import sys import struct def is_little_endian():x0x12345678y struct.pack(I,x)return y[0]0x78print(f"is_little_end…

软件测试/测试开发丨利用人工智能ChatGPT自动生成PPT

点此获取更多相关资料 简介 PPT 已经渗透到我们的日常工作中&#xff0c;无论是工作汇报、商务报告、学术演讲、培训材料都常常要求编写一个正式的 PPT&#xff0c;协助完成一次汇报或一次演讲。PPT相比于传统文本的就是有布局、图片、动画效果等&#xff0c;可以给到观众更好…

css有用的小技巧(vue2)

1、希望悬浮的时候&#xff0c;img图标的src改变 <template><div style"padding: 20px"><img src"../static/icon/1.svg"></div> </template> <style scoped>img:hover {content: url(../static/icon/2.svg);} </…

第一百五十四回 如何实现滑动菜单

文章目录 概念介绍实现方法示例代码体验分享 我们在上一章回中介绍了滑动窗口相关的内容相关的内容&#xff0c;本章回中将介绍如何实现 滑动菜单.闲话休提&#xff0c;让我们一起Talk Flutter吧。 概念介绍 我们在本章回中介绍的滑动菜单表示屏幕上向左或者向右滑动滑动时弹…

服务器卡顿了该如何处理?

服务器卡顿了该如何处理&#xff1f; 当Windows系统的服务器出现卡顿问题时&#xff0c;以下是一些常见的故障排除步骤&#xff1a; 1.检查网络连接&#xff1a;确保服务器的网络连接正常。检查网络设备、交换机、防火墙等设备&#xff0c;确保它们正常运行。尝试通过其他计算…

自注意力机制

回顾以下注意力机制&#xff1a; 自注意力机制 Self-Attention的关键点 在于 K ≈ \approx ≈V ≈ \approx ≈Q 来源于同一个X&#xff0c;三者是同源的&#xff0c;通过 W Q W_Q WQ​, W K W_K WK​, W V W_V WV​做了一层线性变换。 接下来步骤和注意力机制一模一样。 …

基于微信小程序的线上教育课程付费商城(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

spring framework 5.2 AOP - spring低级的api

内容目录 1.Pointcut 切点切入点的操作 2.Spring 中的通知 APIadvice通知的生命周期 AOP的一般定义&#xff1a; AOP是一种编程范式&#xff0c;用于将关注点&#xff08;concerns&#xff09;从应用程序的主要业务逻辑中解耦。 关注点是指在应用程序中横切多个模块或组件的功…

【项目实战】Linux系统下jar包自启动

什么是jar包自启动 在Linux系统中&#xff0c;"jar包自启动"是指通过配置将Java程序打包成可执行的Jar文件&#xff0c;并设置其在系统启动时自动运行。以下是与jar包自启动相关的一些概念&#xff1a; Jar文件&#xff1a;Jar&#xff08;Java Archive&#xff09…

05贪心:买卖股票的最佳时机 II

05贪心&#xff1a;买卖股票的最佳时机 II 122. 买卖股票的最佳时机 II 这道题目可能我们只会想&#xff0c;选一个低的买入&#xff0c;再选个高的卖&#xff0c;再选一个低的买入…循环反复。 如果想到其实最终利润是可以分解的&#xff0c;那么本题就很容易了&#xff01…

蓝牙核心规范(V5.4)10.10-BLE 入门笔记之SMP和安全性

蓝牙篇之蓝牙核心规范(V5.4)深入详解汇总 1.概述 SMP是安全管理器协议,用于蓝牙低功耗系统的安全管理。SMP协议定义了配对和Key的分发过程的实现,以及用于实现这些方法的协议和工具。SMP的内容主要是配对和Key的分发,然后用Key对链路或数据进行加密 。 安全管理器协议(…