内存计算研究进展-针对机器学习的近数据计算架构

    针对机器学习的近数据计算架构代表性工作有: Georgia Institute of Technology的BSSync (bounded staled sync) 和 Neurocube,Advanced Micro Devices 的 CoML,具体如下。

1 BSSync

    BSSync指出,在并行实现的机器学习应用中,原子操作用来保障无锁状态下算法的收敛,但带来很大的同步开销,且同步产生的通信延迟不与占比大的计算延迟重叠。BSSync发现,在机器学习应用迭代收敛过程中,可以用未更新的中间数据进行计算,从而提出利用基于近数据计算的有边界一致性模型减少原子操作带来的延迟开销。图17是 BSSync系统结构,CPU 核里面增加了原子请求队列、控制寄存器以及区域表来实现边界一致性模型.实验显示,BSSync比机器学习应用在传统冯.诺依曼系统中的异步并行的实现快1.33倍。

2 Neurocube

    Neurocube是一个针对神经网络计算设计的可编程、可扩展,且节能的近数据计算系统架构。图18 是 Neurocube架构,左边是普遍使用的NDC cube结构,右边是逻辑层设计。逻辑层采用了细粒度可编程的设计模型,以灵活支持祌经网络计算.其中,每 个 P E 有 多 个 M AC单元支持神经网络中最常用的乘加操作,同时还有存储权值的寄存器和缓存以及相应的计数器。

    图19 是 Neurocube的执行流程.它首先将神经网络存储到NDC cube的存储单元中,包括每层数据、神经元状态、连接权值.当一个层处理好之后,与中央处理器交互一次,然后执行下一层。Neurocube通过对逻辑层硬件、数据映射方式、片上互联,以及编程方式的精心设计,使得祌经网络计算在NDC cube中能够高效执行。

    实验显示,相比于GPU系统,Neurocube有 4 倍的每瓦计算效率提升,与 ASIC系统相比,灵活性更好、扩展能力更强。

    不同于针对机器学习设计的注重优化乘加(MAC) 操作的近数据计算系统,C oM L lM 提出,虽然包含MAC操作的卷积层等计算占整个机器学习过程的比例大,但这些计算是计算密集型的,数据复用性好,计算/字节比率高(即一个字节从内存中读出来之后用来计算的次数多);事实上,机器学习过程中,约32%的时间用于数据密集型计算,这些计算的计算/字节比率低。图 2 0 展示了神经网络中低计算/字节比率的计算部分。CoM L 将这些低计算/字节比率的计算部分放在近数据计算端,把MAC等操作放在主处理器上做。

     实验显示,C oM L 在机器学习的数据密集型计算上的加速达到了 2 0 倍,总体有14%的性能提升。

参考文献

毛海宇,舒继武,李飞,等. 内存计算研究进展. 中国科学:信息科学,2021, 51: 173-206, doi: 10.1360/SSI-2020-0037 M ao H Y, Shu J W , Li F , et al. D evelopm ent of processing-in-m em ory (in C hinese). Sci Sin Inform , 2021, 51: 173-206, doi: 10.1360/SSI-2020-0037

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/692804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马斯洛激励理论

马斯洛激励理论——摘抄 马斯洛理论,也被称为马斯洛需求层次理论,是由美国心理学家亚伯拉罕马斯洛在1943年提出的。它是一种心理学中的激励理论,描绘了人类需求的五级模型,通常被描绘成金字塔内的等级。 从层次结构的底部向上&am…

代码随想录算法训练营DAY21 | 二叉树 (9)

一、LeetCode 669 修建二叉搜索树 题目链接:669.修建二叉搜索树https://leetcode.cn/problems/trim-a-binary-search-tree/description/ 思路:递归三部曲-定参数、返回值-定终止条件-定单层递归逻辑 class Solution {public TreeNode trimBST(TreeNode …

Sora了解资料

一、基本介绍 1.1sora 在 2024 年 2 月 16 日,Open AI 宣布推出全新的生成式人工智能模型“Sora”。据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感…

Prometheus+TDengine集群实现监控体系高可用

背景 为避免再次出现因Prometheus宕机导致业务无法查看历史数据受到影响,准备将Prometheus架构从单节点方式升级为高可用集群方式并将后端存储由本地存储改为远端分布式时序数据库存储。分布式时序数据库采用国产数据库TDengine。 架构 解释:虚线代表P…

Tuxera NTFS软件2024免费版本如何下载?

当然,以下是关于Tuxera NTFS的更多信息: Tuxera NTFS2024下载如下:https://wm.makeding.com/iclk/?zoneid58824 1. 易于使用和管理: Tuxera NTFS的界面设计简洁直观,用户无需复杂的设置和配置即可轻松上手。无论是对于普通用户…

机器视觉【3】非线性求解相机几何参数

线性求解相机几何参数的缺点 上一章节介绍学习了(DLT)线性求解相机几何参数,了解到线性求解法当中比较明显的缺点: 没有考虑到镜头畸变的影响不能引入更多的约束条件融入到DLT算法当中优化最关键的是,代数距离并不是…

Sora给中国AI带来的真实变化

OpenAI的最新技术成果——文生视频模型Sora,在春节假期炸裂登场,令海内外的AI从业者、投资人彻夜难眠。 如果你还没有关注到这个新闻,简单介绍一下:Sora是OpenAI使用超大规模视频数据,训练出的一个通用视觉模型&#x…

源 MySQL 5.7 Community Server 的 GPG 密钥已安装,但是不适用于此软件包。请检查源的公钥 URL 是否配置正确。

源 "MySQL 5.7 Community Server" 的 GPG 密钥已安装,但是不适用于此软件包。请检查源的公钥 URL 是否配置正确。 问题描述: 服务器上安装mysql时 或 执行更新mysql 安装包的时候,出现了报错,简单记录下解决方案 执行…

ClickHouse快速上手

简介 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS) 官网(https://clickhouse.com/docs/zh)给出的定义,其实没看懂 特性 ClickHouse支持一种基于SQL的声明式查询语言,它在许多情况下与ANSI SQL标准相同。使用时和MySQL有点相似&#…

JAVA设计模式结构型模式

一、前言 java设计模式主要分为创建型模式,结构型模式和行为型模式。上一篇主要总结了行为型设计模式,本章总结,结构型模式。像创建型模式就不写了,比较简单。大概知道是工厂模式和建造者模式,原型模式就行&#xff0…

CTFHub技能树web之RCE(二)

第五题:远程包含 根据题目,使用远程包含进行 打开phpinfo,可以看到allow_url_fopen和allow_url_include都是On,因此可以使用php://input,由于代码会检查file中的内容,因此不能够使用php://filter包含文件&a…

Unreadable-Mesh内存占用翻倍问题

1)Unreadable-Mesh内存占用翻倍问题 2)在TMP中计算书名号《》高度的问题 3)Mipmap如何限定层级 4)FMOD设置中关于Virtual Channel Count&Real Channel Count的参数疑问 这是第374篇UWA技术知识分享的推送,精选了UW…

Code Composer Studio (CCS) - Simulators (模拟器)

Code Composer Studio [CCS] - Simulators [模拟器] 1. simulators2. root directoryReferences 1. simulators CCSv6 does NOT have any simulators. Texas Instruments is moving away from providing simulators and instead is focusing on providing low cost developmen…

STM32使用软件SPI协议操作TFT18彩屏

时间记录:2024/2/20 一、SPI协议介绍 (1)SPI设备通过4根线进行通信,CS片选线,选择从设备,SCK时钟线,由主设备产生时钟,主机MOSI线连从机MISO线,由主机向从机发送信息&am…

淘宝商品采集API通过商品id获取商品详情信息

item_get-获得淘宝商品详情 item_get_app-获得淘宝app商品详情原数据 item_get_pro-获得淘宝商品详情高级版 item_search-按关键字搜索淘宝商品 公共参数 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_…

R语言如何对excel数据进行操作

在R语言中,可以使用readxl包来读取和操作Excel数据。首先,需要安装readxl包,可以使用以下命令安装: install.packages("readxl") 安装完成后,加载readxl包: library(readxl) 读取Excel文件&a…

配置基于 AWS CRT 的 HTTP 客户端

基于 AWS CRT 的 HTTP 客户端包括同步 AwsCrtHttpClient 和异步 AwsCrtAsyncHttpClient。基于 AWS CRT 的 HTTP 客户端具有以下 HTTP 客户端优势: 更快的 SDK 启动时间 更小的内存占用空间 降低的延迟时间 连接运行状况管理 DNS 负载均衡 SDK 中基于 AWS CRT …

【MySQL】事务的一致性究竟怎么理解?

众所周知,事务有四大特性:原子性、一致性、隔离性、持久性,除了一致性,其他三类特性都很好理解。而关于一致性的解释有点让人头疼,我查了很多文章,大多类似:事务的执行必须使数据库处于一致状态…

CMake与vs的配置对应(常规->附加包含目录,链接器->输入)

常规->附加包含目录 对应CMake的 include_directories(${QT_PATH}/include) 写在 add_executable 前面 链接器->输入 对应CMake的 target_link_libraries(${PROJECT_NAME} xx.lib) 写在 add_executable 后面

微服务—DSL基础语法与RestClient操作

本博客为个人学习笔记,学习网站:黑马程序员SpringCloud 2021教程 目录 DSL语法 索引库操作 mapping属性 创建索引库 字段拷贝 查询、删除、修改索引库 文档操作 新增文档 查询、删除文档 修改文档 全量修改 增量修改 DSL文档语法小结 Rest…