1.2 ARCHITECTURE OF A MODERN GPU

图1.2显示了典型的支持CUDA的GPU架构的高级视图。它被组织成一系列高线程的流式多处理器(SM)。在图中1.2,两个SM构成一个 block。然而,构建块中的SM数量可能因代而异。此外,在图中,每个SM都有多个共享控制逻辑和指令缓存的流处理器(SP)。每个GPU目前都配有千兆字节的图形双数据速率(GDDR)、同步DRAM(SDRAM),在图1.2中称为全局内存。
在这里插入图片描述GDDR SDRAM与CPU主板上的系统DRAM不同,因为它们本质上是用于图形的帧缓冲内存。对于gqraphics应用程序,它们保存视频图像和纹理信息用于3D渲染。对于计算来说,它们作为非常高带宽的片外内存,尽管延迟比典型的系统内存要长一些对于大规模并行应用程序,更高的带宽弥补了更长的延迟。较新的产品,如NVIDIA的Pascal架构,可能使用高带宽内存(HBM)或HBM2架构。为了简洁起看,我们将简单地将所有这些类型的内存称为本书其余部分的DRAM。

G80引入了CUDA架构,并通过PCI-Express第2代(Gen2)接口具有与CPU核心逻辑的通信链路。通过PCI-E Gen2,CUDA应用程序可以以4 GB/S的方式将数据从系统内存传输到全局内存,同时以4 GB/S的方式将数据上传回系统内存。总共有8 GB/S。较新的GPU使用PCI-E Gen3或Gen4,每个方向支持8-16 GB/s。Pascal系列GPU还支持NVLINK,这是一种CPU-GPU和GPU-GPU互连,允许每个通道传输高达40 GB/s。随着GPU内存大小的增长,应用程序越来越多地将其数据保存在全局内存中,并且仅在需要使用仅在CPU上可用的库时偶尔使用PCI-E或NVLINK与CPU系统内存通信。未来,随着系统内存的CPU总线带宽的增长,通信带宽预计也会增长。

一个好的应用程序通常在这个芯片上同时运行5000到12,000个线程。对于那些习惯于CPU多线程的人来说,请注意,英特尔CPU支持每个核心的2或4个线程,具体取决于机器型号。然而,CPU越来越多地使用单指令多数据(SIMD)指令以获得高数值性能。GPU硬件和CPU硬件支持的并行性水平正在迅速提高。因此,在开发计算应用程序时,努力实现高水平的并行性非常重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/603848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

复试 || 就业day11(2024.01.07)算法篇

文章目录 前言数组序号转换检查整数及其两倍数是否存在有多少小于当前数字的数字上升下降字符串找出数组中的幸运数统计最大组的数目 前言 💫你好,我是辰chen,本文旨在准备考研复试或就业 💫文章题目大多来自于 leetcode&#xff…

书生·浦语大模型第二课作业

作业一:小故事创作 作业要求:使用 InternLM-Chat-7B 模型生成 300 字的小故事(需截图) 完成情况: 作业二:熟悉 hugging face 下载功能 作业要求:熟悉 hugging face 下载功能,使用…

基于Springboot的摄影跟拍预定管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的摄影跟拍预定管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系…

使用 openpyxl 库读取 Excel 文件

使用 openpyxl 库来读取 Excel 文件中特定行和列的值: 通过 openpyxl.load_workbook() 函数加载 Excel 文件, 使用 worksheet.cell() 方法获取指定行和列的单元格,并返回其值 注:在运行代码之前确保已安装 openpyxl 库,并且输入…

网络通信(10)-C#TCP客户端实例

本文使用Socket在C#语言环境下完成TCP客户端的实例。 实例完成的功能: 客户端与服务器连接,实现实时刷新状态。 客户端接收服务器的数据。 客户端发送给服务器的数据。 客户端实时判定状态,断开连接后自动重连。 客户端与服务器端发送心跳包。 在VS中创建C# Winform项…

【影刀RPA_如何使用影刀的企业微信指令?】

思路:先用python代码过一遍,再将必要参数填到指令里面。 第一步: 1、在企业微信后台新建应用,设置消息接收地址(需要服务器的公网ip地址),进行签名验证。然后,从浏览器中查询ip地址…

Java、Python、C++和C#的界面开发框架和工具的重新介绍

好的,以下是Java、Python、C和C#的界面开发框架和工具的重新介绍: Java界面开发: Swing: 是Java提供的一个基于组件的GUI工具包,可以创建跨平台的图形用户界面。它提供了丰富的组件和布局管理器,使得界面开发相对简单。…

如何使用 CMake 来构建一个共享库(动态库)

tutorial_4/CMakeLists.txt # 声明要求的 cmake 最低版本 cmake_minimum_required( VERSION 2.8 )# 声明一个 cmake 工程 project( HelloSLAM )add_subdirectory(src)tutorial_4/src/CMakeLists.txt #工程添加多个特定的头文件搜索路径 include_directories(include)set(LIBR…

Debian 12

debian | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror apt update & apt upgrade apt dist-upgrade apt-get install fcitx fcitx-*pinyin* dpkg-configure tzdata sudo sh -c dpkg-configure tzdata date -R apt --fix-broken install…

nodejs 不用 electron 实现打开文件资源管理器并选择文件

前言 最近在开发一些小脚本,用 nodejs 实现。其中很多功能需要选择一个/多个文件,或者是选择一个文件夹。 最初的实现是手动输入一个目录(这个只是一个普通的终端文本输入,所以按下 tab 没有路径提示),非…

UNION 和 UNION ALL

概述 UNION 和 UNION ALL 都是 SQL 中用于将多个 SELECT 语句的结果合并成一个结果集的操作符。它们都适用于需要将多个表或查询结果合并在一起的情况。但是它们的行为略有不同。 区别 UNION 和 UNION ALL 的区别在于,UNION 会将结果集合并成一个不含重复行的结果…

java springboot 目录组织架构介绍

推荐的package组织方式 com- example- myproject // root packagecom.example.myproject,所有的类和其他package都在root package之下。- Application.java // 应用主类- domain // 用于定义实体映射关系与数据访问相关的接口和实现| - Customer.java| - Custom…

实现并解决微服务间OpenFeign转发文件格式MultipartFile

场景 使用openfeign转发MultipartFile类型的文件时出现了下面的错误。 PostMapping(value "/upload", consumes MediaType.MULTIPART_FORM_DATA_VALUE) ApiOperation(value "导入") public ResponseJson<String> uploadFiles(RequestParam(&quo…

通过IP地址如何进行网络安全防护

IP地址在网络安全防护中起着至关重要的作用&#xff0c;可以用于监控、过滤和控制网络流量&#xff0c;识别潜在威胁并加强网络安全。以下是通过IP地址进行网络安全防护的一些建议&#xff1a; 1. 建立IP地址白名单和黑名单&#xff1a; 白名单&#xff1a;确保只有授权的IP地…

MySQL——用户管理

目录 一.用户管理 二.用户 1.用户信息 2.创建用户 3.删除用户 4. 修改用户密码 三.数据库的权限 1.给用户授权 2.回收权限 一.用户管理 如果我们只能使用root用户&#xff0c;root的权限非常大,这样存在安全隐患。这时&#xff0c;就需要使用MySQL的用户管理&#xff…

Java中的Stream API进阶使用

Java的Stream API是Java 8引入的一个强大的功能&#xff0c;它允许以声明性方式处理数据集合&#xff0c;例如过滤、映射、排序等。下面是一些Stream API的进阶使用&#xff1a; 自定义中间操作&#xff1a;你可以定义自己的中间操作&#xff0c;然后在Stream上使用它。例如&am…

2.5 KERNEL FUNCTIONS AND THREADING

我们现在准备讨论更多关于CUDA内核功能以及启动这些内核功能的效果。在CUDA中&#xff0c;内核函数指定所有线程在并行阶段执行的代码。由于所有这些线程执行相同的代码&#xff0c;CUDA编程是众所周知的单程序多数据&#xff08;SPMD&#xff09;[Ata 1998]并行编程风格的实例…

相交链表【哈希】【双指针】

Problem: 160. 相交链表 文章目录 思路 & 解题方法复杂度哈希技巧 思路 & 解题方法 可以用hash做&#xff0c;也可以做一个技巧。 复杂度 时间复杂度: 添加时间复杂度, 示例&#xff1a; O ( n ) O(n) O(n) 空间复杂度: 添加空间复杂度, 示例&#xff1a; O ( n ) O…

每天刷两道题——第七天+第八天

力扣官网 1.1移动零 给定一个数组 n u m s nums nums&#xff0c;编写一个函数将所有 0 移动到数组的末尾&#xff0c;同时保持非零元素的相对顺序&#xff0c;在不复制数组的情况下原地对数组进行操作。 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0] 代码 def moveZeroea…

强化学习的数学原理学习笔记 - 蒙特卡洛方法(Monte Carlo)

文章目录 概览&#xff1a;RL方法分类蒙特卡洛方法&#xff08;Monte Carlo&#xff0c;MC&#xff09;MC BasicMC Exploring Starts&#x1f7e6;MC ε-Greedy 本系列文章介绍强化学习基础知识与经典算法原理&#xff0c;大部分内容来自西湖大学赵世钰老师的强化学习的数学原理…