大语言模型的工程技巧(一)——GPU计算

相关说明

这篇文章的大部分内容参考自我的新书《解构大语言模型:从线性回归到通用人工智能》,欢迎有兴趣的读者多多支持。
本文涉及到的代码链接如下:regression2chatgpt/ch07_autograd/gpu.ipynb

本文将讨论如何利用PyTorch实现GPU计算。本文讨论的内容将在后续的模型搭建中应用非常广泛:

  • 利用神经网络学习语言(五)——长短期记忆网络(LSTM)
  • 理解大语言模型(二)——从零开始实现GPT-2

关于GPU更多的使用技巧请参考:大语言模型的工程技巧(二)——混合精度训练

内容大纲

  • 相关说明
  • 一、概述
  • 二、CPU v.s. GPU
  • 三、代码实现

一、概述

在人工智能领域,模型运算通常涉及大量可以并行执行的操作。以简单的线性回归模型为例,如图1所示,在单个数据点的模型运算中,相应的计算节点之间并没有依赖关系,每个乘法操作都可以并行执行。从数学角度来看,这样的运算可以表示为张量的矩阵乘法,产生单一的数值输出。

图1

图1

对于只有一个输出值的矩阵乘法,都可以使用并行计算来提高执行速度。更进一步,如果考虑多个模型对多个数据点的运算,相应的矩阵乘法输出是一个张量,而这个张量中的每个元素的运算都是相互独立的,这使得并行执行更加可行。类似地,张量的其他运算,例如加法和减法,也可以通过并行执行来加速计算。在神经网络领域,这一点尤为重要,因为神经网络中包含多个线性模型。整个运算过程中涉及大量的张量运算,如何有效加速这些运算过程成为这个领域工程实现中要考虑的首要问题。

二、CPU v.s. GPU

默认情况下,在提到计算机运算时,通常指的是由中央处理器(CPU)作为计算核心执行的运算任务。然而,CPU的设计原则使它并不擅长处理并行计算。举个例子,考虑矩阵乘法,如图2所示,CPU会按顺序逐个元素相乘,导致整个运算过程时间过长。虽然我们可以利用多核CPU进行并行计算以加速任务,但多核CPU价格昂贵,在实际应用中难以普及。

图2

图2

与CPU不同,GPU(图形处理器)最初是为图形处理而设计的,属于边缘计算组件。它通常拥有大量的计算核心(有时高达上千个),可以并行地执行大量的简单计算任务。因此,使用GPU进行张量运算能够显著缩短运算时间。对于神经网络而言,这一点具有重要意义,它使得构建更大、更复杂的模型成为可能(使用GPU,模型训练时间可以从几年缩短到几天)。事实上,GPU的大规模应用是神经网络,尤其是深度学习得以迅猛发展的原因之一。因此,在涉及神经网络模型的实际应用中,总是优先考虑使用GPU作为计算的核心(这是编程领域一次重大的范式转变)。随着神经网络的迅猛发展,业界甚至在考虑重新设计计算机架构来提升GPU在硬件中的地位,以便更好地适应这一快速发展的领域。

三、代码实现

借助PyTorch(基于CUDA1)在GPU计算方面的卓越工作,GPU计算的代码实现并不复杂。如程序清单7-9所示(完整代码),只需简单地将数据移动到相应的GPU中即可。与CPU的架构设计不同,GPU无法直接读取在内存(RAM)中的数据进行运算,因此需要将数据复制到GPU专用的内存(GPU Dedicated Memory)中。同理,GPU也不支持跨计算核心的运算。这包括跨CPU和GPU的计算,因为数据一部分存放在内存中,另一部分存放在GPU专用内存中;以及跨不同GPU的计算,因为数据分布在不同的GPU专用内存中。在实际使用中,面对这样的需求,需要在进行计算之前将数据移动到同一个计算核心上。

程序清单1 GPU计算
 1 |  # 检查是否有GPU2 |  torch.cuda.is_available()        # True3 |  # GPU的个数4 |  torch.cuda.device_count()        # 15 |  # 默认情况下,创建的张量存放在内存中,使用CPU进行计算6 |  x = torch.randn(2, 3)7 |  print(x.is_cuda)                 # False8 |  # 可以使用张量提供的函数,将数据移到GPU上9 |  # 当有n个GPU时,相应的设备id是cuda:0, cuda:0,... ,cude:n-1
10 |  print(x.to('cuda:0').is_cuda)    # True
11 |  # 在创建张量时,通过指定device将张量移到GPU上 
12 |  y = torch.randn(2, 3, device='cuda:0')
13 |  print(y.is_cuda)                 # True
14 |  print(y.to('cpu').is_cuda)       # False
15 |  # 不支持跨计算核心运算
16 |  x + y                            # error

想要正确使用GPU进行计算,关键是要充分利用其并行计算的特性,而不是仅仅进行串行计算,图3所示的例子很好地阐述了这个观点。当计算任务主要是串行的时,CPU往往比GPU更具优势。当计算任务能够被有效地并行化时,GPU的优势才能充分显现出来。

图3

图3


  1. CUDA(Compute Unified Device Architecture)是由NVIDIA开发的并行计算平台和编程模型。它允许开发者利用NVIDIA的GPU进行通用目的的并行计算,包括科学计算、机器学习、深度学习等领域的任务。CUDA的出现彻底改变了GPU的角色,使其从原本的图形渲染加速变为通用计算的利器。使用CUDA,开发者可以将计算任务分配到GPU上,并利用其大量的计算核心实现并行处理,从而大幅提升计算速度。
    为了使用CUDA,开发者需要编写基于CUDA的GPU核心代码,然后通过相应的编译工具将其与CPU代码结合起来,以充分利用GPU的计算能力。同时,许多深度学习框架(如TensorFlow、PyTorch等)也提供了对CUDA的支持,使开发者能够更方便地在GPU上进行模型训练和推断。 ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/839917.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见的几种数据库通过SQL对表信息进行查询

一、前言 我们查询数据库表的信息,一般都使用界面化的连接工具查看,很少使用SQL语句去查,而且不同的数据库SQL语句又各自有差异。但如果通过代码去获取数据库表的信息,这时就需要通过SQL语句去查了,这个在逆向代码生成…

翻转列表-力扣

题目 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1]示例 2: 输入:head [1,2] 输出:[2,1]示例 3: …

CGAN|生成手势图像|可控制生成

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍦 参考文章:TensorFlow入门实战|第3周:天气识别🍖 原作者:K同学啊|接辅导、项目定制 CGAN(条件生成对抗网络&#xf…

pytorch-13_2 模型结构选择策略:层数、激活函数、神经元个数

一、拟合度概念 在所有的模型优化问题中,最基础的也是最核心的问题,就是关于模型拟合程度的探讨与优化。根据此前的讨论,模型如果能很好的捕捉总体规律,就能够有较好的未知数据的预测效果。但限制模型捕捉总体规律的原因主要有两点…

C++:vector基础讲解

hello,各位小伙伴,本篇文章跟大家一起学习《C:vector基础讲解》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 如果本篇文章对你有帮助,还请各位点点赞!&#…

day15|各种遍历的应用

相关题目&#xff1a; 层次遍历会一打十 反转二叉树 对称二叉树 层次遍历会一打十 自底向上的层序遍历 实现思路&#xff1a;层次遍历二叉树&#xff0c;将遍历后的结果revers即可 public List<List<Integer>> levelOrderBottom(TreeNode root) {List<List&l…

框架学习之SpringMVC学习笔记(一)

一、SpringMVC简介 1-介绍 Spring Web MVC是基于Servlet API构建的原始Web框架&#xff0c;从一开始就包含在Spring Framework中。正式名称“Spring Web MVC”来自其源模块的名称&#xff08; spring-webmvc &#xff09;&#xff0c;但它通常被称为“Spring MVC”。 在控制层…

一文深度剖析 ColBERT

近年来&#xff0c;向量搜索领域经历了爆炸性增长&#xff0c;尤其是在大型语言模型&#xff08;LLMs&#xff09;问世后。学术界开始重点关注如何通过扩展训练数据、采用先进的训练方法和新的架构等方法来增强 embedding 向量模型。 在之前的文章中&#xff0c;我们已经深入探…

记录踩坑事件 分页查询order by出现重复数据bug

MySQL排序小坑_mysql order by name相同导致排序混乱-CSDN博客 1、问题描述 列表页分页查询出现重复数据。 2、问题排查 排查最终执行sql日志。 select * from tableA where (start_time>2024-04-17 00:00:00) AND (start_time<2024-05-18 00:00:00) ORDER BY sta…

AIGC基础教学:AI+建筑设计,一场划时代变革的序幕已经拉开

2015年9月&#xff0c;美的集团本着把艺术融入民间的理念&#xff0c;邀请了安藤忠雄设计正在筹建中的美术馆。 在历经长达近120天的设计工作之后&#xff0c;美术馆于同年12月动工。这座具有岭南建筑文化意境的美术馆&#xff0c;后来荣获2020年美国建筑大师奖(Architecture …

【ArcGIS微课1000例】0112:沿线(面)按距离或百分比生成点

文章目录 一、沿线生成点工具介绍二、线状案例三、面状案例一、沿线生成点工具介绍 位置:工具箱→数据管理工具→采样→沿线生成点 摘要:沿线或面以固定间隔或百分比创建点要素。 用法:输入要素的属性将保留在输出要素类中。向输出要素类添加新字段 ORIG_FID,并设置为输…

Java.lang.InterruptedException被中止异常解决方案

大家好&#xff01;我是咕噜铁蛋&#xff01;在Java编程的世界里&#xff0c;java.lang.InterruptedException是一个常见的异常&#xff0c;尤其是在处理多线程和并发任务时。这个异常通常表示一个线程在等待、休眠或其他占用时间不长的操作时被中断。作为一个资深的Java开发者…

Navicat 连接 OceanBase 快速入门 | 社区版

Navicat Premium&#xff08;16.1.9或更高版本&#xff09;正式支持 OceanBase全线数据库产品。OceanBase为现代数据架构打造的开源分布式数据库。兼容 MySQL 的单机分布式一体化国产开源数据库&#xff0c;具有原生分布式架构&#xff0c;支持金融级高可用、透明水平扩展、分布…

CCF CAT- 全国算法精英大赛(2024第二场)往届真题练习 2 | 珂学家

前言 这是第二场CCF的练习赛&#xff0c;找找手感&#xff0c;顺便熟悉下赛氪OJ平台。 当前就做了5题&#xff0c;感觉还可以&#xff0c;部分题目质量蛮高的&#xff0c;但是易错。 第1题dp入门题&#xff0c; 第5属于诈骗题&#xff0c;第2和第3挺有难度的&#xff0c;第四…

【杂七杂八】Huawei Gt runner手表系统降级

文章目录 Step1&#xff1a;下载安装修改版华为运动与健康Step2&#xff1a;在APP里进行配置Step3&#xff1a;更新固件(时间会很长) 目前在使用用鸿蒙4 111版本的手表系统&#xff0c;但是感觉睡眠检测和运动心率检测一言难尽&#xff0c;于是想到是否能回退到以前的版本&…

设计模式14——组合模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用&#xff0c;主要是下面的UML图可以起到大作用&#xff0c;在你学习过一遍以后可能会遗忘&#xff0c;忘记了不要紧&#xff0c;只要看一眼UML图就能想起来了。同时也请大家多多指教。 组合模式&#xff08;Composit…

LeetCode199二叉树的右视图

题目描述 给定一个二叉树的 根节点 root&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节点值。 解析 这一题的关键其实就是找到怎么去得到当前是哪一层级&#xff0c;可以利用队列对二叉树进行层次遍历&#xff0c;但…

ICRA 2024: NVIDIA 联合多伦多大学、加州大学伯克利分校、苏黎世联邦理工学院等研究人员开发了精细操作的手术机器人

英伟达&#xff08;NVIDIA&#xff09;正与学术研究人员合作&#xff0c;研究手术机器人。 NVIDIA 联合多伦多大学、加州大学伯克利分校、苏黎世联邦理工学院和佐治亚理工学院的研究人员开发了 ORBIT-Surgical&#xff0c;一个训练机器人的模拟框架&#xff0c;可以提高手术团…

vue3的api风格

Vue的组件有两种不同的风格&#xff1a;组合式API 和 选项式API 选项式api 选项式API&#xff0c;可以用包含多个选项的对象来描述组件的逻辑&#xff0c;如&#xff1a;data&#xff0c;methods&#xff0c;mounted等。 组合式api setup&#xff1a;是一个标识&#xff0c;告…

图像上下文学习|多模态基础模型中的多镜头情境学习

【原文】众所周知&#xff0c;大型语言模型在小样本上下文学习&#xff08;ICL&#xff09;方面非常有效。多模态基础模型的最新进展实现了前所未有的长上下文窗口&#xff0c;为探索其执行 ICL 的能力提供了机会&#xff0c;并提供了更多演示示例。在这项工作中&#xff0c;我…