【AI系统】Ascend C 编程范式

Ascend C 编程范式

AI 的发展日新月异,AI 系统相关软件的更新迭代也是应接不暇,作为一本讲授理论的作品,我们将尽可能地讨论编程范式背后的原理和思考,而少体现代码实现,以期让读者理解 Ascend C 为何这样设计,进而随时轻松理解最新的 Ascend C 算子的编写思路。

本文将针对 Ascend C 的编程范式进行详细讲解,重点讲授向量计算编程范式。

向量编程范式

基于 Ascend C 编程范式的方式实现自定义向量算子的流程如下图所示,由三个步骤组成:算子分析是进行编程的前置任务,负责明确自定义算子的各项需求,如输入输出、使用 API 接口等;核函数的定义和封装是编程的第一步,负责声明核函数的名称,并提供进入核函数运算逻辑的接口;基于算子需求实现算子类是整个核函数的核心计算逻辑,其由被分为内存初始化、数据搬入、算子计算逻辑实现、数据搬出四个部分,后三者被又被称为算子的实现流程。

在这里插入图片描述

自定义向量算子核心部分一般由两个函数组成,分别是 Init() 函数(初始化函数)与 Process() 函数(执行函数)。Init() 函数完成板外数据定位以及板上内存初始化工作;Process() 函数完成向量算子的实现,分成三个流水任务:CopyIn、Compute、CopyOut。CopyIn 负责板外数据搬入,Compute 负责向量计算,CopyOut 负责板上数据搬出。

流水线任务之间存在数据依赖,需要进行数据传递。Ascend C 中使用 TQue 队列完成任务之间的数据通信和同步,提供 EnQue、DeQue 等基础 API;TQue 队列管理不同层级的物理内存时,用一种抽象的逻辑位置(TPosition)来表达各级别的存储,代替了片上物理存储的概念,开发者无需感知硬件架构。另外,Ascend C 使用 GlobalTensorLocalTensor 作为数据的基本操作单元,它是各种指令 API 直接调用的对象,也是数据的载体。在向量编程模型中,使用到的 TQue 类型如下:搬入数据的存放位置 VECIN、搬出数据的存放位置 VECOUT。

在本节中,我们将从 add_custom 这一基本的向量算子着手,根据自定义算子的开发流程,逐步介绍如何根据向量编程范式逐步编写自定义向量算子,最后会介绍 Ascend C 向量编程如何进行数据切分。

算子分析

在开发算子代码之前需要分析算子的数学表达式、输入、输出以及计算逻辑的实现,明确需要调用的 Ascend C 接口。

  1. 明确算子的数学表达式

Ascend C 提供的向量计算接口的操作元素都为 LocalTensor,输入数据需要先搬运进片上存储,以 Add 算子为例,数学表达式为:z=x+y,使用计算接口完成两个输入参数相加,得到最终结果,再搬出到外部存储上。

  1. 明确输入和输出

Add 算子有两个输入:x 与 y,输出为 z。

本样例中算子的输入支持的数据类型为 half(float16),算子输出的数据类型与输入数据类型相同。

算子输入支持 shape(8,2048),输出 shape 与输入 shape 相同。算子输入支持的数据格式(shape)为:ND。

  1. 确定算子实现所需接口

使用 DataCopy 来实现数据搬移;由于向量计算实现较为简单,使用基础 API 完成计算逻辑的实现,在加法算子中使用双目指令接口 Add 实现 x+y;使用 EnQue、DeQue 等接口对 TQue 队列进行管理。

核函数定义与封装

在完成算子分析后,可以正式开始开发算子代码,其第一步应该完成对于核函数的定义和封装。在本小节将介绍如何对函数原型进行定义,并介绍核函数定义中应该遵循的规则;随后将介绍函数原型中所需实现的内容;最后本小节将完成核函数的封装,便于后续对于核函数的调用。

  1. 函数原型定义

本样例中,函数原型名为 add_custom,根据算子分析中对算子输入输出的分析,确定有 3 个参数 x,y,z,其中 x,y 为输入内存,z 为输出内存。

根据核函数定义的规则,使用__global__函数类型限定符来标识它是一个核函数,可以被<<<...>>>调用;使用__aicore__函数类型限定符来标识该核函数在设备端 AI Core 上执行;为方便起见,统一使用 GM_ADDR 宏修饰入参,表示其为入参在内存中的位置。add_custom 函数原型的定义见下方程序第 1 行所示。

  1. 调用算子类的 Init 和 Process 函数

在函数原型中,首先实例化对应的算子类,并调用该算子类的 Init()Process() 函数,如下方程序第 2-4 行所示。其中,Init() 函数负责内存初始化相关工作,Process() 函数则负责算子实现的核心逻辑。

  1. 对核函数的调用进行封装

对核函数的调用进行封装,得到 add_custom_do 函数,便于主程序调用。下方程序第 6 行所示内容表示该封装函数仅在编译运行 NPU 侧的算子时会用到,编译运行 CPU 侧的算子时,可以直接调用 add_custom 函数。

调用核函数时,除了需要传入参数 x,y,z,还需要使用<<<…>>>传入 blockDim(核函数执行的核数), l2ctrl(保留参数,设置为 nullptr), stream(应用程序中维护异步操作执行顺序的任务流对象)来规定核函数的执行配置,如下方程序第 10 行所示。

extern "C" __global__ __aicore__ void add_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z){KernelAdd op;op.Init(x, y, z);op.Process();
}#ifndef __CCE_KT_TEST__// call of kernel function
void add_custom_do(uint32_t blockDim, void* l2ctrl, void* stream, uint8_t* x, uint8_t* y, uint8_t* z){add_custom<<<blockDim, l2ctrl, stream>>>(x, y, z);
}#endif

算子数据通路

前文已经提到过在 Process() 函数中存在三个流水任务,分别是 CopyIn、Compute 和 CopyOut。本节将详细讲解数据在这三个任务之间的传递过程,并为后续使用 Ascend C 对其进行实现作铺垫。

向量算子三阶段任务流水的数据通路如下图所示。

在这里插入图片描述

上图纵向分为 2 部分,上部分为发生在外部存储(Global Memory)中的数据流通过程,下部分为发生在 AI Core 内(Local Memory)中的数据流通过程;横向分为 3 部分,指代 CopyIn、Compute 和 CopyOut 这三个阶段中的数据流通过程。发生在 AI Core 内的任务间数据传递统一由 TPipe 资源管理模块进行管理。

在 CopyIn 任务中,需要先将执行计算的数据 xGm、yGm 从外部存储通过 DataCopy 接口传入板上,存储为 xLocal、yLocal,并通过 EnQue 接口传入数据搬入队列 inQueueX、inQueueY 中,以便进行流水模块间的数据通信与同步。

在 Compute 任务中,需要先将 xLocal、yLocal 使用 DeQue 接口从数据搬入队列中取出,并使用相应的向量运算 API 执行计算操作得到结果 zLocal,并将 zLocal 通过 EnQue 接口传入数据搬出队列 outQueueZ 中。

在 CopyOut 任务中,需要先将结果数据 zLocal 使用 DeQue 接口从数据搬出队列中取出,并使用 DataCopy 接口将板上数据传出到外部存储 zGm 中。

上述为向量算子核心处理部分的数据通路,同时也作为一个程序设计思路,下面将介绍如何用 Ascend C 对其进行实现。

算子类实现

在对核函数的声明和定义中,我们会提到需要实例化算子类,并调用其中的两个函数来实现算子。在本节中,将首先展示算子类的成员,随后具体介绍 Init() 函数和 Process() 函数的作用与实现。

  1. 算子类成员定义

算子类的成员如下方程序所示。如第 4-5 行所示,在算子类中,需要声明对外开放的内存初始化函数 Init() 和核心处理函数 Process()。而为了实现适量算子核内计算流水操作,在向量算子中我们又将 Process()函数分为三个部分,即数据搬入阶段 CopyIn()、计算阶段 Compute()与数据搬出阶段 CopyOut()三个私有类成员,见第 6~9 行。

除了这些函数成员声明外,第 10-14 行还依次声明了内存管理对象 pipe、输入数据 TQue 队列管理对象 inQueueX 和 inQueueY、输出数据 TQue 队列管理对象 outQueueZ 以及管理输入输出 Global Memory 内存地址的对象 xGm,yGm 与 zGm,这些均作为私有成员在算子实现中被使用。

class KernelAdd {public:__aicore__ inline KernelAdd() {} __aicore__ inline void Init(GM_ADDR x, GM_ADDR y, GM_ADDR z){} __aicore__ inline void Process(){}private:__aicore__ inline void CopyIn(int32_t progress){}__aicore__ inline void Compute(int32_t progress){}__aicore__ inline void CopyOut(int32_t progress){}private:TPipe pipe; TQue<TPosition::VECIN, BUFFER_NUM> inQueueX, inQueueY;  TQue<TPosition::VECOUT, BUFFER_NUM> outQueueZ;  GlobalTensor<half> xGm, yGm, zGm;  
};
  1. 初始化函数 Init()函数实现

在多核并行计算中,每个核计算的数据是全部数据的一部分。Ascend C 核函数是单个核的处理函数,所以我们需要获取每个核负责的对应位置的数据。此外,我们还需要对于声明的输入输出 TQue 队列分配相应的内存空间。

Init() 函数实现见下方程序。第 2~5 行通过计算得到该核所负责的数据所在位置,其中 x、y、z 表示 3 个入参在片外的起始地址;BLOCK_LENGTH 表示单个核负责的数据长度,为数据全长与参与计算核数的商;GetBlockIdx()是与硬件感知相关的 API 接口,可以得到核所对应的编号,在该样例中为 0-7。通过这种方式可以得到该核函数需要处理的输入输出在 Global Memory 上的内存偏移地址,并将该偏移地址设置在 Global Tensor 中。

第 6~8 行通过 TPipe 内存管理对象为输入输出 TQue 分配内存。其调用 API 接口 InitBuffer(),接口入参依次为 TQue 队列名、是否启动 double buffer 机制以及单个数据块的大小(而非长度)。

1   __aicore__ inline void Init(GM_ADDR x, GM_ADDR y, GM_ADDR z)
2   {
3       xGm.SetGlobalBuffer((__gm__ half*)x + BLOCK_LENGTH * GetBlockIdx(), BLOCK_LENGTH);
4       yGm.SetGlobalBuffer((__gm__ half*)y + BLOCK_LENGTH * GetBlockIdx(), BLOCK_LENGTH);
5       zGm.SetGlobalBuffer((__gm__ half*)z + BLOCK_LENGTH * GetBlockIdx(), BLOCK_LENGTH);
6       pipe.InitBuffer(inQueueX, BUFFER_NUM, TILE_LENGTH * sizeof(half));
7       pipe.InitBuffer(inQueueY, BUFFER_NUM, TILE_LENGTH * sizeof(half));
8       pipe.InitBuffer(outQueueZ, BUFFER_NUM, TILE_LENGTH * sizeof(half));
9   }
  1. 核心处理函数 Process()函数实现

基于向量编程范式,将核函数的实现分为 3 个基本任务:CopyIn,Compute,CopyOut,Process() 函数通过调用顺序调用这三个基本任务完成核心计算任务。然而考虑到每个核内的数据仍然被进一步切分成小块,需要循环执行上述步骤,从而得到最终结果。Process() 函数的实现如下方程序所示。

1   public:
2       __aicore__ inline void Process()
3       {
4           constexpr int32_t loopCount = TILE_NUM * BUFFER_NUM;
5           for (int32_t i = 0; i < loopCount; i++) {
6               CopyIn(i);
7               Compute(i);
8               CopyOut(i);
9           }
10      }
11  private:
12      __aicore__ inline void CopyIn(int32_t progress)
13      {
14          LocalTensor<half> xLocal = inQueueX.AllocTensor<half>();
15          LocalTensor<half> yLocal = inQueueY.AllocTensor<half>();16          DataCopy(xLocal, xGm[progress * TILE_LENGTH], TILE_LENGTH);
17          DataCopy(yLocal, yGm[progress * TILE_LENGTH], TILE_LENGTH);18          inQueueX.EnQue(xLocal);
19          inQueueY.EnQue(yLocal);
20      }
21      __aicore__ inline void Compute(int32_t progress)
22      {
23          LocalTensor<half> xLocal = inQueueX.DeQue<half>();
24          LocalTensor<half> yLocal = inQueueY.DeQue<half>();
25          LocalTensor<half> zLocal = outQueueZ.AllocTensor<half>();26          Add(zLocal, xLocal, yLocal, TILE_LENGTH);
27          outQueueZ.EnQue<half>(zLocal);28          inQueueX.FreeTensor(xLocal);
29          inQueueY.FreeTensor(yLocal);
30      }
31      __aicore__ inline void CopyOut(int32_t progress)
32      {
33          LocalTensor<half> zLocal = outQueueZ.DeQue<half>();
34          DataCopy(zGm[progress * TILE_LENGTH], zLocal, TILE_LENGTH);
35          outQueueZ.FreeTensor(zLocal);
36      }

如上方程序第 4-9 行所示,Process() 函数需要首先计算每个核内的分块数量,从而确定循环执行三段流水任务的次数,随后依此循环顺序执行数据搬入任务 CopyIn()、向量计算任务 Compute() 和数据搬出任务 CopyOut()。一个简化的数据通路图如下图所示。根据此图,可以完成各个任务的程序设计。

在这里插入图片描述

  • CopyIn()私有类函数实现

使用 AllocTensor 接口为参与计算的输入分配板上存储空间,如上方程序第 14~15 行代码所示,由于定义的入参数据类型是 half 类型的,所以此处分配的空间大小也为 half。

使用 DataCopy 接口将 GlobalTensor 数据拷贝到 LocalTensor,如第 16~17 行所示,xGm、yGm 存储的是该核所需处理的所有输入,因此根据该分块对应编号找到相关的分块数据拷贝至板上。

使用 EnQue 将 LocalTensor 放入 VecIn 的 TQue 中,如第 18~19 行所示。

  • Compute()私有类函数实现

使用 DeQue 从 VecIn 中取出输入 x 和 y,如上方程序第 23-24 行所示。

使用 AllocTensor 接口为输出分配板上存储空间,如第 25 行所示。

使用 Ascend C 接口 Add 完成向量计算,如第 26 行所示。该接口是一个双目指令 2 级接口,入参分别为目的操作数、源操作数 1、源操作数 2 和输入元素个数。

使用 EnQue 将计算结果 LocalTensor 放入到 VecOut 的 TQue 中,如第 27 行所示。

使用 FreeTensor 释放不再使用的 LocalTensor,即两个用于存储输入的 LocalTensor,如第 28~29 行所示。

  • CopyOut 私有类函数实现

使用 DeQue 接口从 VecOut 的 TQue 中取出目标结果 z,如上方程序第 33 行所示。

使用 DataCopy 接口将 LocalTensor 数据拷贝到 GlobalTensor 上,如第 34 行所示。

使用 FreeTensor 将不再使用的 LocalTensor 进行回收,如第 35 行所示。

算子切分策略

正如前文所述,Ascend C 算子编程是 SPMD 编程,其使用多个核进行并行计算,在单个核内还将数据根据需求切分成若干份,降低每次计算负荷,从而起到加快计算效率的作用。这里需要注意,Ascend C 中涉及到的核数其实并不是指实际执行的硬件中所拥有的处理器核数,而是“逻辑核”的数量,即同时运行了多少个算子的实例,是同时执行此算子的进程数量。一般的,建议使用的逻辑核数量是实际处理器核数的整数倍。此外,如果条件允许,还可以进一步将每个待处理数据一分为二,开启 double buffer 机制(一种性能优化方法),实现流水线间并行,进一步减少计算单元的闲置问题。

在本 add_custom 算子样例中,设置数据整体长度 TOTAL_LENGTH 为 8* 2048,平均分配到 8 个核上运行,单核上处理的数据大小 BLOCK_LENGTH 为 2048;对于单核上的处理数据,进行数据切块,将数据切分成 8 块(并不意味着 8 块就是性能最优);切分后的每个数据块再次切分成 2 块,即可开启 double buffer。此时每个数据块的长度 TILE_LENGTH 为 128 个数据。

具体数据切分示意图下图所示,在确定一个数据的起始内存位置后,将数据整体平均分配到各个核中,随后针对单核上的数据再次进行切分,将数据切分为 8 块,并启动 double buffer 机制再次将每个数据块一分为二,得到单个数据块的长度 TILE_LENGTH。

在这里插入图片描述

数据切分中所使用的各参数定义如下程序所示:第 1 行定义了数据全长 TOTAL_LENGTH,约束了输入数据的长度;第 2 行声明了参与计算任务的核数 USE_CORE_NUM;第 3 行计算得到了单个核负责计算的数据长度 BLOCK_LENGTH;第 4 行定义了单个核中数据的切分块数 TILE_NUM;第 5 行决定了是否开启 double buffer 机制,如果不开启则规定 BUFFER_NUM = 1;第六行计算得到单个数据块的数据长度 TILE_LENGTH。

1   constexpr int32_t TOTAL_LENGTH = 8 * 2048;  
2   constexpr int32_t USE_CORE_NUM = 8;
3   constexpr int32_t BLOCK_LENGTH = TOTAL_LENGTH / USE_CORE_NUM;
4   constexpr int32_t TILE_NUM = 8; 
5   constexpr int32_t BUFFER_NUM = 2;
6   constexpr int32_t TILE_LENGTH = BLOCK_LENGTH / TILE_NUM / BUFFER_NUM;

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/62958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

是什么阻断了kafka与zk的链接?

转载说明&#xff1a;如果您喜欢这篇文章并打算转载它&#xff0c;请私信作者取得授权。感谢您喜爱本文&#xff0c;请文明转载&#xff0c;谢谢。 问题描述&#xff1a; 前几天部署一套环境&#xff0c;先把zk集群起来了&#xff0c;之后第二天在启动kafka的时候&#xff0c;…

CentOS 二进制安装部署MongoDB 4.0

一、安装MongoDB 1. 下载 MongoDB 二进制文件 前往 MongoDB 官方下载页面(https://www.mongodb.com/try/download/community) 选择对应版本的 tar 包。 wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.28.tgz 2. 解压并移动至目标目录 解压文件&#xff…

【数据结构】【线性表】特殊的线性表-字符串

目录 字符串的基本概念 字符串的三要素 字符串的基本概念 串的编码 串的实现及基本运算 顺序串的实现 串的静态数组实现 串的动态数组的实现 顺序存储的四种方案 链式串的实现 基本运算 方案三 方案一 字符串的基本概念 数据结构千千万&#xff0c…

Agile VMO分享:海尔案例

海尔集团是全球最大的家电制造商之一&#xff0c;拥有超过76 000名员工。它获得了2018-2019年全球智能家电品牌前10名和2018-2019年全球消费电子品牌前50名的荣誉。 海尔利用价值流结构将自己组织成一些可以自管理的微型企业。这些微型企业拥有决策&#xff0c;设计和交付新产品…

ThinkPHP场景动态验证

一、缘由 今天在用thinkphp8写东西的时候发现&#xff0c;写验证器规则和场景优点费时间&#xff0c;就算用tinkphp的命令行生成也是生成一个空壳。内容还是要自己填写感觉麻烦。 就突发奇想能不能自动生成验证器&#xff0c;也不能是说自动生成验证器&#xff0c;生成验证其的…

限定符使用

正则表达式的元字符一次一般只能匹配一个位置或一个字符,如果想要匹配零个、一个或多个字符时,则需要使用限定符。限定符用于指定允许特定字符或字符集自身重复出现的次数。常用限定符如下: <asp:TextBox [^>]> 正则表达式字符类[^>]匹配除过“>”之外的任何字…

vue3+vite 批量引入组件动态使用

import { ref, reactive, toRaw, markRaw, defineAsyncComponent, onMounted } from vue import type { Component } from vue// vue3vite 批量引入组件动态使用 const modules import.meta.glob<Component>(./details/*.vue) // 明确指定导入的模块类型为Component con…

电脑关机的趣味小游戏——system函数、strcmp函数、goto语句的使用

文章目录 前言一. system函数1.1 system函数清理屏幕1.2 system函数暂停运行1.3 system函数电脑关机、重启 二、strcmp函数三、goto语句四、电脑关机小游戏4.1. 程序要求4.2. 游戏代码 总结 前言 今天我们写一点稍微有趣的代码&#xff0c;比如写一个小程序使电脑关机&#xf…

VScode离线下载扩展安装

在使用VScode下在扩展插件时&#xff0c;返现VScode搜索不到插件&#xff0c;网上搜了好多方法&#xff0c;都不是常规操作&#xff0c;解决起来十分麻烦&#xff0c;可以利用离线下载安装的方式安装插件&#xff01;亲测有效&#xff01;&#xff01;&#xff01; 1.找到VScod…

数据结构基础之《(10)—快速排序》

一、快速排序基础 1、Partition过程 给定一个数组arr&#xff0c;和一个整数num。请把小于等于num的数放在数组的左边&#xff0c;大于num的数放在数组的右边。 要求额外空间复杂度O(1)&#xff0c;时间复杂度O(N) 2、例子 区分小于等于num的数 (<区) [5 3 7 2 3 4 1] num…

2023年第十四届蓝桥杯Scratch国赛真题—推箱子

推箱子 程序演示及其源码解析&#xff0c;可前往&#xff1a; https://www.hixinao.com/scratch/creation/show-188.html 若需在线编程&#xff0c;在线测评模考&#xff0c;助力赛事可自行前往题库中心&#xff0c;按需查找&#xff1a; https://www.hixinao.com/ 题库涵盖…

学习threejs,使用VideoTexture实现视频Video更新纹理

&#x1f468;‍⚕️ 主页&#xff1a; gis分享者 &#x1f468;‍⚕️ 感谢各位大佬 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍⚕️ 收录于专栏&#xff1a;threejs gis工程师 文章目录 一、&#x1f340;前言1.1 ☘️VideoTexture 视频纹理 二、…

Xilinx PCIe高速接口入门实战(一)

引言&#xff1a;本文对Xilinx 7 Series Intergrated Block for PCI Express PCIe硬核IP进行简要介绍&#xff0c;主要包括7系列FPGA PCIe硬核资源支持、三IP硬核差异、PCIe硬核资源利用等相关内容。 1. 概述 1.1 7系列FPGA PCIe硬件资源支持 7系列FPGA对PCIe接口最大支持如…

浪潮X86服务器NF5280、8480、5468、5270使用inter VROC Raid key给NVME磁盘做阵列

Inter VROC技术简介 Intel Virtual RAID on CPU (Intel VROC) 简单来说就是用CPU的PCIE通道给NVME硬盘做Raid 更多信息可以访问官方支持页面 Raid Key 授权&#xff0c;即VROC SKU 授权主要有用的有2个标准和高级&#xff0c;仅Raid1的授权我暂时没见过。 标准 VROCSTANMOD …

Google Cloud 混合云部署连接方式最佳实践案例讲解

混合云部署连接方式 GCP 的混合云部署连接方式提供了多种选择&#xff0c;企业可以根据自身需求选择合适的解决方案。实施最佳实践&#xff0c;将有助于提高混合云架构的性能、安全性和可用性。通过合理的规划和管理&#xff0c;企业可以充分利用混合云的优势&#xff0c;实现…

计算机网络之应用层协议HTTP

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 应用层协议HTTP 收录于专栏【计算机网络】 本专栏旨在分享学习计算机网络的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目录 1. HTTP …

PyTorch 2.5.1: Bugs修复版发布

一&#xff0c;前言 在深度学习框架的不断迭代中&#xff0c;PyTorch 社区始终致力于提供更稳定、更高效的工具。最近&#xff0c;PyTorch 2.5.1 版本正式发布&#xff0c;这个版本主要针对 2.5.0 中发现的问题进行了修复&#xff0c;以提升用户体验。 二&#xff0c;PyTorch 2…

集合的相关性质与定义

集合 集合 集合描述了一组对象的集合&#xff0c;而映射描述了集合之间的对应关系。 集合 集合是由一组无序的&#xff0c;互不相同的对象组成的整体&#xff0c;集合中的对象称为元素或成员。集合可以用大括号{}表示,元素之间用逗号进行分隔。 定义&#xff1a; 集合 A …

【Golang】Golang基础语法(二):内建变量类型

内建变量类型 Go 的内建变量类型: bool, string(u)int, int8, int16, int32, int64, uintptr(指针, go的指针比C的指针方便很多)byte(8位), rune(32位)(Go的字符类型, 相当于Go的char类型)float32, float64, complex64, complex128 强制类型转换 Golang 当中的类型转换只能…

文件管理:文件描述符fd

1.前置预备 文件 内容 属性访问文件之前&#xff0c;都必须先打开他 #include<stdio.h> int main() { FILE* fpfopen("log.txt","w"); if(fpNULL) { perror("fopen"); return 1; } fclose(fp); return 0…