如何通过ISPC使用Xe(核显)进行计算

我一直以为 ISPC 的 Xe 是只包含独立显卡的,比如 A770 这些,没想到看了眼文档是可以使用核显的,但只能在 Linux 和 Windows 上,macOS 不行,就想试试看。

写本文是因为 ISPC 已经出现了三四个版本的大改,但是官方文档Intel® ISPC for Xe并未提及这些。不过这篇官方文档依旧可以带来很多帮助。

准备工作

本文使用 Windows 系统进行操作,Linux 操作类似。(实际使用建议使用 Linux,Windows 上毛病比较多)

此外需要注意不能使用 WSL。个人猜测是因为 WSL 无法识别核显型号,因为 lspci的结果中,显卡显示是3D controller,而不是正经 Linux 发行版中的,比如VGA compatible controller(厂商数据也不对)。CUDA 是通过一个库实现的,也就是中继的,但是 Intel 好像没有弄这样的库。

此外,ISPC 最新的 Windows 版本针对我的核显的代码不能用:编译没问题,但是运行不成功,显示版本问题。原因是我使用的 UHD 630 是 Gen 9 的,而目前 Windows 版本只支持 11-13 代或者 Arc 独显。

目前 Windows 版本只支持 11-13 代或者独显

所以如果你和我遇到一样的问题,那么请安装 v1.18.1 或者 v1.18.0 的 ISPC,这样就可以成功运行了。

成功准备好 ISPC 之后,安装 Level Zero Loader。方法很简单,下载level-zero-sdk,之后配置环境变量LEVEL_ZERO_PATH即可。

运行原理

ISPC Runtime 是 Level Zero 的高级化产物(类似汇编语言和高级语言的关系),可以通过 Level Zero 控制 CPU 和 GPU。所以程序是将 ISPC 编译后得到的 ISPCRT objects 交给 ISPC Runtime,由 ISPC Runtime 决定是 CPU 还是 GPU 运行,并进行操作(但这个内容是在 ISPCRT Object 中设置的)。ISPCRT Object 是 SPIR-V 格式的,存放文件后缀为.spv

如果你熟悉 Java 的话就很好理解,ISPC 就是 javac,ISPC Runtime 就是 Java。

需要注意一点,如果你只需要代码运行在 CPU 上,那么不需要 ispcrt,只需要ispc编译器即可。

示例代码

示例代码是 ISPC 示例中的 Simple。Simple 项目有两个文件:simple.cppsimple.ispc

simple.cpp的内容如下:

#include <algorithm>
#include <cmath>
#include <iomanip>
#include <iostream>// ispcrt
#include "ispcrt.hpp"std::ostream &operator<<(std::ostream &os, const ISPCRTDeviceType dt) {switch (dt) {case ISPCRT_DEVICE_TYPE_AUTO:os << "Auto";break;case ISPCRT_DEVICE_TYPE_GPU:os << "GPU";break;case ISPCRT_DEVICE_TYPE_CPU:os << "CPU";break;default:break;}return os;
}struct Parameters {float *vin;float *vout;int count;
};void simple_CPU_validation(std::vector<float> vin, std::vector<float> &vgold, const unsigned int SIZE) {for (unsigned int i = 0; i < SIZE; i++) {float v = vin[i];if (v < 3.)v = v * v;elsev = std::sqrt(v);vgold[i] = v;}
}#define EPSILON 0.01f
bool validate_result(std::vector<float> vout, std::vector<float> vgold, const unsigned int SIZE) {bool bValid = true;for (unsigned int i = 0; i < SIZE; i++) {float delta = (float)fabs(vgold[i] - vout[i]);if (delta > EPSILON) {std::cout << "Validation failed on i=" << i << ": vout[i] = " << vout[i] << ", but " << vgold[i]<< " was expected\n";bValid = false;}}return bValid;
}static int run(const ISPCRTDeviceType device_type, const unsigned int SIZE) {std::vector<float> vin(SIZE);std::vector<float> vout(SIZE);std::vector<float> vgold(SIZE);ispcrt::Device device(device_type);// Setup input arrayispcrt::Array<float> vin_dev(device, vin);// Setup output arrayispcrt::Array<float> vout_dev(device, vout);// Setup parameters structureParameters p;p.vin = vin_dev.devicePtr();p.vout = vout_dev.devicePtr();p.count = SIZE;auto p_dev = ispcrt::Array<Parameters>(device, p);// Create module and kernel to executeispcrt::Module module(device, "xe_simple");ispcrt::Kernel kernel(device, module, "simple_ispc");// Create task queue and execute kernelispcrt::TaskQueue queue(device);std::generate(vin.begin(), vin.end(), [i = 0]() mutable { return i++; });// Calculate gold resultsimple_CPU_validation(vin, vgold, SIZE);// ispcrt::Array objects which used as inputs for ISPC kernel should be// explicitly copied to device from hostqueue.copyToDevice(p_dev);queue.copyToDevice(vin_dev);// Launch the kernel on the device using 1 threadauto res = queue.launch(kernel, p_dev, 1);// ispcrt::Array objects which used as outputs of ISPC kernel should be// explicitly copied to host from devicequeue.copyToHost(vout_dev);// Execute queue and syncqueue.sync();double time = -1.0;if (res.valid()) {time = res.time() * 1e-6;}std::cout << time << std::endl;std::cout << "Executed on: " << device_type << '\n' << std::setprecision(6) << std::fixed;// Check and print resultbool bValid = validate_result(vout, vgold, SIZE);if (bValid) {for (int i = 0; i < SIZE; i++) {std::cout << i << ": simple(" << vin[i] << ") = " << vout[i] << '\n';}return 0;}return -1;
}void usage(const char *p) {std::cout << "Usage:\n";std::cout << p << " --cpu | --gpu | -h\n";
}int main(int argc, char *argv[]) {std::ios_base::fmtflags f(std::cout.flags());constexpr unsigned int SIZE = 16;// Run on CPU by defaultISPCRTDeviceType device_type = ISPCRT_DEVICE_TYPE_AUTO;if (argc > 2 || (argc == 2 && std::string(argv[1]) == "-h")) {usage(argv[0]);return -1;}if (argc == 2) {std::string dev_param = argv[1];if (dev_param == "--cpu") {device_type = ISPCRT_DEVICE_TYPE_CPU;} else if (dev_param == "--gpu") {device_type = ISPCRT_DEVICE_TYPE_GPU;} else {usage(argv[0]);return -1;}}int success = run(device_type, SIZE);std::cout.flags(f);return success;
}

simple.ispc的内容如下:

struct Parameters {float *vin;float *vout;int    count;
};task void simple_ispc(void *uniform _p) {Parameters *uniform p = (Parameters * uniform) _p;foreach (index = 0 ... p->count) {// Load the appropriate input value for this program instance.float v = p->vin[index];// Do an arbitrary little computation, but at least make the// computation dependent on the value being processedif (v < 3.)v = v * v;elsev = sqrt(v);// And write the result to the output array.p->vout[index] = v;}
}#include "ispcrt.isph"
DEFINE_CPU_ENTRY_POINT(simple_ispc)

编译流程

编译需要用到 CMake 和 C/C++ 编译器。在 Windows 上就是使用 CMake 和 Visual Studio,Linux 上使用 CMake 和 Clang 或 GCC 就行。

ISPC 分发中包含了一些很有用的 CMake 函数,可以大大降低我们编译所需的工作量。但是需要注意本文中使用 CMake 函数的只能在 v1.18.1 之前的版本使用,后面版本中,相关函数出现了大的变化,但是官方并未对这些函数进行介绍。由于本人也没有 11-13 代核显或者 Intel 独显,所以无法进行尝试,未来如果进行了研究会在这里贴上链接。

建议别想不开非要自己用命令一条条编译。因为各种库都是要手动设置的,Linux 上还好,Windows 上由于库的位置,几乎全是绝对地址,而且cl.exe对有些库的引用有问题,需要设置的太多,这就导致编译所需的命令都超级长,手动编译确实不太方便。

在项目根目录下新建一个CMakeLists.txt,输入以下内容:

cmake_minimum_required(VERSION 3.14)project(simple)
find_package(ispcrt REQUIRED)
add_executable(host_simple simple.cpp)
add_ispc_kernel(xe_simple simple.ispc "")
target_link_libraries(host_simple PRIVATE ispcrt::ispcrt)

由于计算需要交给 GPU 执行,所以操作 CPU 执行的代码加上host_前缀,交给 GPU 的任务就加上xe_前缀进行区分(Host 和 Device 的概念在 GPU 中还是非常常见的,如果你感兴趣)。

新版本的 ISPC 对新的核显架构使用了新的 CMake 函数,你可以在 ISPC 分发目录中的lib/ispcrt/ispc.cmake中看到。

然后就可以开始构建编译了。

按照惯例,新建一个build,在其中构建项目:

mkdir build
cd build
cmake ..

Linux

Linux 的话直接用make即可。

Windows

如果是在 Windows 上,这里会出现一个 Visual Studio 项目,我们点击.sln,然后生成解决方案。但是需要注意一个事情:不知道为什么,我在尝试的时候,有些情况下.sqv等一些文件会生成在build目录下,而不是Debug或者Release这些生成目录下(生成设置没有问题)。.sqv是关键,前文提到过这是程序与 ISPCRT 的桥梁。

解决方案有两种:

  1. 完成将.sqv后手动拖拽到生成目录下。这个方案对于简单的项目(比如说这个示例项目);
  2. 直接强制将其生成到.sln所在目录(也就是build目录下)。

如果使用第二种方法,需要在``的中间加入以下语句来设置生成环境(打开项目的时候 Visual Studio 会告诉你发生了修改):

SET( CMAKE_RUNTIME_OUTPUT_DIRECTORY_DEBUG "${OUTPUT_DIRECTORY}")
SET( CMAKE_RUNTIME_OUTPUT_DIRECTORY_RELEASE "${OUTPUT_DIRECTORY}")
SET( CMAKE_LIBRARY_OUTPUT_DIRECTORY_DEBUG "${OUTPUT_DIRECTORY}")
SET( CMAKE_LIBRARY_OUTPUT_DIRECTORY_RELEASE "${OUTPUT_DIRECTORY}")
SET( CMAKE_ARCHIVE_OUTPUT_DIRECTORY_DEBUG "${OUTPUT_DIRECTORY}")
SET( CMAKE_ARCHIVE_OUTPUT_DIRECTORY_RELEASE "${OUTPUT_DIRECTORY}")

这样我们就可以直接运行了(也不用切换工作目录)。

运行

这个程序既可以在 CPU 上 运行,也可以在 GPU 上运行(默认为 CPU)。

默认无选项(CPU):
请添加图片描述

GPU:

请添加图片描述

希望能帮到有需要的人~

参考资料

Intel® ISPC for Xe

cmake RUNTIME_OUTPUT_DIRECTORY on Windows - stack overflow

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/626023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SSM的网上挂号系统的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

每日一练:LeeCode-102、二又树的层序遍历【二叉树】

本文是力扣LeeCode-102、二又树的层序遍历 学习与理解过程&#xff0c;本文仅做学习之用&#xff0c;对本题感兴趣的小伙伴可以出门左拐LeeCode。 给你二叉树的根节点 root &#xff0c;返回其节点值的 层序遍历 。 &#xff08;即逐层地&#xff0c;从左到右访问所有节点&…

【设计模式-3.3】结构型——享元模式

说明&#xff1a;说明&#xff1a;本文介绍设计模式中结构型设计模式中的&#xff0c;享元模式&#xff1b; 游戏地图 在一些闯关类的游戏&#xff0c;如超级玛丽、坦克大战里面&#xff0c;游戏的背景每一个关卡都不相同&#xff0c;但仔细观察可以发现&#xff0c;其都是用…

java基于Spring Boot的灾害应急救援评估调度平台

灾害应急救援平台的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品&#xff0c;体验高科技时代带给人们的方便&#xff0c;同时也能让用户体会到与以往常规产品不同的体验风格。&#xff08;1&#xff09;鉴于该系统是一款面向…

C++ 设计模式之外观模式

【声明】本题目来源于卡码网&#xff08;题目页面 (kamacoder.com)&#xff09; 【提示&#xff1a;如果不想看文字介绍&#xff0c;可以直接跳转到C编码部分】 【简介】什么是外观模式 外观模式Facade Pattern , 也被称为“⻔⾯模式”&#xff0c;是⼀种结构型设计模式&#…

WordPress如何修改旧文章的发布日期让其变成新文章发布?

我们个人网站发展一段时间后&#xff0c;可能就不懂得发布什么内容了&#xff0c;这个时候可以考虑翻看以前的旧文章&#xff0c;必要时对其进行适当修改&#xff0c;然后修改它的发布日期变成当前日期重新发布&#xff0c;这样就会变成新文章重新出现在我们首页的文章列表中。…

基于Pytorch的身份证及其他证件检测矫正模型应用

前言 在做身份证和其他证件识别的时候&#xff0c;图片基本都不是摆正的状态&#xff0c;此时在进行OCR文字识别的提取文字信息的时候会出现很多误差&#xff0c;如何将证件摆正&#xff0c;再进行OCR文字识别就可以大大提高准确率。 准备工作 1、Python环境&#xff0c;在P…

tda7294功放电路图大全

简易电子管功放电路图&#xff08;一&#xff09; 6P3P单端A类电子管功放电路图 如图为6P3P单端A类电子管功放电路图。VT1、VT2直流通路串联。VT1构成普通的三极管共阴放大器&#xff0c;VTr2构成阴极输出器&#xff0c;对VT1而言VT2是一个带电流负反馈的高阻负载。音频信号由…

Leetcode2696. 删除子串后的字符串最小长度

Every day a Leetcode 题目来源&#xff1a;2696. 删除子串后的字符串最小长度 解法1&#xff1a;暴力 暴力做法是不断把 AB 和 CD 去掉&#xff0c;直到 s 中没有 AB 和 CD 为止。 代码&#xff1a; /** lc appleetcode.cn id2696 langcpp** [2696] 删除子串后的字符串最…

漏洞复现-金和OA jc6/servlet/Upload接口任意文件上传漏洞(附漏洞检测脚本)

免责声明 文章中涉及的漏洞均已修复&#xff0c;敏感信息均已做打码处理&#xff0c;文章仅做经验分享用途&#xff0c;切勿当真&#xff0c;未授权的攻击属于非法行为&#xff01;文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直接或者间接的…

关于浮点数的四舍五入问题

最近有关注到&#xff0c;在C/C中&#xff0c;对于浮点数的四舍五入&#xff0c;与实际的有一些出入&#xff0c;我打算今天总结一下&#xff0c;并解释一下这是为啥&#xff0c; 好了&#xff0c;下面进入正题&#xff0c;都是干货哦&#xff0c;认真看完&#xff0c;留下你的…

西米支付:到底什么是NFT(数字藏品支付通道)(NFT支付通道)

NFT到底指的是什么呢&#xff1f; 数字藏品的实际意义在于它们打破了传统艺术品的物质形态束缚。数字藏品可以通过虚拟现实和区块链技术进行创作、展示和交易。它们不仅可以满足人们对艺术品的审美需求&#xff0c;还可以成为一种投资和资产保值增值的方式。数字藏品的实际意义…

排序——归并排序

文章目录 基本思想递归版本思路代码实现 非递归版思路代码实现 特性结果演示 基本思想 归并排序&#xff08;MERGE-SORT&#xff09;是建立在归并操作上的一种有效的排序算法,该算法是采用分治法&#xff08;Divide andConquer&#xff09;的一个非常典型的应用。将已有序的子…

开发实践6_缓存^中间件

以下学习 朔宁夫 开发工程师 课程。 缓存可提高程序响应速度。数据库缓存(可过期)/ Redis缓存(Key:Value)/ Memcacheed缓存/ 程序层缓存。 一 缓存 1. 数据库缓存 创建缓存数据表 // python manage.py createcachetable cache_table setting // # 缓存配置 CACHES {def…

12.云原生之kubesphere中应用部署方式

云原生专栏大纲 文章目录 k8s中应用部署Kubernetes常用命令 kubesphere中可视化部署应用创建工作负载服务暴露 helm部署应用helm命令行部署应用kubesphere中使用应用仓库 k8s中应用部署 在k8s中要想部署应用&#xff0c;需要编写各种yaml文件&#xff0c;一旦应用依赖比较复杂…

蓝桥杯备赛 | 洛谷做题打卡day2

​ 蓝桥杯备赛 | 洛谷做题打卡day2 嵌套循环yyds&#xff01;&#xff01; 题目来源&#xff1a;洛谷P2670 [NOIP2015 普及组] 扫雷游戏 题目背景 NOIP2015 普及组 T2 题目描述 扫雷游戏是一款十分经典的单机小游戏。在 n n n 行 m m m 列的雷区中有一些格子含有地雷&am…

如何去开发直播电商系统小程序

明确你的直播电商系统的功能和特性&#xff0c;包括用户注册、商品展示、购物车、支付结算、直播功能、评论互动等。根据需求确定系统的基本架构和主要模块。 技术选型&#xff1a;选择适合你的直播电商系统的技术栈。考虑前端框架&#xff08;如React、Vue.js&#xff09;、后…

C语言:编译和链接

目录 一&#xff1a;翻译环境和运行环境 二&#xff1a;翻译环境 2.1预处理&#xff08;预编译&#xff09; 2.2编译 2.2.1 词法分析&#xff1a; 2.2.2语法分析 2.2.3语义分析 2.3 汇编 三&#xff1a;运行环境 一&#xff1a;翻译环境和运行环境 在ANSI C的任何一种…

力扣每日一练(24-1-16)

我一开始想到的是&#xff0c;如果数字相同则加一。 然而&#xff0c;对了一点点&#xff0c;而已。 高手的方法不是普通人在几分钟内能想得出来的&#xff0c;hh 继续补充&#xff1a; 如果数字不同则减一&#xff0c;如果计数到达了0&#xff0c;则更新数字&#xff0c;最…

论文复现|tightly focused circularly polarized ring Airy beam

请尊重原创的劳动成果 如需要转载&#xff0c;请后台联系 前言 采用MATLAB复现一篇论文里面的插图&#xff0c;涡旋光束的聚焦的仿真方式有很多种&#xff0c;这里采用MATLAB进行仿真&#xff0c;当然也有其他的很多方式&#xff0c;不同的方式各有千秋。 论文摘要 本文证明…