HPC: perf入门

如果你想查看你的程序在cpu上运行时,耗时时如何分布的,那么perf是一个合理的选择。

准备工作

为了支持使用perf,首先你要安装相关的库

sudo apt install linux-tools-5.15.0-67-generic

此外,因为使用perf进行benchmark, 涉及到一些系统权限,所以,你还需要修改权限,将下面文档中对应的参数改为-1

vim /proc/sys/kernel/perf_event_paranoid

开始perf

基于stat,我们可以获取程序的统计,包括耗时等。

perf stat ./gemm_cpu

如 图

接下来,通过指令

perf record ./matrix_multiplicationperf report

我们可以获取对应的每个模块的耗时。

值得注意的时,如果函数的计算速度非常快,这里可能不会显示。比如Vectoradd, 相比于gemm。复杂度小了两个级别,这里原本不显示。我是通过增加循环的方式,来让它出现在了上面。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>#define SIZE 500void initialize_matrix(int matrix[SIZE][SIZE]) {for (int i = 0; i < SIZE; i++) {for (int j = 0; j < SIZE; j++) {matrix[i][j] = rand() % 100;}}
}void initialize_vector(int vector[SIZE]) {for (int i = 0; i < SIZE; i++) {vector[i] = rand() % 100;}
}void multiply_matrices(int a[SIZE][SIZE], int b[SIZE][SIZE], int result[SIZE][SIZE]) {for (int i = 0; i < SIZE; i++) {for (int j = 0; j < SIZE; j++) {result[i][j] = 0;for (int k = 0; k < SIZE; k++) {result[i][j] += a[i][k] * b[k][j];}}}
}void vectorAdd(int vec1[SIZE], int vec2[SIZE], int vec[SIZE])
{printf("perform vectoAdd\n");for (int i = 0; i < SIZE; i++)for (int i = 0; i < SIZE; i++)for (int i = 0; i < SIZE; i++){vec[i] = vec1[i] + vec2[i];}
}int main() {int a[SIZE][SIZE], b[SIZE][SIZE], result[SIZE][SIZE];int vec_a[SIZE], vec_b[SIZE], vec_result[SIZE];// Initialize random number generatorsrand(time(NULL));// Initialize matricesinitialize_matrix(a);initialize_matrix(b);// Multiply matricesmultiply_matrices(a, b, result);initialize_vector(vec_a);initialize_vector(vec_b);vectorAdd(vec_a, vec_b, vec_result);#ifdef SHOWREULST// Print a part of the result matrix to verify the operationprintf("Result matrix:\n");for (int i = 0; i < 10; i++) {for (int j = 0; j < 10; j++) {printf("%d ", result[i][j]);}printf("\n");}#elseprintf("############### Finish caculation #################\n");
#endifreturn 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/24823.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记录一次springboot、ruoyi若依前后端不分离项目和vue项目的合并整合问题,搞了一天总结

项目场景&#xff1a; 因为此功能只做为客户方一个小模块&#xff0c;客户方使用的是springboot前后端不分离的架构。而我们的项目是使用前后端分离springbootvue的架构。在接项目前&#xff0c;项目已经存在&#xff0c;所以不存在设计架构的前提。实际是在原有基础上修改的。…

【JavaScript】内置对象 - 字符串对象 ⑤ ( 判断对象中是否有某个属性 | 统计字符串中每个字符出现的次数 )

文章目录 一、判断对象中是否有某个属性1、获取对象属性2、判定对象是否有某个属性 二、统计字符串中每个字符出现的次数1、算法分析2、代码示例 String 字符串对象参考文档 : https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/String 一、判…

中间代码生成

一&#xff0e;实验题目 DO-WHILE循环语句的中间代码生成 二&#xff0e;实验目的 通过设计、编制、调试一个 do-while 循环语句的语法及语义分析程序&#xff0c;加深对 法及语义分析原理的理解&#xff0c;并实现词法分析程序对单词序列的词法检查和分析。 三&#xff0e; 实…

学习串口屏需要了解哪些方面的知识

学习串口屏需要掌握的知识主要包括以下几个方面&#xff1a; 串口通信原理&#xff1a;串口屏是基于串口通信的显示控制模组&#xff0c;因此了解串口通信的基本原理和通信协议是必要的。你需要了解串口通信的基本概念、数据格式、波特率、校验位等参数&#xff0c;以及串口通…

前端面试题大合集9----TypeScript

目录 一、TypeScript 中静态类型的概念及其好处 二、如何在 TypeScript 的接口中定义可选属性&#xff1f; 三、解释 TypeScript 中联合类型的概念并提供示例 四、TypeScript 中的类型断言是什么&#xff1f; 五、TS中泛型是什么&#xff1f; 六、解释 TypeScript 中的“…

基于SpringBoot+Vue旅游民宿信息管理系统设计和实现(源码+LW+调试文档+讲解等)

&#x1f497;博主介绍&#xff1a;✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者&#xff0c;博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f31f;文末获取源码数据库&#x1f31f; 感兴趣的可以先收藏起来&#xff0c;还…

轻松搞定阿里云域名DNS解析

本文将会讲解如何设置阿里云域名DNS解析。在进行解析设置之前&#xff0c;你需要提前准备好需要设置的云服务器IP地址、域名以及CNAME记录。 如果你还没有云服务器和域名&#xff0c;可以参考下面的方法注册一个。 申请域名&#xff1a;《Namesilo域名注册》注册云服务器&…

算法导论实战(三)(算法导论习题第二十五、二十六章)

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;算法启示录 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录 前言 第二十五章 25.1-10 25.2-5 25…

vue2中如何使用函数式组件

vue2 中如何使用函数式组件 用 render 定义函数式组件如何处理 props如何在函数式组件中触发自定义事件&#xff1f;injection如何使用 computed 和 methods定义一个函数式组件的 MyButton函数式组件有何优势哪种场景适合使用函数式组件函数式组件的问题参考 函数式组件&#x…

mysql常用操作汇总

mysq查询结果&#xff0c;用逗号分割 SET SESSION group_concat_max_len max_allowed_packet; &#xff08;分割不限制长度&#xff09;SELECT GROUP_CONCAT(vehicle SEPARATOR ,) AS separated_vehicles FROM tms_scheduling_car_test where status 0 and error_message l…

大模型日报2024-06-08

大模型日报 2024-06-08 大模型资讯 AI研究&#xff1a;通过消除矩阵乘法实现高效的大语言模型 摘要: 该AI研究探讨了通过消除矩阵乘法来实现高效且可扩展的大语言模型&#xff08;LLMs&#xff09;。此方法旨在提升模型性能&#xff0c;提供更快速和高效的计算方案。 AWS大力投…

【VVC】xCompressCU()函数注解

//传入的tempLUT和bestLUT表示编码当前块之前所维护的HMVP列表信息 void EncCu::xCompressCU( CodingStructure*& tempCS, CodingStructure*& bestCS, Partitioner& partitioner, double maxCostAllowed ) {CHECK(maxCostAllowed < 0, "Wrong value of max…

FineReport使用小记(不断更新中…………)

FineReport使用小记 1. 单元格相关设置1.1. 单元格值样式 2. 报表块设置2.1. 给报表块加单位 1. 单元格相关设置 1.1. 单元格值样式 1. 百分比样式 选中单元格&#xff0c;单元格属性——>文本——>格式——>百分比 下面可以选择保留几位小数&#xff0c;图中为保留…

【MySQL】常见可执行程序

本文使用的版本是MySQL8&#xff0c;5.7可能会有所不同。 MySQL提供了一些重要的程序用来管理和操作数据库。这里会介绍一些常用的程序及其使用。对于MySQL程序的使用&#xff0c;可以查看官方帮助手册来学习。 MySQL :: MySQL 8.0 Reference Manual :: 6 MySQL Programs 程序…

7-6 猴子吃桃

7-6 猴子吃桃 分数 15 全屏浏览 切换布局 作者 蔡尚真 单位 绍兴文理学院元培学院 猴子第一天摘下若干桃子&#xff0c;当即吃了一半&#xff0c;还觉不过瘾&#xff0c;又多吃了一个&#xff1b;第二天早上又将剩下的桃子吃掉一半&#xff0c;又多吃了一个。以后每天天早上…

找了半天,还不如自己写一个图片转ico格式的程序

关于jpg、png等图片转ICO格式 最近突然急需一张ico格式的文件&#xff0c;就拿着处理好的png图片出网上找在线转换器&#xff0c;找了一个小时&#xff0c;绝了&#xff0c;不是需要注册充钱就是下载不下来&#xff0c;好不容易下载下来还是个文件错误。想着找个PS插件直接导出…

烧写uboot、linux镜像、根文件系统到开发板

烧写uboot、linux镜像、根文件系统到开发板 环境介绍 本博客使用x6818开发板。 公司&#xff1a;三星 ARM架构 Cortex-A53核 型号&#xff1a;S5P6818 特性&#xff1a;8核&#xff0c;最高主频2GHz 烧写uboot 使用网络烧写 网络烧写上位机是Ubuntu虚拟机。 先利用上…

基于STM32智能小车

一、前置准备 前置知识&#xff1a;需要学习stm32&#xff0c;建议去b站看江科大的视频&#xff0c;讲的很详细&#xff0c;学完串口那一块就可以制作了&#xff0c;软件用的是Keil5&#xff0c;开发语言C语言&#xff0c;手机连接蓝牙模块软件是蓝牙调试器。 需要准备的器件…

数学+思维,CF1056B - Divide Candies

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 Problem - 1056B - Codeforces 二、解题报告 1、思路分析 考虑i^2 j^2 | m 而m的余数有限&#xff0c;且m很小 我们枚举两重循环&#xff0c;都枚举m的余数&#xff0c;分别记为x&#xff0c;y 如果x ^ …

最大的数字(maxnumber)

最大的数字 题目描述 给定一个十进制整数 n n n&#xff0c;保证 n n n 的首位不为 0 0 0&#xff0c;你必须删除其中 d d d个数字&#xff0c;使得留下的数字最大。请输出留下的最大数。 输入格式 第一行&#xff1a;单个整数表示 d d d 第二行&#xff1a;单个整数表示…