使用avx2 指令集加速向量算法运算

使用cpu-z 查看cpu指令集

在这里插入图片描述

2 向量加,乘法,除法

我们使用向量加,为什么函数是0 到 8 的计算,因为avx2 寄存器为256位,同时设置启动增强指令集
在这里插入图片描述

#include <immintrin.h> // 引入包含AVX2指令集的头文件void vector_addition_avx2(float* __restrict a, float* __restrict b, float* __restrict result, size_t size)
{// 检查size是否为2的倍数,确保可以正确处理AVX2的256位寄存器assert(size % 8 == 0);__m256 va, vb, vr;for (size_t i = 0; i < size; i += 8){// 加载8个浮点数到AVX寄存器va = _mm256_load_ps(a + i);vb = _mm256_load_ps(b + i);// 使用AVX2指令进行向量加法vr = _mm256_add_ps(va, vb);// 存储结果回内存_mm256_store_ps(result + i, vr);}
}// 主函数或者其他地方调用该函数
int main()
{float a[32], b[32], result[32];// 初始化a、b数组...vector_addition_avx2(a, b, result, sizeof(a) / sizeof(a[0]));return 0;
}

猜猜以上代码会怎么样,如果是在debug下,明显avx2 指令集会快,在release下,普通代码立刻甩开了avx2指令,所以一定要判断数据量,下面重写代码来测试

如何做

应该在数据量大的情况下使用avx2 指令,否则效果适得其反,没有达到数据的瓶颈,不会显现出好的结果,并且下面我们同时使用向量加,乘法,除法,同时增加一个我以前写过的时间计算类


#include <immintrin.h> // 引入包含AVX2指令集的头文件
#include <chrono>
class TicToc
{
public:TicToc(){tic();}void tic(){start = std::chrono::system_clock::now();}double toc(){end = std::chrono::system_clock::now();std::chrono::duration<double> elapsed_seconds = end - start;return elapsed_seconds.count() * 1000;}private:std::chrono::time_point<std::chrono::system_clock> start, end;
};void vector_addition_avx2(float* __restrict a, float* __restrict b, float* __restrict result, size_t size)
{// 检查size是否为2的倍数,确保可以正确处理AVX2的256位寄存器// assert(size % 8 == 0);__m256 va, vb, vr;for (size_t i = 0; i < size; i += 8){// 加载8个浮点数到AVX寄存器va = _mm256_load_ps(a + i);vb = _mm256_load_ps(b + i);// 使用AVX2指令进行向量加法vr = _mm256_add_ps(va, vb);vr = _mm256_mul_ps(va, vb);vr = _mm256_div_ps(va, vb);// 存储结果回内存_mm256_store_ps(result + i, vr);}
}
void addition(float* a, float* b, float* result, size_t size)
{for (int i = 0; i < size; i++){result[i] = a[i] + b[i];result[i] = a[i] * b[i];result[i] = a[i] / b[i];}
}
// 主函数或者其他地方调用该函数
int main()
{
#define N 1024//float a[NUM], b[NUM], result[NUM],result1[NUM];float* a = new float[N * N];float* b = new float[N * N];float* c = new float[N * N];// 初始化a、b数组...for (int i = 0; i < N*N; i++){a[i] = float(i) * 0.1f;b[i] = float(i) * 0.2f;}TicToc t;for(int i =0;i<1000;i++)vector_addition_avx2(a, b, c,N*N);printf("time is %f\n",t.toc());TicToc t1;for (int i = 0; i < 1000; i++){addition(a, b, c, N * N);}printf("time is %f\n", t1.toc());for (int i = 0; i < 8; i++){printf("%04f ", c[i]);printf("%04f \n",c[i]);}delete[]a;delete[]b;delete[]c;return 0;
}

3 结果显示

在1M数据向量的运算量下,结果显示,普通计算要比avx2指令集慢了好几倍,优点显现
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/823960.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言学习/复习21----初阶阶段总结

C语言初阶总结 一、C语言概述 C语言是一种通用的、过程式的计算机编程语言&#xff0c;支持结构化的编程、词汇变量以及递归等特性。它既具有高级语言的特点&#xff0c;又具有汇编语言的特点&#xff0c;适合编写系统软件和应用软件。 二、基本语法 数据类型&#xff1a;包…

sudo ./configure --prefix=/usr/local/nginx sudo make sudo make install

sudo ./configure --prefix/usr/local/nginx sudo make sudo make install这三条命令是用于编译和安装 Nginx 的源代码。 sudo ./configure --prefix/usr/local/nginx&#xff1a;./configure&#xff1a;这个命令运行了 Nginx 的配置脚本&#xff0c;它会检查系统环境&#x…

C++类和对象:赋值重载,const成员

文章目录 1.赋值运算符重载1.1运算符重载1.2 赋值运算符重载1.3 前置和后置重载 2.日期类的实现3. const成员函数4 取地址及const取地址操作符重载 上文介绍了前三个默认成员函数&#xff0c;本文会介绍剩下三个&#xff0c; 赋值重载会重点展开。 1.赋值运算符重载 1.1运算符…

【ZZULIOJ】1069: 向Z同学学习(Java)

目录 题目描述 输入 输出 样例输入 Copy 样例输出 Copy code 题目描述 Z同学为了实现暑假去云南旅游的梦想&#xff0c;决定以后每天只消费1元&#xff0c;每花k元就可以再得到1元&#xff0c;一开始Z同学有M元&#xff0c;问最多可以坚持多少天。 输入 输入2个整数M,…

next_siblings()函数介绍

next_siblings() 是一个 BeautifulSoup 库中的函数&#xff0c;用于在 HTML 或 XML 文档中查找当前节点之后的所有兄弟节点。它返回一个生成器对象&#xff0c;可以用于迭代获取当前节点之后的所有兄弟节点。 例如&#xff0c;如果你有一个 HTML 文档结构如下&#xff1a; &l…

代码随想录 Day17 字符串 | LC344 反转字符串 LC541 反转字符串II 卡码网54替换数字

一、反转字符串 题目&#xff1a; 力扣344&#xff1a;反转字符串 编写一个函数&#xff0c;其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间&#xff0c;你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题…

prompt提示词:工作文职类提问技巧,让AI 帮你写工作报告

目录 工作文职类提问技巧报告类资料整理类履历类工作类 工作文职类提问技巧 工作文职类提示词&#xff0c;黄色字体需要替换成你想问的内容即可 报告类 报告开头 我现在正在[报告的情境与目的 #03A9F4]。我的报告主题是[主题 #03A9F4]&#xff0c;请提供[数字 #03A9F4]种开…

微服务相关

1. 微服务主要七个模块 中央管理平台&#xff1a;生产者、消费者注册&#xff0c;服务发现&#xff0c;服务治理&#xff0c;调用关系生产者消费者权限管理流量管理自定义传输协议序列化反序列化 2. 中央管理平台 生产者A在中央管理平台注册后&#xff0c;中央管理平台会给他…

不说成为Linux高级工程师,但成为合格的软件开发人员还是够了,一文深入浅出的精炼总结Linux核心知识点,掌握Linux的使用与高阶技巧

不说成为Linux高级工程师&#xff0c;但成为合格的软件开发人员还是够了&#xff0c;一文深入浅出的精炼总结Linux核心知识点&#xff0c;掌握Linux的使用与高阶技巧。 Linux 的学习对于一个程序员的重要性是不言而喻的。前端开发相比后端开发&#xff0c;接触 Linux 机会相对…

binder c++客户端处理流程

c实现binder通讯参考示例 binder通讯 c源码&#xff0c;本文分析客户端的处理流程。相关的代码如下 sp<ProcessState> proc(ProcessState::self());//1 sp<IServiceManager> sm defaultServiceManager();//2 sp<IBinder> binder sm->getService(String…

echarts图表按需导入

引入核心包引入图表类型引入使用组件引入渲染器注册所有引入 在项目中引入 Apache ECharts // 引入 echarts 核心模块&#xff0c;核心模块提供了 echarts 使用必须要的接口。 import * as echarts from echarts/core; // 引入柱状图图表&#xff0c;图表后缀都为 Chart impo…

图像基础—图像分类

图像通常分为二值图像、灰度图像和彩色图像 图 1-3 二值图像、灰度图像和彩色图像 &#xff08;1&#xff09;二值图像 二值图像又称为黑白图像&#xff0c;图像中任何一个点非黑即白&#xff0c;要么为白色&#xff08;像素 为 255&#xff09;&#xff0c;要么为黑色&#x…

Golang函数重试机制实现

前言 在编写应用程序时&#xff0c;有时候会遇到一些短暂的错误&#xff0c;例如网络请求、服务链接终端失败等&#xff0c;这些错误可能导致函数执行失败。 但是如果稍后执行可能会成功&#xff0c;那么在一些业务场景下就需要重试了&#xff0c;重试的概念很简单&#xff0c…

20240417,友元 FRIEND

本来要学习的吃瓜吃了一下午 目录 3.1 全局函数做友元 3.2 友元类 3.3 成员函数做友元 三&#xff0c;友元 3.1 全局函数做友元 #include<iostream> using namespace std; class Building {friend void goodGay(Building* building);//好朋友&#xff0c;可以访问…

YooAsset快速入门

文章目录 YooAsset快速入门指南&#xff1a;YooAsset学习核心要掌握的要点主要包括以下几个方面&#xff1a;基于YooAsset进行游戏资源管理的应用实例 YooAsset快速入门指南&#xff1a; YooAsset是一款专为游戏开发设计的资产管理和分发系统&#xff0c;它能够帮助开发者高效…

2024阿里云4核8G服务器租用优惠价格700元一年

阿里云4核8G服务器租用优惠价格700元1年&#xff0c;配置为ECS通用算力型u1实例&#xff08;ecs.u1-c1m2.xlarge&#xff09;4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选&#xff0c;CPU采用Intel(R) Xeon(R) Platinum处理器&#xff0c;阿里云优惠 aliyunfuwuqi…

怎样将excel的科学计数法设置为指数形式?

对了&#xff0c;这个问题中所谓的“指数形式”是指数学上书写的右上标的指数格式&#xff0c;能不能通过单元格设置来做这个格式的转换呢&#xff1f; 一、几个尝试 以下&#xff0c;以数字123000为例来说明。 情况1.转换成数学上的书写方式&#xff0c;如下图的样子&#x…

Easy GIS .NET GMap.Net

Easy GIS .NET & GMap.Net .NET 环境下非常简单的GIS地图开发库。 Easy GIS .NET 一个简单的GIS 桌面应用程序&#xff0c;实现了地图瓦片加载、shapefile文件和csv文件加载渲染、地图坐标系统设置及转换等等基本功能&#xff0c;非常简单易用。 Easy GIS .NET is an o…

算法之归并排序(java、python、c++)

一、JAVA 摘录归并详细分析 ✈✈✈✈✈ package algorithm.归并;import java.util.Arrays;public class Fenzhi {public static void main(String[] args) {int [] arr {8,4,1,2,7,6,3,5};mergeSort(arr, 0, arr.length-1, new int[8]);System.out.println(Arrays.toString(a…

基于STM32的日光温室远程监控系统设计

基于STM32的日光温室远程监控系统设计 一、引言 随着现代农业技术的快速发展&#xff0c;日光温室在农业生产中的应用越来越广泛。为了提高温室作物的产量和品质&#xff0c;实现精准的环境控制&#xff0c;本研究设计了一种基于STM32微控制器的日光温室远程监控系统。该系统…