SIMD学习笔记1

参考 http://const.me/articles/simd/simd.pdf
https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html#cats=Arithmetic&expand=3904,3913,4011,34,4014,4602,4011&techs=MMX,AVX_512,AMX,SVML,Other&ig_expand=11

示例:对4个数字求平方

void mul4_scalar( float* ptr ) 
{ for( int i = 0; i < 4; i++ ) { const float f = ptr[ i ]; ptr[ i ] = f * f; } 
} 

使用SIMD

void mul4_vectorized( float* ptr ) 
{ __m128 f = _mm_loadu_ps( ptr ); f = _mm_mul_ps( f, f ); _mm_storeu_ps( ptr, f ); 
} 

解释:

函数 _mm_loadu_ps

Load 128-bits (composed of 4 packed single-precision (32-bit) floating-point elements) from memory into dst. mem_addr does not need to be aligned on any particular boundary.
加载128比特数据(4个float类型)

函数__m128 _mm_mul_ps (__m128 a, __m128 b)

Synopsis
__m128 _mm_mul_ps (__m128 a, __m128 b)
#include <xmmintrin.h>
Instruction: mulps xmm, xmm
CPUID Flags: SSE
Description
Multiply packed single-precision (32-bit) floating-point elements in a and b, and store the results in dst.

函数 void _mm_storeu_ps (float* mem_addr, __m128 a)

#include <immintrin.h>
Instruction: movups m128, xmm
CPUID Flags: SSE
Description
Store 128-bits (composed of 4 packed single-precision (32-bit) floating-point elements) from a into memory. mem_addr does not need to be aligned on any particular boundary.

#include <iostream>
#include <vector>
#include <immintrin.h>void vectorAddSSE(const std::vector<double>& v1, const std::vector<double>& v2, std::vector<double>& result)
{// Ensure vectors are of the same sizesize_t size = v1.size();if (size != v2.size() || size != result.size()){std::cerr << "Vector sizes mismatch." << std::endl;return;}// Process 4 elements at a time using SSEfor (size_t i = 0; i < size; i += 4){// Load 4 double values from each vector__m256d vec1 = _mm256_loadu_pd(&v1[i]);__m256d vec2 = _mm256_loadu_pd(&v2[i]);// Perform vector addition__m256d resultVec = _mm256_add_pd(vec1, vec2);// Store the result back to the result vector_mm256_storeu_pd(&result[i], resultVec);}// Process the remaining elements (if any) without SSEfor (size_t i = size - size % 4; i < size; ++i){result[i] = v1[i] + v2[i];}
}int main()
{std::vector<double> v1 = {1.0, 2.0, 3.0, 4.0};std::vector<double> v2 = {5.0, 6.0, 7.0, 8.0};std::vector<double> result(4);vectorAddSSE(v1, v2, result);// Output the resultstd::cout << "Result: ";for (double value : result){std::cout << value << " ";}std::cout << std::endl;return 0;
}

进阶:求矩阵的和

#pragma once
#include<vector>
#include<string>
template <typename T>
class Matrix {
private:std::vector<std::vector<T>> matrix;int m_nRows;int m_nCols;public:// 构造函数Matrix(int m_nRows, int m_nCols, const T& initial = T());// 获取矩阵的行数和列数int numRows() const;  int numCols() const;// 获取矩阵中特定位置的元素T& at(int row, int col);// 获取矩阵元素的值T get(int row, int col) const;// 更新矩阵元素的值void set(int row, int col, const T& value);// 矩阵加法Matrix<T> operator+(const Matrix<T>& other) const;// 矩阵减法Matrix<T> operator-(const Matrix<T>& other) const;// 矩阵乘法Matrix<T> operator*(const Matrix<T>& other) const;//[]操作符重载 const std::vector<T>& operator[](size_t row) const;//[]操作符重载 std::vector<T>& operator[](size_t row);// 掩膜操作Matrix<T> mask(const Matrix<T>& mask, T value = static_cast<T>(0));// 统计矩阵中某个值的数量int countValue(const T& value) const;//保存到图片void saveImage(const std::string& filename);void printPart(int x, int y, int step, std::string s = "");
private:};//sse逐点相
// lineAdd_sse 的特化的前向声明
template <typename T>
inline void lineAdd_sse(const T* left, const T* right, int nCounts, T* save) {};
template <>
inline void lineAdd_sse(const double* left, const double* right, int size, double* save);
template <>
inline void lineAdd_sse(const float* left, const float* right, int size, float* save);
template <>
inline void lineAdd_sse(const int* left, const int* right, int size, int* save);/ 矩阵加法 sse
template <typename T>
Matrix<T> MatrixAdditionSSE(const Matrix<T>& m1, const Matrix<T>& m2);

实现

template<>
inline void lineAdd_sse(const float* left, const float* right, int size, float* save)
{//Process 8 float elements at a time using SSEfor (int i = 0; i < size-7; i += 8){_mm256_storeu_ps(save + i, _mm256_add_ps(_mm256_loadu_ps(left + i), _mm256_loadu_ps(right + i)));}// Process the remaining elements (if any) without SSEfor (size_t i = size - size % 8; i < size; ++i){save[i] = left[i] + right[i];}
}
template<>
inline void lineAdd_sse(const double* left, const double* right, int size, double* save)
{// Process 4 double elements at a time using SSEfor (size_t i = 0; i < size-3; i += 4){// Load 4 double values from each vector__m256d vec1 = _mm256_loadu_pd(&left[i]);__m256d vec2 = _mm256_loadu_pd(&right[i]);// Perform vector addition__m256d resultVec = _mm256_add_pd(vec1, vec2);// Store the result back to the result vector_mm256_storeu_pd(&save[i], resultVec);}// Process the remaining elements (if any) without SSEfor (size_t i = size - size % 4; i < size; ++i){save[i] = left[i] + right[i];}
}template <>
inline void lineAdd_sse(const int* left, const int* right, int size, int* save)
{// Process 8 int elements at a time using SSEfor (int i = 0; i < size - 7; i += 8){__m256i vec1 = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(&left[i]));__m256i vec2 = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(&right[i]));// Perform vector addition__m256i resultVec = _mm256_add_epi32(vec1, vec2);// Store the result back to the result vector_mm256_storeu_si256(reinterpret_cast<__m256i*>(&save[i]), resultVec);}// Process the remaining elements (if any) without SSEfor (int i = size - size % 8; i < size; ++i){save[i] = left[i] + right[i];}
}template <typename T>
Matrix<T> MatrixAdditionSSE(const Matrix<T>& m1, const Matrix<T>& m2)
{static_assert(sizeof(T) == sizeof(float) || sizeof(T) == sizeof(double) || sizeof(T) == sizeof(int),"Unsupported element type for SSE");if (m1.numRows() != m2.numRows() || m1.numCols() != m2.numCols()){throw std::invalid_argument("Matrix dimensions don't match for addition");}Matrix<T> result(m1.numRows(), m1.numCols());std::vector<std::thread> threads;const int numThreads = std::thread::hardware_concurrency(); // Number of available threadsconst int rowsPerThread = (m1.numRows() + numThreads - 1) / numThreads; // Rows per threadfor (int i = 0; i < numThreads; ++i){threads.emplace_back([&m1, &m2, &result, i, rowsPerThread](){for (int row = i * rowsPerThread; row < std::min((i + 1) * rowsPerThread, result.numRows()); ++row){lineAdd_sse(&m1[row][0], &m2[row][0], result.numCols(), &result[row][0]);}});}for (auto& thread : threads){thread.join();}return  std::move(result);
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/671876.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AUTOSAR汽车电子嵌入式编程精讲300篇-基于FPGA和CAN协议2.0B的总线控制器研究与设计(续)

目录 3.2 寄存器管理模块 3.2.1寄存器规划及设计 3.2.2 BasicCAN模式 3.2.3 PeliCAN模式

【Scala 】3. 类和对象

3. 类和对象 scala是一种面向对象的函数&#xff0c;其中一部分就是scala语言中支持类的实现。 3.1 类的继承 &#xff08;1&#xff09;基类&#xff08;父类&#xff09; 类中包含实现面积的计算方法 class Shape { def getArea():Float { return 0 } }&#xff0…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之RichText组件

鸿蒙&#xff08;HarmonyOS&#xff09;项目方舟框架&#xff08;ArkUI&#xff09;之RichText组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、RichText组件 鸿蒙&#xff08;HarmonyOS&#xff09;富文本组件&#xff0c;…

【学习心得】Python好库推荐——tqdm

在很多时候&#xff0c;你都需要一个进度条来告知当前程序的运行状况和进展。tqdm 是一个在Python中广泛使用的命令行进度条工具库&#xff01;下面是这个库的主页&#xff1a;https://tqdm.github.io/ 一、快速入门 &#xff08;1&#xff09;for循环中 代码&#xff1a; …

句子嵌入: 交叉编码和重排序

这个系列目的是揭开嵌入的神秘面纱&#xff0c;并展示如何在你的项目中使用它们。第一篇博客介绍了如何使用和扩展开源嵌入模型&#xff0c;选择现有的模型&#xff0c;当前的评价方法&#xff0c;以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编…

C语言的起源

1940年代&#xff0c;最早的开始&#xff0c;编程语言是机器语言&#xff0c;用0/1表示的、计算机能直接识别和执行的一种机器指令的集合。最早的编程方式&#xff0c;就是给纸带打孔或者卡片机打孔。机器语言直接与硬件沟通&#xff0c;极具针对性&#xff0c;但是非常难于理解…

企业微信会话存档:大文件拉取、加密、上传

承接之前的文章企业微信会话存档sdk报错&#xff1a;A fatal error has been detected by the Java Runtime Environment 在之前的那篇文章结尾&#xff0c;我说发现了系统另外一个隐含的bug&#xff1a;企业微信会话存档拉取媒体文件是分片拉取&#xff0c;我的处理方式有问题…

IP地址如何保护网络安全

面对网络攻击时&#xff0c;仅依靠常态化的网络安全防御系统已捉襟见肘&#xff0c;如联合使用IP地址数据可以形成多元化的安全解决方案&#xff0c;全面监控网络活动&#xff0c;发现潜在威胁&#xff0c;制定有针对性的应对措施。 网络攻击追踪 当网站或应用遭受DDoS等网络攻…

Helm 简介:Kubernetes 的包管理器

简介 将应用程序部署到 Kubernetes&#xff08;一个功能强大且流行的容器编排系统&#xff09;可能会很复杂。设置单个应用程序可能涉及创建多个相互依赖的 Kubernetes 资源&#xff0c;例如 pods、services、deployments 和 replicasets&#xff0c;每个资源都需要编写详细的…

基于YOLOv8的暗光低光环境下(ExDark数据集)检测,加入多种优化方式---DCNv4结合SPPF ,助力自动驾驶(一)

&#x1f4a1;&#x1f4a1;&#x1f4a1;本文主要内容:详细介绍了暗光低光数据集检测整个过程&#xff0c;从数据集到训练模型到结果可视化分析&#xff0c;以及如何优化提升检测性能。 &#x1f4a1;&#x1f4a1;&#x1f4a1;加入 DCNv4结合SPPF mAP0.5由原始的0.682提升至…

在 VMware 虚拟机上安装 CentOS系统 完整(全图文)教程

一、前期准备&#xff1a; 1.安装VMware 虚拟机软件&#xff08;不在讲解&#xff0c;可自行去下载安装&#xff09;。官网&#xff1a;https://customerconnect.vmware.com/cn/downloads/details?downloadGroupWKST-PLAYER-1750&productId1377&rPId111471 2.下载iso…

【AWS】step-functions服务编排

文章目录 step-functionsState machine typeStandard workflowsExpress workflows design skillsError handlingsaga Transaction processing控制分布式系统中的并发性 收费 作为AWS Serverless无服务器的一个重要一环 使用step-functions方法将 AWS 服务链接在一起 step-funct…

用python编写爬虫,爬取二手车信息+实验报告

题目 报告要求 工程报告链接放在这里 https://download.csdn.net/download/Samature/88805518使用 1.安装jupyter notebook 2.用jupyter notebook打开工程里的ipynb文件&#xff0c;再run all就行 注意事项 可能遇到的bug 暂无&#xff0c;有的话私信我

如何决定K8S Pod的剔除优先级

在Kubernetes&#xff08;k8s&#xff09;中&#xff0c;当节点资源面临压力时&#xff0c;如何决定Pod的优先级是一个关键问题。在Kubernetes 1.8版本之后&#xff0c;引入了基于Pod优先级的调度策略&#xff0c;即Pod Priority Preemption。这种策略允许在资源不足的情况下&a…

iOS平台如何实现低延迟RTSP转RTMP推送?

技术背景 好多开发者都知道我们有Windows、Android、Linux平台的RTSP转RTMP推送模块&#xff0c;实际上&#xff0c;iOS平台我们也有&#xff0c;并在2016年就已发布。我们都知道&#xff0c;一个好的RTSP转RTMP推送模块&#xff0c;需要足够稳定的前提下&#xff0c;还要低延…

Unity 接口、抽象类、具体类对象的配合使用案例

文章目录 示例1&#xff1a;接口&#xff08;Interface&#xff09;示例2&#xff1a;抽象类&#xff08;Abstract Class&#xff09;示例3&#xff1a;结合使用接口与抽象类示例4&#xff1a;多接口实现示例5&#xff1a;抽象类与接口结合 在Unity中使用C#编程时&#xff0c;接…

制作耳机壳的UV树脂耳机壳UV胶和塑料材质有什么不同?

制作耳机壳的UV树脂和塑料材质在以下几个方面存在区别&#xff1a; 硬度与耐磨性&#xff1a;UV树脂具有较高的硬度和耐磨性&#xff0c;能够有效保护耳机内部零件&#xff0c;延长耳机使用寿命。而塑料材质相对较软&#xff0c;容易受到磨损。透明度与光泽度&#xff1a;UV树…

JAVA中的单例模式->懒汉式

一、步骤 1.构造器私有化>防止直接new private Cat(String name) {System.out.println("构造器被调用");this.name name;} 2.类的内部创建对象 private static Cat cat; 3.向外暴露一个静态的公共方法。getInstance public static Cat getInstance(){if (cat…

es6模块化导入导出与commonjs模块化(nodejs导入导出)详解——导出export

博主的桌面工具软件已经正式开发&#xff0c;获取方式&#xff1a; 可以关注我的小程序【中二少年工具箱】获取。&#xff08;若小程序更新有延迟&#xff0c;或关注小程序后续功能&#xff0c;可先收藏小程序&#xff09; 通过下载链接 百度网盘: 链接&#xff1a;https://p…

【SpringBoot】application配置(5)

type-aliases-package: com.rabbiter.cm.domaintype-aliases-package: 这个配置用于指定mybatis的别名&#xff0c;别名是一个简化的方式&#xff0c;让你在Mapper xml 文件中引用java类型&#xff0c;而不需要使用使用完整的类名。例如&#xff0c;如果你在 com.rabbiter.cm.d…