SIMD学习笔记2:高斯卷积计算优化

https://github.com/gredx/simd-parallel-conv
https://zhuanlan.zhihu.com/p/419806079
https://www.cnblogs.com/Imageshop/p/9069650.html
https://zhuanlan.zhihu.com/p/308004749
https://zhuanlan.zhihu.com/p/83694328

SSE图像算法优化系列十八:三次卷积插值的进一步SSE优化。
基于CPU SIMD和winograd的卷积计算加速技术_
如何学习SIMD(单指令多数据流)并应用?
SSE图像算法优化系列九:灵活运用SIMD指令16倍提升Sobel边缘检测的速度(4000*3000的24位图像时间由480ms降低到30ms)。
SSE图像算法优化系列二:高斯模糊算法的全面优化过程分享(一)。
数字图像处理之高斯滤波加速优化

Opencv findcontours函数原理,以及python numpy实现
AVX256加速矩阵乘法

microsoft/ DirectXMath github SIMD

我要实现循环卷积sse,暂时没有找到比较好的写法:

优化前

void gaussianConvolution(Matrix<double>& srcIamge, Matrix<double>& desImage, Matrix<double>& kernel)
{int kernelSize = kernel.numCols();//卷积填充int startOffset = -1 * int(kernelSize / 2);for (int i = 0; i < srcIamge.numRows(); i++){for (int j = 0; j < srcIamge.numCols(); j++){double blurredPixel = 0.0;for (int kx = 0; kx < kernelSize; kx++){for (int ky = 0; ky < kernelSize; ky++){int x = i + startOffset + kx, y = j + startOffset + ky;GetPixelWrapAround(srcIamge, x, y);blurredPixel += kernel.get(kx, ky)* srcIamge.get(x, y);}}desImage.set(i, j, blurredPixel);}}
}void  GetPixelWrapAround(const Matrix<double>& image, int& x, int& y)
{int w = image.numRows();int h = image.numCols();x = (x % w + w) % w;y = (y % h + h) % h;
}

sse优化后:

void greenNoise::gaussianConvolutionSSE(Matrix<double>& srcImage, Matrix<double>& desImage, Matrix<double>& kernel)
{int kernelSize = kernel.numCols();int width = srcImage.numRows();int height = srcImage.numCols();int startOffset = -1 * static_cast<int>(kernelSize / 2);double temp[4];for (int i = 0; i < width; i++){for (int j = 0; j < height; j++){double blurredPixel = 0.0;for (int kx = 0; kx < kernelSize; kx++){int x = (i + startOffset + kx + width) % width;for (int ky = 0; ky < kernelSize-3; ky+=4){//int y = (j + startOffset + ky + height) % height;int y0 = j + startOffset + ky + height;int y1 = (y0 + 1)% height;int y2 = (y0 + 2) % height;int y3 = (y0 + 3) % height;y0 = y0 % height;__m256d srcValues = _mm256_set_pd(srcImage.get(x, y0), srcImage.get(x, y1), srcImage.get(x, y2), srcImage.get(x, y3));__m256d kernelValues = _mm256_set_pd(kernel.get(kx, ky), kernel.get(kx, ky+1), kernel.get(kx, ky+2), kernel.get(kx, ky+3));__m256d resultVec = _mm256_mul_pd(srcValues, kernelValues);_mm256_storeu_pd(temp, resultVec);blurredPixel += temp[0]+ temp[1] + temp[2] + temp[3] ;}// Process the remaining elements (if any) without SSEfor (int ky = kernelSize - kernelSize % 4; ky < kernelSize; ++ky){int y = (j + startOffset + ky + height) % height;blurredPixel += kernel.get(kx, ky) * srcImage.get(x, y);}}desImage.set(i, j, blurredPixel);}}
}

加入多线程:

void greenNoise::parallelGaussianConvolutionSSE(Matrix<double>& srcImage, Matrix<double>& desImage, Matrix<double>& kernel)
{int kernelSize = kernel.numCols();int width = srcImage.numRows();int height = srcImage.numCols();int startOffset = -1 * static_cast<int>(kernelSize / 2);std::vector<std::thread> threads;//std::mutex mutex; // Mutex to control access to the result matrixconst int numThreads = std::thread::hardware_concurrency(); // Number of available threadsconst int rowsPerThread = (width + numThreads - 1) / numThreads; // Rows per threadfor (int t = 0; t < numThreads; ++t){threads.emplace_back([&srcImage, &desImage, &kernel, t, rowsPerThread,kernelSize, width, height, startOffset](){for (int i = t* rowsPerThread; i < std::min(width, (t +1)* rowsPerThread); i++){for (int j = 0; j < height; j++){double temp[4];double blurredPixel = 0.0;for (int kx = 0; kx < kernelSize; kx++){int x = (i + startOffset + kx + width) % width;for (int ky = 0; ky < kernelSize - 3; ky += 4){//int y = (j + startOffset + ky + height) % height;int y0 = j + startOffset + ky + height;int y1 = (y0 + 1) % height;int y2 = (y0 + 2) % height;int y3 = (y0 + 3) % height;y0 = y0 % height;__m256d srcValues = _mm256_set_pd(srcImage.get(x, y0), srcImage.get(x, y1), srcImage.get(x, y2), srcImage.get(x, y3));__m256d kernelValues = _mm256_set_pd(kernel.get(kx, ky), kernel.get(kx, ky + 1), kernel.get(kx, ky + 2), kernel.get(kx, ky + 3));__m256d resultVec = _mm256_mul_pd(srcValues, kernelValues);_mm256_storeu_pd(temp, resultVec);blurredPixel += temp[0] + temp[1] + temp[2] + temp[3];}// Process the remaining elements (if any) without SSEfor (int ky = kernelSize - kernelSize % 4; ky < kernelSize; ++ky){int y = (j + startOffset + ky + height) % height;blurredPixel += kernel.get(kx, ky) * srcImage.get(x, y);}}desImage.set(i, j, blurredPixel);}}});}for (auto& thread : threads){thread.join();}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/671192.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode、198. 打家劫舍【中等,一维线性DP】

文章目录 前言LeetCode、198. 打家劫舍【中等&#xff0c;一维线性DP】题目及分类思路线性DP&#xff08;一维&#xff09; 资料获取 前言 博主介绍&#xff1a;✌目前全网粉丝2W&#xff0c;csdn博客专家、Java领域优质创作者&#xff0c;博客之星、阿里云平台优质作者、专注…

假期2.6

一、填空题 1、一个类的头文件如下所示&#xff0c;num初始化值为5&#xff0c;程序产生对象T&#xff0c;且修改num为10&#xff0c;并使用show()函数输出num的值10。 #include <iostream.h> class Test { private: static int num; public: Test(int); void sho…

Python循环语句——for循环的基础语法

一、引言 在Python编程的世界中&#xff0c;for循环无疑是一个强大的工具。它为我们提供了一种简洁、高效的方式来重复执行某段代码&#xff0c;从而实现各种复杂的功能。无论你是初学者还是资深开发者&#xff0c;掌握for循环的用法都是必不可少的。在本文中&#xff0c;我们…

element ui表格手写拖动排序

效果图&#xff1a; 思路&#xff1a; 重点在于&#xff1a;拖动行到某一位置&#xff0c;拿到这一位置的标识&#xff0c;数据插入进这个位置 vueuse的拖拽hooks useDraggable 可以用&#xff1b;html5 drag能拖动行元素&#xff1b;mounsedown、mounsemove时间实现拖拽 页…

【Iceberg学习四】Evolution和Maintenance在Iceberg的实现

Evolution Iceberg 支持就底表演化。您可以像 SQL 一样演化表结构——即使是嵌套结构——或者当数据量变化时改变分区布局。Iceberg 不需要像重写表数据或迁移到新表这样耗费资源的操作。 例如&#xff0c;Hive 表的分区布局无法更改&#xff0c;因此从每日分区布局变更到每小…

2023年03月CCF-GESP编程能力等级认证C++编程二级真题解析

一、单选题(每题2分,共30分) 第1题 以下存储器中的数据不会受到附近强磁场干扰的是( )。 A.硬盘 B.U盘 C.内存 D.光盘 答案:D 第2题 下列流程图,属于计算机的哪种程序结构?( )。 A.顺序结构 B.循环结构 C.分支结构 D.数据结构 答案:C 第3题 下列关…

C++设计模式之工厂模式

介绍与作用 工厂模式的作用主要是为了封装对象的创建&#xff0c;使得调用者在使用类时不必记住太多繁杂的类名即可创建对应类的对象 为了说明工厂模式&#xff0c;我们首先准备几个汽车类&#xff0c;如下 class Car { public:Car(string name):_name(name){};virtual void s…

告别2023,你好,2024

夜幕降临&#xff0c;心中涌起一股暖流&#xff0c;那是家的方向。是的&#xff0c;岁月如梭&#xff0c;又到了一年的尾声。明天&#xff0c;当第一缕晨光照进车窗&#xff0c;我大概已置身于故乡的怀抱。 半载光阴&#xff0c;仿佛只是眨眼瞬间。在这段时光里&#xff0c;有些…

博弈论,LeetCode 1686. 石子游戏 VI

一、题目 1、题目描述 Alice 和 Bob 轮流玩一个游戏&#xff0c;Alice 先手。 一堆石子里总共有 n 个石子&#xff0c;轮到某个玩家时&#xff0c;他可以 移出 一个石子并得到这个石子的价值。Alice 和 Bob 对石子价值有 不一样的的评判标准 。双方都知道对方的评判标准。 给你…

CTF-show WEB入门--web21

上一阶段的信息泄露已经全部完结了&#xff0c;下一阶段的爆破也由此开始啦~~~ 下面让我们看看web21,这题是个经典的爆破问题 老样子我们先打开题目&#xff0c;查看题目提示&#xff1a; 我们可以看到题目提示为&#xff1a; 爆破什么的&#xff0c;都是基操 还有这题题目…

docker 入门教程之概述

入门指南概述 本指南包含有关如何开始使用 Docker 的分步说明。本指南向您展示如何&#xff1a; 将映像构建并作为容器运行。使用 Docker Hub 共享图像。使用带有数据库的多个容器来部署 Docker 应用程序。使用 Docker Compose 运行应用程序。 什么是容器&#xff1f; 容器…

【RPA】2分钟带你搞懂,这么火的RPA到底是什么?

2分钟带你搞懂&#xff0c;这么火的RPA到底是什么&#xff1f; 在当今数字化时代&#xff0c;机器人流程自动化&#xff08;RPA&#xff09;成为了企业数字化转型的重要组成部分。RPA是一种基于规则的软件技术&#xff0c;可以自动执行重复性、高度规范化的业务流程任务。 与传…

jsp教材管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 教材管理系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql5.0&…

Android应用程序的编译和打包

Android系统的APK应用程序可以有以下几种编译方式 借助系统编译&#xff1a;利用Android.mk 文件将众多小项目组织起来 借助IDE编译&#xff1a;AndroidStudio 命令行编译 &#xff1a; 比如利用gradle脚本编译APK应用。 一、 通过命令行编译和打包APK 编译命令(Window系…

bat脚本 ftp上传文件夹并递归上传子文件夹中的文件

要使用批处理脚本递归地上传整个文件夹及其子文件夹中的文件到FTP服务器&#xff0c;您可以编写一个循环结构来遍历文件夹中的所有文件&#xff0c;并使用FTP命令逐个上传它们。以下是一个示例脚本&#xff1a; echo off set FTP_SERVERftp.example.com set FTP_USERyour_usern…

没有联合和枚举 , C语言怎么能在江湖混 ?

本篇会加入个人的所谓‘鱼式疯言’ ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 我会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. &#x1f92d;&#x1f92d;&#x1f92d;可能说的不是那么严谨.但小编初心是能让更多人能…

第二百九十六回

文章目录 1. 概念介绍2. 基本用法3. 补充用法4. 内容总结 我们在上一章回中介绍了"再谈ListView中的分隔线"&#xff0c;本章回中将介绍如何如何处理ListView中的事件冲突.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在第一百六十三回中介绍了…

探索C语言结构体:编程中的利器与艺术

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;C语言学习 贝蒂的主页&#xff1a;Betty‘s blog 1. 常量与变量 1. 什么是结构体 在C语言中本身就自带了一些数据类型&#x…

LLMs之miqu-1-70b:miqu-1-70b的简介、安装和使用方法、案例应用之详细攻略

LLMs之miqu-1-70b&#xff1a;miqu-1-70b的简介、安装和使用方法、案例应用之详细攻略 目录 miqu-1-70b的简介 miqu-1-70b的安装和使用方法 1、安装 2、使用方法 miqu-1-70b的案例应用 miqu-1-70b的简介 2024年1月28日&#xff0c;发布了miqu 70b&#xff0c;潜在系列中的…

Linux系统调试课:ftrace跟踪器介绍

文章目录 一、什么是frace跟踪器?二、Ftrace 配置三、Ftrace 文件系统四、Ftrace 初体验五、函数跟踪六、Ftrace function_graph七、函数 Profiler沉淀、分享、成长,让自己和他人都能有所收获!😄 一、什么是frace跟踪器? 操作系统内核对应用开发工程师来说就像一个黑盒,…