94、利用多线程优化卷积运算

上一节简单介绍了多线程的概念,同时也介绍了在使用多线程编程时,对于数据在线程间的切分,应该遵循的一个原则:那就是切分独立的数据快,而不切分有数据依赖的数据块。

最后还抛出了一个问题:对于卷积算法而言,你觉的切分哪个维度最合适呢?

卷积的切分

之前花了很多篇幅来介绍卷积算法,可以返回这里的前后文章来复习一下卷积算法。

总的来说,卷积运算的核心是乘累加运算。这里所谓的乘累加运算,就是将卷积核 [kh, kw] 范围内的数据与对应的 [hi, wi] 范围的数据在 ci 方向对应位置相乘,然后再累加成一个数据作为最终输出。

因为要把这些维度的数据最终累加成一个值,因此这些维度的数据就是存在依赖的数据,因此这些维度不好拆分。

如果硬要在 kh, kw, hi, wi, ci 这些维度做拆分,那么显而易见的是,需要将拆分到多个线程中的数据计算的结果,再进一步累加,得到一个数据作为最终输出。

有些时候,我会把 kh, kw, hi, wi, ci 这几个维度,称为卷积的累加维度,或者叫做 reduce 维度。

无论是做多线程编程,还是利用 GPU 或者其他 AI 芯片做卷积的加速,亦或是做其他算法的优化加速,这些 reduce 维度的数据拆分都是很麻烦的,因此尽量不要去拆这些维度的数据。

那除了这些 reduce 维度之外,卷积运算还有 ho, wo, co 这几个维度可以考虑。

但是,我们根据卷积的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/719561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构从入门到精通——链表

链表 前言一、链表1.1 链表的概念及结构1.2 链表的分类1.3 链表的实现1.4 链表面试题1.5 双向链表的实现 二、顺序表和链表的区别三、单项链表实现具体代码text.htext.cmain.c单链表的打印空间的开辟链表的头插、尾插链表的头删、尾删链表中元素的查找链表在指定位置之前、之后…

LabVIEW齿轮传动健康状态静电在线监测

LabVIEW齿轮传动健康状态静电在线监测 随着工业自动化的不断发展,齿轮传动作为最常见的机械传动方式之一,在各种机械设备中发挥着至关重要的作用。然而,齿轮在长期运行过程中易受到磨损、变形等因素影响,进而影响整个机械系统的稳…

日常工作总结

日常工作总结 1000. JAVA基础1. 泛型1.1 泛型和Object的区别 1100. Spring1. 常用注解1.1 ControllerAdvice注解1.2 缓存Cacheable 2. 常用方法2.1 BeanUtils.copyProperties的用法 3. 常用功能组件3.1 过滤器Filter 2000. Linux应用 1000. JAVA基础 1. 泛型 1.1 泛型和Objec…

【爬虫实战】——Python爬取天气信息

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍: 研一|统计学|干货分享          擅长Python、Matlab、R等主流编程软件          累计十余项国家级比赛奖项,参与研究经费10w、40w级横向 文…

大模型推荐落地啦!融合知识图谱,蚂蚁集团发布!

引言:电商推荐系统的新突破 随着电子商务平台的蓬勃发展,推荐系统已成为帮助用户在信息过载时代中筛选和发现产品的关键工具。然而,传统的推荐系统主要依赖历史数据和用户反馈,这限制了它们在新商品推出和用户意图转变时的有效性…

使用AspectJ进行面向切面编程(AOP)

第1章 引言 大家好,我是小黑,业务开发中,咱们经常会遇到这样的情况:有些代码几乎在每个方法里都要用到,比如日志记录、权限校验、或者性能监测。如果每次都手动加入这些代码,不仅效率低下,而且…

深入了解接口测试:方法、工具和关键考虑因素

接口测试是软件测试中的一项重要工作,它涉及到系统与系统之间的交互点。接口可以是外部接口,也可以是内部接口,包括上层服务与下层服务接口以及同级接口。在接口测试中,我们需要确保接口能够按照预期的方式进行通信和交互&#xf…

C++ 模拟OJ

目录 1、1576. 替换所有的问号 2、 495. 提莫攻击 3、6. Z 字形变换 4、38. 外观数列 5、 1419. 数青蛙 1、1576. 替换所有的问号 思路:分情况讨论 ?zs:左边没有元素,则仅需保证替换元素与右侧不相等;z?s:左右都…

Java - List排序

List排序方法 主要有三种方法(按推荐度排序): JDK8的streamComparator#compare()Comparable#compareTo() 法1:list的sort() package com.example.a;import java.util.ArrayList; import java.util.Comparator; import java.util…

pyqt5 QWebEngineView 重写mousepressevent捕获鼠标点击事件,无响应

QWebEngineView 加载网页后,重写mousepressevent捕获鼠标点击事件,无响应原因是 QWebEngineView在加载界面后,被本身的child接收了该事件, 解决办法:同过重载event,截取QEvent::ChildAdded事件 from PyQ…

islide2024免费版PPT插件下载

一、功能概览 iSlide PPT插件是一款专为PowerPoint用户设计的辅助工具,其功能全面且实用,主要包括但不限于以下几点: 设计元素库:提供丰富的设计元素,如主题、布局、图标、配色等,用户可以直接拖拽使用&a…

动态规划|【双指针】|611.有效三角形个数

题目 611. 有效三角形的个数 给定一个包含非负整数的数组 nums ,返回其中可以组成三角形三条边的三元组个数。 示例 1: 输入: nums [2,2,3,4] 输出: 3 解释:有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3示例 2: 输入: nums [4,2,3,4] 输出…

【Python】OpenCV-使用ResNet50进行图像分类

使用ResNet50进行图像分类 如何使用ResNet50模型对图像进行分类。 import os import cv2 import numpy as np from tensorflow.keras.applications.resnet50 import ResNet50, preprocess_input, decode_predictions from tensorflow.keras.preprocessing import image# 设置…

03-03学习笔记 内存管理初始化

当指针位数为32位时,virtual space 的大小就是 2^32,只有当指针位数是64位时,virtual space 才会增大。 通常virtual space 的划分方式为 3:1, 依靠 PAGE_OFFSET 常数控制,影响着内核空间和用户空间的上下文切换效率。 像路由器这…

【Python】进阶学习:pandas--read_excel()函数的基本使用

【Python】进阶学习:pandas–read_excel()函数的基本使用 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希…

【好书推荐-第七期】《RTC程序设计:实时音视频权威指南》(音视频开发必看!)

😎 作者介绍:我是程序员洲洲,一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公粽号:洲与AI。 🎈 本文专栏:本文收录…

AWTK-MVVM 配置文件模型

配置文件模型 AWTK-MVVM 内置了一些配置文件模型,用于读写各种配置文件,比如,JSON/XML/INI/CSV/UBJSON 等。 文件名中可以引用下面的变量。 ${app_dir} 应用程序目录${user_dir} 用户目录${temp_dir} 临时目录 json(url${app_dir}/demos/de…

nodejs,JSDOM 补 window环境

window[atob] 是一个在浏览器中使用的 JavaScript 函数,用于将 base64 编码的字符串解码为原始数据。具体来说,atob 函数会将 base64 字符串解码为一个 DOMString,其中包含解码后的二进制数据。这在处理从服务器获取的 base64 编码的数据或在…

多平台拼音输入法软件的开发

拼音输入法从上个世纪发展到现在, 已经发展了几十年了, 技术上已经非常成熟了. 换句话说, 就是实际上没多少技术含量, 随便来个人就能手搓一个. 本文介绍一个简单的多平台拼音输入法软件的设计和实现, 支持 GNU/Linux (ibus) 平台 (PC) 和 Android 平台 (手机). 目录 1 中文输…