算法矩阵提速原理

不管是图形还是AI,如果看过相关的算法,都会注意到矩阵运算,很多讲算法的教程都会说将for转换成矩阵,可以极大的增加效率。

但是这不是为难我们这些数学低能儿吗?矩阵运算这些高级货算是高级数学了,比CURD还是难多了。今天还是抽时间来看看。

其实就我来看,计算机懂个P的高等数学,什么线性代数,概率,微积分,对于计算机来说都没有意义,没有意义,没有意义。计算机懂得就是1+1=10。但是在实践中,很多算法一旦上了矩阵,就跟开了外挂一样,速度飞快,这个又是什么原因呢?难道真的计算机上了大学,学了高等数学?我觉得不是,原因还是和计算机中CPU的特性有关。要知道背后的原理,还是得从汇编着手。

(因为最近实在忙,目前的代码来自GPT,感觉不是很准,后面有时间会更新)

for的汇编:

section .text
global for_loopfor_loop:push ebpmov ebp, espmov ecx, [ebp+8]  ; 循环计数器的上限mov eax, 0         ; 初始化计数器loop_start:; 这里执行循环体的操作inc eax            ; 计数器加一cmp eax, ecx       ; 比较计数器和上限jl loop_start      ; 如果计数器小于上限,则继续循环pop ebpret

在 for 循环中,每次迭代都需要执行比较和条件跳转操作,以及计数器的增加操作。这意味着每次循环迭代都会有额外的指令开销和跳转开销。

矩阵的汇编(这里我是觉得没说全,应该涉及到_mm256_dp_ps这些指令):

section .text
global matrix_multiplymatrix_multiply:push ebpmov ebp, esp; 这里执行矩阵乘法的操作pop ebpret

而在矩阵运算中,尤其是矩阵乘法,通常会使用更多的向量化指令和并行化技术。这使得矩阵运算可以更有效地利用处理器的并行性和向量化能力,从而减少了指令级别的开销。

总的来说:

矩阵运算涉及大量的数据并行处理,可以更好地利用现代处理器的并行性能。矩阵运算通常涉及大规模的数据集,这意味着可以更好地利用处理器的缓存系统和数据局部性。矩阵运算往往可以通过优化算法和数据访问模式来提高计算效率,例如分块矩阵乘法、缓存优化等。

另外一方面可以掰扯的就是计算机历史了。我自己买入的第一台计算机是MMX166,应该是97年。当时牛逼吹的非常响,说什么多媒体CPU,然后我就稀里糊涂买了。MMX是什么呢?MMX 指令集包括一系列针对整数运算和 SIMD(Single Instruction, Multiple Data,单指令,多数据)操作的指令。这些指令允许处理器同时对多个数据元素执行相同的操作,从而实现更高的数据吞吐量和更高的性能。MMX 指令集主要用于处理像素、音频和视频数据等多媒体应用程序。

这里又要说说图形,音视频的数据的一些特点了,这些数据就是矩阵运算的最好示范,现在的CPU架构中,为了加速这些运算,所以进行了很多特别的优化,比如超线程,SIMD等等。所以说计算机并不是天生就擅长矩阵运算,而是之前环境中,为了加速多媒体的处理,大神们在CPU中做了很多针对矩阵运算的强化和优化。相当于体系中有了一条高速的特别通道。

所以回到现在,为了使用这个特别通道,将很多运算写成矩阵运算的形式,就可以大大的加速。此外,很多AI算法本身从数学上来说也是矩阵运算,这个就更合适了。所以这里也解释了为什么GPU更适合处理AI算法,因为GPU本身是用来处理图像的,就是矩阵运算,从设计之初就这样考虑的。后面误打误撞发现也很适合干AI,所以直接原地起飞,这个就是另外的一个故事了。

简而言之,在现在的CPU体系中,使用矩阵运算,可以更贴近现在的架构,比如Cache的结构,SIMD的指令集以及一些其它指令集。所以会觉得速度很快。

当然,也是看优化,如果说一个编译器能自动把多层的for优化到底,也是性能不会比矩阵运算差,就看有没有大神愿意出来干这事了。

参考:

27 | SIMD:如何加速矩阵乘法?_simd 矩阵乘法-CSDN博客

SIMD加速矩阵运算-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/2086.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt 跨平台开发的一丢丢总结

Qt 跨平台开发 文章目录 Qt 跨平台开发摘要第一 \ & /第二 神奇{不能换行显示第三 预处理宏 关键字: Qt、 win、 linux、 lib、 MSVC 摘要 最近一直在琢磨Qt跨平台开发的问题,缘由有以下几个, 首先第一个,我们目前开发…

医院敏感文件交互 如何保障安全和效率?

医院会产生大量的敏感文件,这些敏感文件交互时,都需要使用特殊的手段,来保障数据的安全性。 医院的敏感数据主要包括以下几类: 1、患者基本信息:包括患者的姓名、身份证号码、户籍地或现住址、联系方式、文化程度、既…

docker基础知识-01

Docker是什么 Docker是一个开源的容器化平台,用于开发、打包和运行应用程序。它允许开发者将应用程序及其所有依赖项打包到一个可移植的容器中,然后可以在任何支持Docker的环境中运行。Docker的主要优势是可以在不同的操作系统、云服务和物理机上快速、…

【数据结构】二叉树链式结构的实现《遍历,实现》(题库+解析+源码)

前言 二叉树的学习离不开对堆的理解,这是上篇堆的传送门 http://t.csdnimg.cn/F6Jp3 1.二叉树链式结构的实现 1.1 前置说明 在学习二叉树的基本操作前,需先要创建一棵二叉树,然后才能学习其相关的基本操作。由于现在大家对二 叉树结构掌握还…

【LLM】向量知识库

文章目录 认识向量知识库向量Embeddings向量数据库向量数据库的作用向量数据库与传统数据库的区别 Embedding API使用公有Embedding API自定义一个Embeedding API 常见文本数据的预处理搭建并使用向量数据库思考向量数据库在LLM中的价值体现向量的妙用,可行&#xf…

gcc,软硬链接和制作动静态库

gcc的操作 预处理 gcc -E file.c -o file.i -E选项表示预处理完就停下来,在编译时-o file.i可以省略,编译器会默认生成同名的.i文件 编译 gcc -S file.i -o file.s -s表示生成完汇编码就停下来,在编译时-o file.s可以省略,编…

如何进行嵌入式软件的测试和认证

嵌入式软件是指被安装在嵌入式设备中的软件,例如数字电视、洗衣机、手机游戏等。嵌入式软件经过分析、设计和编码后,必须被烧入硬件环境才能运行,因此嵌入式软件测试是针对嵌入式系统的特殊测试方法。 嵌入式软件调试,主要有以下…

代码随想录算法训练营一刷总结篇

去年12月份的时候开始陆续刷题,开始刷了半个多月,后来因为研究生开题答辩,停刷了半个月,到1月上旬又是拖了一个星期才开始继续刷的。感觉自己一个人刷题经常就会因为一些事情,很容易就停刷;刷过的题也不记得…

Linux 上清理 SSSD Cache

1. 简介 系统安全服务守护程序 (SSSD) 提供对身份和身份验证提供程序的访问。 基本上,SSSD 不依赖于本地配置的身份验证,而是用于查找其本地缓存。 此缓存中的条目可能来自不同的远程身份提供商,例如 LDAP 目录、FreeIPA 或 Active Director…

HOT100与剑指Offer

文章目录 前言一、763. 划分字母区间(HOT100)二、6. 从尾到头打印链表(剑指Offer)总结 前言 一个本硕双非的小菜鸡,备战24年秋招,计划刷完hot100和剑指Offer的刷题计划,加油! 根据要…

kaggle电子邮件分类xgboost建模可视化模型评估混淆矩阵范例

目录 概述 依赖环境 代码解读 库的导入 数据读取 扇形图可视化统计 词云图可视化 分布条形图可视化 数据预处理 划分数据集 模型训练 模型预测和评估 ROC曲线评估 混淆矩阵评估 多维度交叉评估 配套源码和数据集 xgboost邮件分类配套数据集和源码下载地址 概述…

DenseDiffusion:Dense Text-to-Image Generation with Attention Modulation

1 研究目的 该文献的研究目的主要是: 探讨一种更为广泛的调制方法,通过设计多个正则化项来优化图像合成过程中的空间控制。论文的大致思想是,在现有的基于数据驱动的图像合成系统基础上,通过引入更复杂的调制策略,实现…

pip下载包opencv出错(报错failed building wheel for opencv-python解决方法)

文章目录 1 报错2 原因3 解决方法参考 1 报错 ERROR: Could not build wheels for opencv-python, which is required to install pypr2 原因 版本不兼容的问题,当使用pip install opencv-python命令安装的是最新版本,当前python版本不支持。需要安装当前版本pyth…

认识产品经理

一、合格的产品经理 1、什么是产品 解决某个问题的东西,称为产品 键盘可以打字,想喝水了可以用水壶,在超市想找一款扫把会有导购员服务 产品有颜色、大小等等区别,也有有形和无形的区别 2、什么是产品经理 想清楚怎么设计产品…

Leetcode - 周赛394

目录 一,3120. 统计特殊字母的数量 I 二,3121. 统计特殊字母的数量 II 三,3122. 使矩阵满足条件的最少操作次数 四,3123. 最短路径中的边 一,3120. 统计特殊字母的数量 I 本题就是统计有多少个字母的大小写同时出现…

架构权衡评估方法(ATAM):一种用于软件架构评估的方法,全称为Architecture Tradeoff Analysis Method

架构权衡评估方法(ATAM)是一种用于软件架构评估的方法,全称为Architecture Tradeoff Analysis Method。它由卡梅隆大学软件工程协会提出,旨在通过分析软件系统的各种架构特征,对系统进行全面的评估,以便在各种可能的方案中做出最佳的决策13。ATAM的核心是结合质量属性效用…

Kimi Chat四大更新详细解读!模型能力提升,支持语音输入输出!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

SpringBoot集成Sharding-JDBC实现主从同步

SpringBoot集成Sharding-JDBC实现主从同步 1.mysql主从配置2.application.properties文件配置3.测试3.1 查询数据3.2 添加数据 1.mysql主从配置 详细内容请参考上一篇文章:MySQL8.0以上实现主从同步配置 2.application.properties文件配置 # ShardingSphere conf…

阿斯达年代记怎么下载 阿斯达年代记三强争霸下载教程

阿斯达年代记怎么下载 阿斯达年代记三强争霸下载教程 阿斯达年代记是一款三国争霸类型的游戏,在游戏中大家可以体验到三权争霸的刺激场景,在战场中大家不仅可以体验到体验到文化交织还可以感受到战场的残酷,本期小编将会给大家带来阿斯达年代…

IO综合练习

一.文件拷贝 拷贝一个文件夹,需要考虑子文件夹 import java.io.*;public class IO {public static void main(String[] args) throws IOException {File f new File("C:\\Users\\21566\\IdeaProjects\\untitled");File copy new File("C:\\Users…