C++ 利用硬件加速矩阵乘法

点击蓝字

752dd79bccd939e66cb1814358655a1b.png

关注我们

来源于网络,侵删

1.矩阵乘法定义

d5cba5128a6c5af51869d13df19ba152.png

2.矩阵类封装

我们用 C++封装了一个n × m 的矩阵类,用二维数组来存储数据,定义如下:

#define MAXN 1000
#define LL __int64class Matrix {
private:int n, m;LL** pkData;
public:Matrix() : n(0), m(0) {pkData = NULL;}void Alloc() {pkData = new LL *[MAXN];                       // 1)for (int i = 0; i < MAXN; ++i) {pkData[i] = new LL[MAXN];}}void Dealloc() {if (pkData) {for (int i = 0; i < MAXN; ++i) {           // 2)delete [] pkData[i];}delete[] pkData;pkData = NULL;}}
};

9c9520180444575e6f16d0e528d61cfc.png

3.矩阵乘法实现

(1)ijk 式

最简单的矩阵乘法实现如下:

class Matrix {...
public:void Multiply_ijk(const Matrix& other, Matrix& ret) {// assert(m == other.n);ret.Reset(n, other.m);int i, j, k;for (i = 0; i < n; i++) {for (j = 0; j < other.m; j++) {for (k = 0; k < m; k++) {ret.pkData[i][j] += pkData[i][k] * other.pkData[k][j];}}}}
};

这种方法被称为 ijk 式,对矩阵乘法 A × B = C,枚举 A 的每一行,再枚举 B 的每一列,分别对应相乘后放入矩阵 C的对应位置中,如下图所示;

39cdda22c8aaf34ba3e9bec66b8b6574.png

(2)ikj 式

对上述算法进行一些改进,交换两个内层循环的位置,得到如下算法:

class Matrix {...
public:void Multiply_ikj(const Matrix& other, Matrix& ret) {// assert(m == other.n);ret.Reset(n, other.m);int i, j, k;for (i = 0; i < n; i++) {for (k = 0; k < m; k++) {LL v = pkData[i][k];for (j = 0; j < other.m; j++) {ret.pkData[i][j] += v * other.pkData[k][j];}}}}
};

这种方法被称为ikj 式,对矩阵乘法 A × B = C ,行优先枚举 A的每一个格子,再枚举 B的每一行,分别对应相乘后放入矩阵 C的对应位置中,每次相乘得到的 C 都是部分积,如下图所示,用绿色的深浅来表示这个值是否已经完整求得;

ef23ee11bf4cbff74edded90773e144d.png

(3)kij 式

对上述算法再进行一些改进,交换两个外层循环的位置,得到如下算法:

class Matrix {...
public:void Multiply_kij(const Matrix& other, Matrix& ret) {// assert(m == other.n);ret.Reset(n, other.m);int i, j, k;for (k = 0; k < m; k++) {for (i = 0; i < n; i++) {LL v = pkData[i][k];for (j = 0; j < other.m; j++) {ret.pkData[i][j] += v * other.pkData[k][j];}}}}
};

这种方法被称为kij 式,对矩阵乘法 A × B = C ,列优先枚举 A的每一个格子,再枚举 B的每一行,分别对应相乘后放入矩阵 C 的对应位置中,每次相乘得到的 C 都是部分积,如下图所示,用绿色的深浅来表示这个值是否已经完整求得;

a5c5ce8c900dc551d812e332d3c384dc.png

4.时间测试

e5af0eef9b0680b873837c6ceb9137de.png

5.原理分析

  • 原因是因为 CPU 访问内存的速度比 CPU 计算速度慢得多,为了解决速度不匹配的问题,在 CPU 与 内存 之间加了高速缓存cache。高速缓存 cache 的存在大大提高了 CPU 访问数据的速度。但是当内存访问不连续的时候,就会导致 cache 命中率降低,所以为了加速,就要尽可能使内存访问连续,即不要跳来跳去。

  • 矩阵

6.最后结论

运行速度:

ikj≈kij>ijk

0e8c6a185ab99fb6264d95d291410797.gif

如果你年满18周岁以上,又觉得学【C语言】太难?想尝试其他编程语言,那么我推荐你学Python,现有价值499元Python零基础课程限时免费领取,限10个名额!
▲扫描二维码-免费领取

302e93d75213d447823ae0022e4c3112.gif

戳“阅读原文”我们一起进步

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/337318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis分片_Redis分片

redis分片本文是我们学院课程的一部分&#xff0c;标题为Redis NoSQL键值存储 。 这是Redis的速成课程。 您将学习如何安装Redis和启动服务器。 此外&#xff0c;您还会在Redis命令行上乱七八糟。 接下来是更高级的主题&#xff0c;例如复制&#xff0c;分片和集群&#xff0c…

python tkinter窗口切换_tkinter--实现简单的页面切换

[Python] 纯文本查看 复制代码import tkinter as tkindex_num 4def up_page():info frame_root.place_info()x int(info[x]) 100y info[y]frame_root.place(xx, yy)global index_numindex_num 1index[text] "第 {} 页".format( index_num)def down_page():inf…

解析C++全排列

点击蓝字关注我们来源于网络&#xff0c;侵删1.C实现全排列的函数next_permutation(start,end)这个函数在暴力解决问题方面有很大作用&#xff0c;使用时需要引入头文件 < algorithm >&#xff0c;当当前序列不存在下一个序列时就会结束&#xff0c;若想得到一个序列的全…

python读写文件代码_Python 读写文件的操作代码

Python读写文件模式1、r 打开只读文件&#xff0c;该文件必须存在。2、r 打开可读写的文件&#xff0c;该文件必须存在。3、w 打开只写文件&#xff0c;若文件存在则文件长度清为0&#xff0c;即该文件内容会消失。若文件不存在则建立该文件。4、w 打开可读写文件&#xff0c;若…

redis开启redis_Redis聚类

redis开启redis本文是我们学院课程的一部分&#xff0c;标题为Redis NoSQL键值存储 。 这是Redis的速成课程。 您将学习如何安装Redis和启动服务器。 此外&#xff0c;您还会在Redis命令行上乱七八糟。 接下来是更高级的主题&#xff0c;例如复制&#xff0c;分片和集群&#…

C++ 读取文件操作

点击蓝字关注我们来源于网络&#xff0c;侵删1.先上代码&#xff1a;#include <fstream> #include<iostream> using namespace std;//文本文件读文件 void test01() {//1、包含头文件//2、创建流对象ifstream ifs;//3、打开文件并且判断是否打开成功ifs.open("…

python调用simulink_使用Python从dbc文件中提取simulink建模数据定义

使用dbc文件建模完成CAN通讯是一种比较高效的开发模式&#xff0c;不过在建模的过程中dbc文件中描述的数据需要自己去定义。使用文本编辑工具打开dbc文件可以看到&#xff0c;实际上dbc文件是一个可以进行语义解析的文本。这样&#xff0c;通过脚本语言便可以轻松的实现simulin…

cov/cor中有遗漏值_协调遗漏的效果–使用简单的NIO客户端/服务器测量回送延迟...

cov/cor中有遗漏值在这篇文章中&#xff0c;我演示了许多想法和技术&#xff1a; 如何编写一个简单的非阻塞NIO客户端/服务器 协同遗漏的影响 如何测量百分位数的延迟&#xff08;相对于简单平均&#xff09; 如何在计算机上计时延迟回送 我最近正在为客户端服务器应用程序…

C/C++,判断变量的类型

点击蓝字关注我们来源于网络&#xff0c;侵删出于某个奇葩需求&#xff0c;研究了一下c/c如何判断变量类型&#xff0c;整理总结在此&#xff0c;分享给大家&#xff0c;也避免自己以后绕弯。一、c判断变量类型c中&#xff0c;可以利用typeid()来判断变量类型。第一步&#xff…

python访问文件下载地址_用Python脚本去获得skydrive上文件的真实地址链接 + 提供脚本下载v2012-01-18...

之前得知微软提供的免费在线云存储空间Skydrive提供的空间大小达25GB的时候&#xff0c;就像其他人一样想到了可以用来存储音视频和图片&#xff0c;作为文件存储器&#xff0c;以便和别人分享文件。但是后来发现&#xff0c;skydrive中上面文件连接&#xff0c;通过系统提供的…

c/c++语言实现登陆界面

点击蓝字关注我们来源自网络&#xff0c;侵删一.整体功能介绍实现一个登陆界面1 输出一个登陆界面2 用户名能够实现邮箱验证&#xff0c;regex库&#xff0c;密码要不可见3 进度条的模拟实现4 音乐播放二.分步实现1.输出一个登陆界面首先对此功能使用到的函数进行简单的介绍。s…

spark restful_Spark入门:也可以用Java创建轻量级的RESTful应用程序

spark restful最近&#xff0c;我一直在使用Spark &#xff08;一种Java的Web框架&#xff0c;与Apache Spark 不相关&#xff09;编写RESTful服务。 当我们计划写这篇文章时&#xff0c;我已经做好了不可避免的接口&#xff0c;样板代码和深层层次结构的Java风格的准备。 令我…

C++的get()函数与getline()函数使用详解

点击蓝字关注我们来源自网络&#xff0c;侵删一.C的get()函数使用详解1.C get()函数get()函数是cin输入流对象的成员函数&#xff0c;它有3种形式&#xff1a;无参数的&#xff1b;有一个参数的&#xff1b;有3个参数的。1) 无参数的其调用形式为cin.get()用来从指定的输入流中…

电脑所有程序里有不一样颜色_12个好玩的电脑屏保,让你成为别人眼中最靓的仔。...

Hello 大家好&#xff0c;这里是工具狂人。作为一个靠打字(哦不&#xff0c;搬砖)为生的新媒体小编&#xff0c;每天多数时候都是对着电脑屏幕&#xff0c;中途有时会拿起手机回复消息、查看短信、刷起微博。刷手机的时间一长&#xff0c;眼前的电脑会自动打开系统的屏保程序&a…

java8 函数式编程_如何使用Java 8函数式编程生成字母序列

java8 函数式编程我偶然发现了用户“ mip”一个有趣的堆栈溢出问题 。 问题是&#xff1a; 我正在寻找一种生成字母序列的方法&#xff1a; A, B, C, ..., Z, AA, AB, AC, ..., ZZ.可以很快将其识别为Excel电子表格的标题&#xff0c;它确实做到了&#xff1a; 到目前为止&a…

C++判断变量/对象/枚举类型的简单方式

点击蓝字关注我们来源于网络&#xff0c;侵删1.关键点<typeinfo>使用typeid()操作符所需包含的头文件。typeid()获取变量类型信息的操作符&#xff0c;其返回值类型为std::typeinfo。我们可使用typeid(n) typeid(int)的方式来判断变量n是否为类型int。注&#xff1a;可以…

python循环输出三角形图案的画_python循环输出三角形图案的例子

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…

终端查看命令有哪些功能命令_从命令式功能到纯粹功能式功能,再返回:Monads与范围内的延续...

终端查看命令有哪些功能命令这段视频附带了这篇文章&#xff0c;没有它就不会太有意义 上个月&#xff0c;我在Curry On会议上做了演讲&#xff0c;该会议是与学术&#xff0c;编程语言会议ECOOP共同举办的新会议。 Curry On旨在弥合学术界之间的鸿沟。 我的学术兴趣不包括编程…

C++ 空指针和野指针

点击蓝字关注我们来源于网络&#xff0c;侵删1.空指针指针变量指向内存中编号为0的空间为空指针。空指针指向的内存空间是不可以访问的 。代码&#xff1a;#include<iostream> using namespace std; int main() {int a 10;int * p &a;cout << p << end…

jdbc事务 jta事务_将非事务性资源绑定到JTA事务中的几种模式

jdbc事务 jta事务我最近发表了一篇有关如何将非事务性资源&#xff08;如Web服务/微服务&#xff09;绑定到全局分布式事务中的文章&#xff0c;以便自动处理恢复。 多年来&#xff0c;我经常不得不将“非事务性”系统集成到Java EE应用程序服务器中&#xff0c;而数据一致性通…