Caffe源码解析2:SycedMem

from:https://www.cnblogs.com/louyihang-loves-baiyan/p/5150554.html

转载请注明出处,楼燚(yì)航的blog,http://www.cnblogs.com/louyihang loves baiyan/

看到SyncedMem就知道,这是在做内存同步的操作。这类个类的代码比较少,但是作用是非常明显的。文件对应着syncedmem.hpp,着syncedmem.cpp

首先是两个全局的内联函数。如果机器是支持GPU的并且安装了cuda,通过cudaMallocHost分配的host memory将会被pinned,这里我谷歌了一下,pinned的意思就是内存不会被paged out,我们知道内存里面是由页作为基本的管理单元。分配的内存可以常驻在内存空间中对效率是有帮助的,空间不会被别的进程所抢占。同样如果内存越大,能被分配的Pinned内存自然也越大。还有一点是,对于单一的GPU而言提升并不会太显著,但是对于多个GPU的并行而言可以显著提高稳定性。

这里是两个封装过的函数,内部通过cuda来分配主机和释放内存的接口

inline void CaffeMallocHost(void** ptr, size_t size, bool* use_cuda) {
#ifndef CPU_ONLYif (Caffe::mode() == Caffe::GPU) {CUDA_CHECK(cudaMallocHost(ptr, size));// GPU模式下cuda分配内存*use_cuda = true;return;}
#endif*ptr = malloc(size);//如果没有cuda则通过c的malloc函数分配*use_cuda = false;CHECK(*ptr) << "host allocation of size " << size << " failed";
}inline void CaffeFreeHost(void* ptr, bool use_cuda) {
#ifndef CPU_ONLYif (use_cuda) {CUDA_CHECK(cudaFreeHost(ptr));//cuda的主机内存释放操作return;}
#endiffree(ptr);//c的释放操作
}

SyncedMemory类,首先是构造函数和析构函数

class SyncedMemory {public:SyncedMemory() //参数构造函数,负责初始化: cpu_ptr_(NULL), gpu_ptr_(NULL), size_(0), head_(UNINITIALIZED),own_cpu_data_(false), cpu_malloc_use_cuda_(false), own_gpu_data_(false),gpu_device_(-1) {}explicit SyncedMemory(size_t size)//带explicit关键字的,单个参数构造函数,explicit禁止单参数构造函数的隐式转换: cpu_ptr_(NULL), gpu_ptr_(NULL), size_(size), head_(UNINITIALIZED),own_cpu_data_(false), cpu_malloc_use_cuda_(false), own_gpu_data_(false),gpu_device_(-1) {}~SyncedMemory();//其在析构时调用的也是CaffeFreeHost

这几个函数分别是

  const void* cpu_data();void set_cpu_data(void* data);const void* gpu_data();void set_gpu_data(void* data);

cpu_data()主要是获得cpu上data的地址,set_cpu_data是将cpu的data指针指向一个新的区域由data指针传入,并且将原来申请的内存释放。下面两个同理,分别是获得gpu数据地址和set gpu数据地址。

  void* mutable_cpu_data();void* mutable_gpu_data();enum SyncedHead { UNINITIALIZED, HEAD_AT_CPU, HEAD_AT_GPU, SYNCED };SyncedHead head() { return head_; }size_t size() { return size_; }

前两个分别是返回cpu和gpu上的data指针,并且置状态为head_ = HEAD_AT_CPU和响应的gpu版本。SyncedHead主要是个枚举类型,用来设定head_的状态,head()函数即返回相应的数据状态,而size()函数返回数据大小

#ifndef CPU_ONLYvoid async_gpu_push(const cudaStream_t& stream);
#endif

这是一个cuda拷贝的异步传输,从数据从cpu拷贝到gpu,异步传输是已经假定caller会在使用之前做同步操作。

 private:void to_cpu();void to_gpu();void* cpu_ptr_;void* gpu_ptr_;size_t size_;SyncedHead head_;bool own_cpu_data_;bool cpu_malloc_use_cuda_;bool own_gpu_data_;int gpu_device_;DISABLE_COPY_AND_ASSIGN(SyncedMemory);//禁止该类的拷贝与赋值
};  // class SyncedMemory

其实这里的东西也不多了,to_cpu(),to_gpu()这个看名字就知道了,需要注意的是,如果head 是未被初始化的状态,那么首先需要先分配内存,这个根据cpu和gpu视情况而定,之后再将数据从cpu或者gpu拷贝到另一处。之后函数会重新标记Head的状态,数据是否在cpu或者在gpu中,cpu这里是简称,其实是主机。
cpu_ptr和gpu_ptr分别是在cpu和gpu中的数据指针,size_这就不再说了,head_之前也液晶提到过了,后面都是几个相应的标记为,以及gpu的ID号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/458113.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

REST学习

RPC架构与REST架构 RPC&#xff1a;RPC将服务器看作一些列动作的集合(需要做某件事) REST&#xff1a;将服务器看作分布式对象集合&#xff0c;客户端通过调用这些对象上的方法来执行特定的任务&#xff0c;组件交互的可伸缩性、接口的通用性、组件的独立部署、以及用来减少交互…

HI3559A和AI深度学习框架caffe

from:http://blog.sina.com.cn/s/blog_156e567660102ygdf.html 1、HI3559A支持深度学习框架caffe。其中的NNIE神经网络加速单元是主要的属性。 2、caffe是一种快速深度学习框架和TensorFlow一样是一组标准深度学习开源框架。 3、对应想尝试AI深度学习的朋友可以按照网上的流…

UValive4195 Heroes of Money and Magic

斜率优化 想骂人了&#xff0c;马格吉最后调了半小时 TMD造数据的人是SB吧&#xff1f; 我写 while(scanf("%d%d",&n,&m)!EOF&&n) 然后就TMD无限WA...WA...WA... 尼玛 改成while(scanf("%d%d",&n,&m),n) 就过了&#xff0c;就过了…

Google Protocol Buffer 的使用和原理

from: https://www.ibm.com/developerworks/cn/linux/l-cn-gpb/index.html 简介 什么是 Google Protocol Buffer&#xff1f; 假如您在网上搜索&#xff0c;应该会得到类似这样的文字介绍&#xff1a; Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言…

Electron

跨平台桌面app开发 Appjs hex nwjs electron 官网&#xff1a;http://electron.atom.io/ 中文文档&#xff1a;https://github.com/atom/electron/tree/master/docs-translations/zh-CN zcbenz&#xff1a; https://github.com/zcbenz https://github.com/atom/electron simple…

WCF技术剖析之十八:消息契约(Message Contract)和基于消息契约的序列化

在本篇文章中&#xff0c;我们将讨论WCF四大契约&#xff08;服务契约、数据契约、消息契约和错误契约&#xff09;之一的消息契约&#xff08;Message Contract&#xff09;。服务契约关注于对服务操作的描述&#xff0c;数据契约关注于对于数据结构和格式的描述&#xff0c;而…

【深度学习数据集】常用公开图片数据集下载

1.MNIST MNIST是一个手写数字数据库&#xff0c;它有60000个训练样本集和10000个测试样本集&#xff0c;每个样本图像的宽高为28*28。此数据集是以二进制存储的&#xff0c;不能直接以图像格式查看&#xff0c;不过很容易找到将其转换成图像格式的工具。 最早的深度卷积网络Le…

常用的几种卷积神经网络介绍

常用的几种卷积神经网络介绍 标签&#xff08;空格分隔&#xff09;&#xff1a; 深度学习 这是一篇基础理论的博客&#xff0c;基本手法是抄、删、改、查&#xff0c;毕竟介绍这几个基础网络的博文也挺多的&#xff0c;就算是自己的一个笔记吧&#xff0c;以后忘了多看看。主…

计算客 (人人都有极客精神)爆力

人人公司是一家极为鼓舞极客精神的公司&#xff0c;当有重要的项目须要上线但又时间太紧。甚至须要当天上线的时候。往往会挂起海盗旗开启电子日期显示。让大家能够在对时间有更明白的感知的情况下&#xff0c;同心协力搞定重要的项目。海盗旗下方的电子屏显示的日期形式为 YYY…

深度学习案例

1. neural-style&#xff1a;利用卷积神经网络将一幅图像的内容与另一幅图像的风格相结合 https://github.com/jcjohnson/neural-style 2.Nerual Doodles&#xff1a;把 2 位的 Doodle 转成精良的艺术品 https://github.com/alexjc/neural-doodle 3. srez&#xff1a;通过深度…

深度学习图像标注工具汇总

对于监督学习算法而言&#xff0c;数据决定了任务的上限&#xff0c;而算法只是在不断逼近这个上限。世界上最遥远的距离就是我们用同一个模型&#xff0c;但是却有不同的任务。但是数据标注是个耗时耗力的工作&#xff0c;下面介绍几个图像标注工具&#xff1a; Labelme Labe…

UIBarbuttonItem

APPDelegate: - (BOOL)application:(UIApplication *)application didFinishLaunchingWithOptions:(NSDictionary *)launchOptions { self.window [[UIWindow alloc]initWithFrame:[UIScreen mainScreen].bounds]; //创建主界面&#xff0c;导航栏的第一个页面 FirstViewContr…

深度残差网络ResNet解析

ResNet在2015年被提出&#xff0c;在ImageNet比赛classification任务上获得第一名&#xff0c;因为它“简单与实用”并存&#xff0c;之后很多方法都建立在ResNet50或者ResNet101的基础上完成的&#xff0c;检测&#xff0c;分割&#xff0c;识别等领域都纷纷使用ResNet&#x…

Oracle-一个中文汉字占几个字节?

Oracle 一个中文汉字占用几个字节 Oracle 一个中文汉字 占用几个字节&#xff0c;要根据Oracle中字符集编码决定!!! 1. 如果定义为VARCHAR2(32 CHAR),那么该列最多就可以存储32个汉字&#xff0c;如果定义字段为VARCHAR2&#xff08;32&#xff09; 或VARCHAR2&#xff08;32 B…

基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解&#xff0c;就是在给定的图片中精确找到物体所在位置&#xff0c;并标注出物体的类别。object detection要解决的问题就是物体在哪里&#xff0c;是什么这整个流程的问题。然而&#xff0c;这个问题可不是那么容易解决的&#xff0c;物体的尺寸变化范…

iPhone屏幕尺寸/launch尺寸/icon尺寸

屏幕尺寸 6p/6sp 414 X 7366/6s 375 X 6675/5s 320 X 568 4/4s 320 X 480launch尺寸 6p/6sp 1242 X 2208 3x6/6s 750 X 1334 2x5/5s 640 X 1136 2x4/4s 640 X 960 2x仔细观察会发现l…

CNN的发展历史(LeNet,Alexnet,VGGNet,GoogleNet,ReSNet)

欢迎转载&#xff0c;转载请注明&#xff1a;本文出自Bin的专栏blog.csdn.net/xbinworld。 关于卷积神经网络CNN&#xff0c;网络和文献中有非常多的资料&#xff0c;我在工作/研究中也用了好一段时间各种常见的model了&#xff0c;就想着简单整理一下&#xff0c;以备查阅之需…

读取csv格式的数据

1.直接上代码&#xff0c;关键是会用 2.代码如下&#xff1a; <?php #添加推荐到英文站 $file fopen(code.csv,r); while ($data fgetcsv($file)) { //每次读取CSV里面的一行内容 //print_r($data); //此为一个数组&#xff0c;要获得每一个数据&#xff0c;访问数组下…

如何在VMWare的Ubuntu虚拟机中设置共享文件夹

亲测有效&#xff1a;Ubuntu18.04 LTS、虚拟机VMware Workstation 14 Pro 14.1.3 build-9474260、Window7 自己的第一篇博文&#xff0c;由于时&#xff08;shuǐ&#xff09;间&#xff08;png&#xff09;原&#xff08;yǒu&#xff09;因&#xff08;xin&#xff09;&…

容器+AOP实现动态部署(四)

上篇咱们介绍了容器和AOP的结合&#xff0c;结合后怎样将对象增强服务并没有过多的说明&#xff0c;这里将详细说明怎样将对象 进行增强 &#xff0c;达到一个一对多和多对多的增强方式 先从简单的方式说起 /** *JDK代理类&#xff0c;实现动态调用对象方法 */ public class JD…