caffe blob操作

http://blog.luoyetx.com/2015/10/reading-caffe-2/

Blob 在 Caffe 中扮演了重要的角色,用于存储数据和网络参数,同时也在 CPU 和 GPU 之间做了数据同步。Blob 原本在 Caffe 中被表示为一个 4 维数组 (num x channel x height x width),现在可以表示多维数组,最高维数由宏 kMaxBlobAxes 确定,目前 blob.hpp 中设置了 const int kMaxBlobAxes = 32;。Blob 类的代码主要集中在 blob.hpp 和 blob.cpp 中。

数据与相关操作函数

Blob 类主要包括如下成员

1
2
3
4
5
6
shared_ptr<SyncedMemory> data_; // data 数据
shared_ptr<SyncedMemory> diff_; // diff 数据
shared_ptr<SyncedMemory> shape_data_; // 每一维数据的大小
vector<int> shape_; // 跟 shape_data_ 一样
int count_; // 当前容纳的数据大小
int capacity_; // 最大能够容纳的数据大小

其中 SyncedMemory 主要用来实现数据在 CPU 和 GPU 上的管理。同时 Blob 类提供一组函数来操作这些数据。

1
2
3
4
5
6
7
8
9
10
const Dtype* cpu_data() const;
void set_cpu_data(Dtype* data);
const int* gpu_shape() const;
const Dtype* gpu_data() const;
const Dtype* cpu_diff() const;
const Dtype* gpu_diff() const;
Dtype* mutable_cpu_data();
Dtype* mutable_gpu_data();
Dtype* mutable_cpu_diff();
Dtype* mutable_gpu_diff();

我们可以通过这些函数拿到 Blob 内部的数据包括修改 Blob 的内部数据。其中的 Dtype 是泛型类型,在定义 Blob 变量时设置的,一般为 float 或者 double。

Blob 类在内部所存储的数据是一块连续的内存,为了表示多维数组,shape_ 和 shapedata 记录了每一维的大小,这样就能够很轻松地从给出的坐标中计算出 offset 从而得到那个点的数据。由于 Blob 主要还是用来表示 4 维数组 (最初就是这样的),Blob 类中仍使用了 int num(); int channels(); int height(); int width(); 这些函数,其实 num 等价于 shape()[0],channels 等价于 shape()[1],height 等价于 shape()[2],width 等价于 shape()[3]。计算 offset 时可以使用这四个数字或者直接给出坐标。

1
2
int offset(const int n, const int c = 0, const int h = 0, const int w = 0);
int offset(const vector<int>& indices);

有了 Blob 提供的这组函数和上一组函数,我们就可以轻易地操作 Blob 内部的数据了。

动态多维数组

Blob 类可以动态改变数组的尺寸,当拓展数组导致原有内存空间不足以存放下数据时 (count > capacity),就会重新分配内存。Blob 提供了一组 Reshape 函数来完成这个功能。

1
2
3
4
void Reshape(const int num, const int channels, const int height, const int width); // Deprecated
void Reshape(const vector<int>& shape);
void Reshape(const BlobShape& shape);
void ReshapeLike(const Blob& other);

Blob 类在初始化时并没有分配内存,也是通过调用 Reshape 来分配内存的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
template <typename Dtype>
void Blob<Dtype>::Reshape(const vector<int>& shape) {
  CHECK_LE(shape.size(), kMaxBlobAxes); // 检查维数
  count_ = 1; // 用于计算新的多维数组的大小
  shape_.resize(shape.size()); // 更新维数
  if (!shape_data_ || shape_data_->size() < shape.size() * sizeof(int)) {
    // shape_data_ 未初始化或者内存太小
    shape_data_.reset(new SyncedMemory(shape.size() * sizeof(int)));
  }
  int* shape_data = static_cast<int*>(shape_data_->mutable_cpu_data());
  for (int i = 0; i < shape.size(); ++i) {
    CHECK_GE(shape[i], 0);
    CHECK_LE(shape[i], INT_MAX / count_) << "blob size exceeds INT_MAX";
    count_ *= shape[i];
    shape_[i] = shape[i];
    shape_data[i] = shape[i];
  }
  if (count_ > capacity_) {
    // 内存不够
    capacity_ = count_;
    data_.reset(new SyncedMemory(capacity_ * sizeof(Dtype)));
    diff_.reset(new SyncedMemory(capacity_ * sizeof(Dtype)));
  }
}

SyncedMemory

Blob 事实上是对 SyncedMemory 的封装。SyncedMemory 完成了对内存的实际操作,包括数据在 CPU 和 GPU 上的同步。

1
2
3
4
5
6
7
8
9
10
enum SyncedHead { UNINITIALIZED, HEAD_AT_CPU, HEAD_AT_GPU, SYNCED };

void* cpu_ptr_; // cpu 数据
void* gpu_ptr_; // gpu 数据
size_t size_; // 数据大小
SyncedHead head_; // 数据同步状态
bool own_cpu_data_; // 是否拥有当前 cpu 数据
bool cpu_malloc_use_cuda_; // 是否采用 CUDA 来分配 CPU 数据,默认不用
bool own_gpu_data_; // 是否拥有当前 gpu 数据
int gpu_device_; // gpu 数据所在的显卡号

SyncedMemory 内部存放了两份数据,分别位于 CPU 和 GPU 上,用 cpu_ptr 和 gpu_ptr 表示。同时 SyncedMemory 也给出了一组函数来获取和设置实际数据。

1
2
3
4
5
6
const void* cpu_data();
void set_cpu_data(void* data);
const void* gpu_data();
void set_gpu_data(void* data);
void* mutable_cpu_data();
void* mutable_gpu_data();

head_ 表示了数据的同步状态,通过调用 to_cpu() 和 to_gpu() 来做同步。如果 head_ = UNINITIALIZED 则分配相应的内存。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
inline void SyncedMemory::to_cpu() {
  switch (head_) {
  case UNINITIALIZED:
    CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_); // 分配内存
    caffe_memset(size_, 0, cpu_ptr_); // 初始化为 0
    head_ = HEAD_AT_CPU;
    own_cpu_data_ = true;
    break;
  case HEAD_AT_GPU:
#ifndef CPU_ONLY
    if (cpu_ptr_ == NULL) {
      // 如果未初始化,则分配内存
      CaffeMallocHost(&cpu_ptr_, size_, &cpu_malloc_use_cuda_);
      own_cpu_data_ = true;
    }
    // 复制 GPU 数据到 CPU
    caffe_gpu_memcpy(size_, gpu_ptr_, cpu_ptr_);
    head_ = SYNCED;
#else
    NO_GPU;
#endif
    break;
  case HEAD_AT_CPU:
  case SYNCED:
    break;
  }
}

inline void SyncedMemory::to_gpu() {
#ifndef CPU_ONLY
  switch (head_) {
  case UNINITIALIZED:
    CUDA_CHECK(cudaGetDevice(&gpu_device_)); // 获取显卡号
    CUDA_CHECK(cudaMalloc(&gpu_ptr_, size_)); // 在指定显卡上分配内存
    caffe_gpu_memset(size_, 0, gpu_ptr_); // 初始化为 0
    head_ = HEAD_AT_GPU;
    own_gpu_data_ = true;
    break;
  case HEAD_AT_CPU:
    if (gpu_ptr_ == NULL) {
      // 未初始化就在指定显卡上分配内存
      CUDA_CHECK(cudaGetDevice(&gpu_device_));
      CUDA_CHECK(cudaMalloc(&gpu_ptr_, size_));
      own_gpu_data_ = true;
    }
    caffe_gpu_memcpy(size_, cpu_ptr_, gpu_ptr_); // 复制数据
    head_ = SYNCED;
    break;
  case HEAD_AT_GPU:
  case SYNCED:
    break;
  }
#else
  NO_GPU;
#endif
}

数据序列化

Blob 数据可以通过 Protobuf 来做相应的序列化操作,ToProto 和 FromProto 完成相应的序列化操作。

1
2
3
4
5
6
7
8
9
10
11
12
13
message BlobProto {
  optional BlobShape shape = 7;
  repeated float data = 5 [packed = true];
  repeated float diff = 6 [packed = true];
  repeated double double_data = 8 [packed = true];
  repeated double double_diff = 9 [packed = true];

  // 4D dimensions -- deprecated.  Use "shape" instead.
  optional int32 num = 1 [default = 0];
  optional int32 channels = 2 [default = 0];
  optional int32 height = 3 [default = 0];
  optional int32 width = 4 [default = 0];
}

小结

Caffe 通过 SyncedMemory 和 Blob 封装了底层数据,为 Caffe 框架上的其他组件提供最基础的数据抽象,后面的 Layer 参数,Net 参数以及 Solver 的参数等都是 Blob 数据,所以理解 Blob 抽象和管理数据的实现方式有助于后续 Caffe 源码的阅读,也是阅读 Caffe 源码的第一步。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/313170.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

extern __shared__

http://blog.csdn.net/openhero/article/details/3890578 首先是讲一下shared的memory的两种使用方法&#xff0c;然后讲解一下shared memory的bank conflict的问题&#xff0c;这个是shared memory访问能否高效的问题所在&#xff1b; Shared memory的常规使用&#xff1a;…

SiteServer CMS 新版本 V6.13(2019年11月1日发布)

欢迎来到 SiteServer CMS V6.13 版本&#xff0c;经过两个月的连续迭代开发&#xff0c;V6.13版本新增了几项重要功能&#xff0c;我们希望你会喜欢&#xff0c;一些关键的亮点包括&#xff1a;。新增功能及BUG 修复经过两个月的连续迭代开发&#xff0c;V6.13 版本新增了部分功…

CUDA的global内存访问的问题

http://blog.csdn.net/OpenHero/article/details/3520578 关于CUDA的global内存访问的问题&#xff0c;怎么是访问的冲突&#xff0c;怎样才能更好的访问内存&#xff0c;达到更高的速度。下面先看几张图&#xff0c;这些图都是CUDA编程手册上的图&#xff0c;然后分别对这些…

C# 8 新特性 - 异步流 Asynchronous Streams

异步流 Asynchronous Streams例子 这是一个很简单的控制台程序。它有一个NumberFactory&#xff0c;它可以根据传递的参数来产生一串数字&#xff08;IEnumerable<int>&#xff09;。然后在这个程序中把每个数字都打印出来&#xff0c;同时在前边显示出当前的线程ID。 这…

__syncthreads()

http://www.cnblogs.com/dwdxdy/p/3215136.html __syncthreads()是cuda的内建函数&#xff0c;用于块内线程通信. __syncthreads() is you garden variety thread barrier. Any thread reaching the barrier waits until all of the other threads in that block also reach i…

互联网50周年!这有它的一张“出生证明”

2019 年 10 月 29 日是互联网的 50 周年&#xff0c;50 年前(1969 年 10 月 29 日)&#xff0c;加州大学洛杉矶分校的计算机将一个只有两个字母(LO)的数据包发送到斯坦福研究所的计算机上&#xff0c;这是互联网史上的第一个数据包&#xff0c;从此开启互联网时代的第一步。 当…

Eltwise_layer简介

http://www.voidcn.com/blog/thy_2014/article/p-6117416.html common_layer&#xff1a; ArgMaxLayer类&#xff1b; ConcatLayer类&#xff1a; EltwiseLayer类&#xff1b; FlattenLayer类&#xff1b; InnerProductLayer类&#xff1b; MVNLayer类&#xff1b; SilenceLaye…

PowerBI 秒级实时大屏展示方案 全面助力双十一

双十一来了&#xff0c;你准备好了吗&#xff1f;不管你是否准备完毕&#xff0c;我们带来了全网首发的 PowerBI 秒级实时大屏展示方案&#xff0c;你可以直接用来展示双十一的实时状况。我们一步步来说明这个套件模板教程。真实效果功能如下&#xff1a;全实时展示 双十一 当天…

caffe基本函数

http://blog.csdn.net/seven_first/article/details/47378697目录 主要函数 caffe_cpu_gemm 函数caffe_cpu_gemv 函数caffe_axpy 函数caffe_set 函数caffe_add_scalar 函数caffe_copy 函数caffe_scal 函数caffeine_cup_axpby 函数caffe_add caffe_sub caffe_mul caffe_div 函数…

优化 .net core 应用的 dockerfile

优化 .net core 应用的 dockerfileIntro在给 .net core 应用的写 dockerfile 的时候一直有个苦恼&#xff0c;就是如果有很多个项目&#xff0c;在 dockerfile 里写起来就会很繁琐&#xff0c;有很多项目文件要 copy&#xff0c;dockerfile 还不支持直接批量复制项目文件&#…

Ubuntu 上不了网

http://askubuntu.com/questions/441619/how-to-successfully-restart-a-network-without-reboot-over-ssh 指令&#xff1a; sudo service network-manager restart

C# 8 新特性 - 静态本地方法

从C# 8 开始&#xff0c;本地方法就可以是静态的了。 与其他的本地方法不同&#xff0c;静态的本地方法无法捕获任何本地状态量。 直接看例子&#xff1a; 这段代码里有两个本地方法&#xff0c;他们分别对实例的一个字段和方法里的一个本地变量进行了修改操作&#xff0c;也就…

Caffe使用其他人代码CUDA不兼容问题

只要将别人的上层代码使用即可&#xff0c;底层CUDA还是用自己的版本。

​.NET手撸2048小游戏

前言2048是一款益智小游戏&#xff0c;得益于其规则简单&#xff0c;又和 2的倍数有关&#xff0c;因此广为人知&#xff0c;特别是广受程序员的喜爱。本文将再次使用我自制的“准游戏引擎” FlysEngine&#xff0c;从空白窗口开始&#xff0c;演示如何“手撸” 2048小游戏&…

cannot import caffe

遇到问题“cannot import caffe”首先make pycaffe&#xff0c; 如果不行&#xff0c;分别尝试&#xff1a; 1. export PYHTONPATH/path/to/caffe/python:$PYTHONPATH 注&#xff1a;以上方法只能在当前terminal中生效&#xff0c;如需长久生效&#xff0c;需修改~/.bashrc …

自行实现高性能MVC

wcf虽然功能多、扩展性强但是也面临配置忒多&#xff0c;而且restful的功能相当怪异&#xff0c;并且目前没法移植。asp.net core虽然支持webapi&#xff0c;但是功能也相对繁多、配置复杂。就没有一个能让码农们安安心心的写webapi&#xff0c;无需考虑性能、配置、甚至根据问…

caffe matio问题

http://blog.csdn.net/houqiqi/article/details/46469981 注&#xff1a;如果指令行模式实在解决不了/lib/libcaffe.so: undefined reference to Mat_VarReadDataLinear问题&#xff0c;可以尝试在QT下进行训练和测试。 1&#xff0c; 下载matio(http://sourceforge.NET/pro…

技术管理者怎样跳出“泥潭”

近几年面试了不少新人&#xff0c;当问到职业规划时&#xff0c;大多都会说先积累技术&#xff0c;然后往架构师的方向发展。这可能是技术人的一个特质&#xff0c;喜欢跟机器相处&#xff0c;沉浸在代码之中&#xff0c;而不喜欢跟人打交道。现实的情况是&#xff0c;一些中小…

你或许以为你不需要领域驱动设计

作者&#xff1a;邹溪源&#xff0c;长沙资深互联网从业者&#xff0c;架构师社区合伙人&#xff01;一犹记得刚刚参加工作时&#xff0c;是地图厂商四维图新集团旗下的一家子公司&#xff0c;主要从事规划测绘相关软件研发的公司。当时我的项目是为勘测设计院提供相对应的应用…

undefined reference to Mat_VarCreate'

我们之前所写的方法&#xff0c;发现只能在QT编译模式下解决这个问题&#xff0c;而在指令行模式下不能编译通过&#xff0c;因为QT模式基于cmake&#xff0c;而make all基于Makefile 因而我们参照DeepLab的Makefile文件&#xff1a; 发现只要将其中关于matio的内容加到我们的…