【caffe-Windows】基于Python多标签方法——VOC2012数据集

前言

按照上一篇博客所遗留的话题:多标签分类,进行初步探索,此篇博客针对caffe官网的多分类进行配置,只不过是Python接口的,不过官网在开头说明可以使用HDF5或者LMDB进行操作,只不过Python更加方便罢了

国际惯例,贴参考网址:

官网教程:Multilabel classification on PASCAL using python data-layers

数据集(VOC2012)官网:Visual Object Classes Challenge 2012 (VOC2012) 或者直接下载压缩包

【注】虽然大部分和Linux下Python的配置代码方法一样,但是Windows下跑此程序还是有些地方需要改动的。

准备工作

  1. 此电脑上caffe的路径默认为:E:\CaffeDev-GPU\caffe-master\,同时在E:\CaffeDev-GPU\caffe-master\data下新建一个文件夹pascal
  2. 下载完数据集以后是VOCtrainval_11-May-2012.tar这个压缩文件,把此压缩包里VOCdevkit里面的文件夹VOC2012直接拖到上面说的E:\CaffeDev-GPU\caffe-master\data\pascal文件夹中,然后就有了这样几个文件夹
    这里写图片描述
  3. 确保Python接口已经完全配置成功,按照此博客配置即可。由于还不会玩Python(会玩Python的看下面的即可),所以我把编译好的E:\CaffeDev-GPU\caffe-master\Build\x64\Release\pycaffe\caffeC:\Users\Bingo\Anaconda2\Lib\site-packages拷贝了一份的同时,也将E:\CaffeDev-GPU\caffe-master\Build\x64\Release\pycaffe整个复制到E:\CaffeDev-GPU\caffe-master\python,该替换的直接点替换即可。
    【注】这一步主要是为了指定我们的Python是从GPU版本下拷贝过来的,如果会玩Python的同学,请直接指定当前调用的caffeE:\CaffeDev-GPU\caffe-master\Build\x64\Release\pycaffe这个文件夹编译好的即可,不会的话按照我的操作,这样应该会默认调用Anaconda2里面site-packages中的caffe

程序运行

写在前面,以下程序最好一句一句运行调试,为了方便,我适当写成了代码块运行

  1. E:\CaffeDev-GPU\caffe-master\examples下新建一个空文件夹multilabel用于存储我们后面的代码,在此文件夹目录下打开jupyter notebook,即cmd命令如下:

    E:\CaffeDev-GPU\caffe-master\examples\multilabel>jupyter notebook
  2. 在打开的页面中New->Python2,然后逐条语句运行以下程序:

    • 首先导入一些必要的包

      import sys 
      import osimport numpy as np
      import os.path as osp
      import matplotlib.pyplot as pltfrom copy import copy% matplotlib inline
      plt.rcParams['figure.figsize'] = (6, 6)
    • 然后设置一下caffe相关路径并导入caffe,问题就在这里,感觉这个import进来的caffe并不是设置的路径里面的caffe,所以有准备工作中的3操作

      caffe_root = '../../'  # this file is expected to be in {caffe_root}/examples
      sys.path.append(caffe_root + 'python')
      sys.path.append('../../../')
      import caffe
      from caffe import layers as L, params as P
    • 先看看E:\CaffeDev-GPU\caffe-master\examples\pycaffe下有无tools.py这个文件,并import近来,我在这里卡了一会,主要是一直不会用python代码引入一个py文件,不过最后还是瞎折腾引入了

      sys.path.append('../../examples/pycaffe/layers') # the datalayers we will use are in this directory.
      sys.path.append('../../examples/pycaffe') # the tools file is in this folder
      import tools
    • 设置数据集位置以及待会微调所需要的模型bvlc_reference_caffenet.caffemodel,如果你是按照我的博客学caffe,这个文件应该是已经存在于E:\CaffeDev-GPU\caffe-master\models\bvlc_reference_caffenet,如果存在了,以下代码还是在下载,那你得核对一下上面各种路径了

      
      # set data root directory, e.g:pascal_root = osp.join(caffe_root, 'data/pascal/VOC2012')# these are the PASCAL classes, we'll need them later.classes = np.asarray(['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse', 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor'])# make sure we have the caffenet weight downloaded.if not os.path.isfile(caffe_root + 'models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel'):print("Downloading pre-trained CaffeNet model...")!../scripts/download_model_binary.py ../models/bvlc_reference_caffenet
    • 设置caffe的GPU运行模式,这里我也卡了一下,Python一直崩溃,结果发现是自动调用的caffe是我原来在site-packages编译的CPU模式caffe,所以这一步出问题,你也得琢磨一下这个细节

      caffe.set_mode_gpu()
      caffe.set_device(0)
    • 以下便是设计网络结构了,不可能出错

      
      # helper function for common structuresdef conv_relu(bottom, ks, nout, stride=1, pad=0, group=1):conv = L.Convolution(bottom, kernel_size=ks, stride=stride,num_output=nout, pad=pad, group=group)return conv, L.ReLU(conv, in_place=True)# another helper functiondef fc_relu(bottom, nout):fc = L.InnerProduct(bottom, num_output=nout)return fc, L.ReLU(fc, in_place=True)# yet another helper functiondef max_pool(bottom, ks, stride=1):return L.Pooling(bottom, pool=P.Pooling.MAX, kernel_size=ks, stride=stride)# main netspec wrapperdef caffenet_multilabel(data_layer_params, datalayer):# setup the python data layer n = caffe.NetSpec()n.data, n.label = L.Python(module = 'pascal_multilabel_datalayers', layer = datalayer, ntop = 2, param_str=str(data_layer_params))# the net itselfn.conv1, n.relu1 = conv_relu(n.data, 11, 96, stride=4)n.pool1 = max_pool(n.relu1, 3, stride=2)n.norm1 = L.LRN(n.pool1, local_size=5, alpha=1e-4, beta=0.75)n.conv2, n.relu2 = conv_relu(n.norm1, 5, 256, pad=2, group=2)n.pool2 = max_pool(n.relu2, 3, stride=2)n.norm2 = L.LRN(n.pool2, local_size=5, alpha=1e-4, beta=0.75)n.conv3, n.relu3 = conv_relu(n.norm2, 3, 384, pad=1)n.conv4, n.relu4 = conv_relu(n.relu3, 3, 384, pad=1, group=2)n.conv5, n.relu5 = conv_relu(n.relu4, 3, 256, pad=1, group=2)n.pool5 = max_pool(n.relu5, 3, stride=2)n.fc6, n.relu6 = fc_relu(n.pool5, 4096)n.drop6 = L.Dropout(n.relu6, in_place=True)n.fc7, n.relu7 = fc_relu(n.drop6, 4096)n.drop7 = L.Dropout(n.relu7, in_place=True)n.score = L.InnerProduct(n.drop7, num_output=20)n.loss = L.SigmoidCrossEntropyLoss(n.score, n.label)return str(n.to_proto())
    • 将网络结构写入prototxt里面,这里有一个坑就是/\的问题,我们在程序中尽量用/,因为\经常用于做转义字符使用,所以在prototxt中遇到类似\train\XXXX的文件,将会读取rain文件夹,因为\t被当成制表符了,这里也卡了我一下,解决方法如下:

      workdir = './pascal_multilabel_with_datalayer//'
      if not os.path.isdir(workdir):os.makedirs(workdir)solverprototxt = tools.CaffeSolver(trainnet_prototxt_path = osp.join(workdir, "trainnet.prototxt"), testnet_prototxt_path = osp.join(workdir, "valnet.prototxt"))
      solverprototxt.sp['display'] = "1"
      solverprototxt.sp['base_lr'] = "0.0001"
      solverprototxt.write(osp.join(workdir, 'solver.prototxt'))# write train net.with open(osp.join(workdir, 'trainnet.prototxt'), 'w') as f:# provide parameters to the data layer as a python dictionary. Easy as pie!data_layer_params = dict(batch_size = 128, im_shape = [227, 227], split = 'train', pascal_root = pascal_root)f.write(caffenet_multilabel(data_layer_params, 'PascalMultilabelDataLayerSync'))# write validation net.with open(osp.join(workdir, 'valnet.prototxt'), 'w') as f:data_layer_params = dict(batch_size = 128, im_shape = [227, 227], split = 'val', pascal_root = pascal_root)f.write(caffenet_multilabel(data_layer_params, 'PascalMultilabelDataLayerSync'))
    • 载入网络结构

      solver = caffe.SGDSolver(osp.join(workdir, 'solver.prototxt'))

      应该会出现下面这个输出

      BatchLoader initialized with 5717 images
      PascalMultilabelDataLayerSync initialized for split: train, with bs: 128, im_shape: [227, 227].
      BatchLoader initialized with 5823 images
      PascalMultilabelDataLayerSync initialized for split: val, with bs: 128, im_shape: [227, 227].
    • 比较奇怪的是下面这几句话我执行的结果是输出一张啥都没有的图,但是官网有图片被取出来,奇怪。

      transformer = tools.SimpleTransformer() # This is simply to add back the bias, re-shuffle the color channels to RGB, and so on...
      image_index = 100 # First image in the batch.
      plt.figure()
      plt.imshow(transformer.deprocess(copy(solver.net.blobs['data'].data[image_index, ...])))
      gtlist = solver.net.blobs['label'].data[image_index, ...].astype(np.int)
      plt.title('GT: {}'.format(classes[np.where(gtlist)]))
      plt.axis('off');
      print(classes)

      这是我的程序输出,自行对照官网的输出
      这里写图片描述

    • 依据官网所说,必须用一个方法去度量准确率,而在多标签中常用的方法是海明距离Hamming distance,仅仅需要一个简单的循环操作,如下:

      def hamming_distance(gt, est):return sum([1 for (g, e) in zip(gt, est) if g == e]) / float(len(gt))def check_accuracy(net, num_batches, batch_size = 128):acc = 0.0for t in range(num_batches):net.forward()gts = net.blobs['label'].dataests = net.blobs['score'].data > 0for gt, est in zip(gts, ests): #for each ground truth and estimated label vectoracc += hamming_distance(gt, est)return acc / (num_batches * batch_size)
    • 训练模型

      for itt in range(6):solver.step(100)print 'itt:{:3d}'.format((itt + 1) * 100), 'accuracy:{0:.4f}'.format(check_accuracy(solver.test_nets[0], 50))

      这里慢慢等,会有输出的,而且cmd窗口可以看到具体迭代了多少次,Python窗口100次提示一次

      itt:100 accuracy:0.9239
      itt:200 accuracy:0.9236
      itt:300 accuracy:0.9239
      itt:400 accuracy:0.9240
      itt:500 accuracy:0.9237
      itt:600 accuracy:0.9241
    • 检查一下基本准确率

      def check_baseline_accuracy(net, num_batches, batch_size = 128):acc = 0.0for t in range(num_batches):net.forward()gts = net.blobs['label'].dataests = np.zeros((batch_size, len(gts)))for gt, est in zip(gts, ests): #for each ground truth and estimated label vectoracc += hamming_distance(gt, est)return acc / (num_batches * batch_size)print 'Baseline accuracy:{0:.4f}'.format(check_baseline_accuracy(solver.test_nets[0], 5823/128))

      输出

      Baseline accuracy:0.9238
    • 可视化一些结果看看

      test_net = solver.test_nets[0]
      for image_index in range(5):plt.figure()plt.imshow(transformer.deprocess(copy(test_net.blobs['data'].data[image_index, ...])))gtlist = test_net.blobs['label'].data[image_index, ...].astype(np.int)estlist = test_net.blobs['score'].data[image_index, ...] > 0plt.title('GT: {} \n EST: {}'.format(classes[np.where(gtlist)], classes[np.where(estlist)]))plt.axis('off')
    • 输出结果分别有
      这里写图片描述
      这里写图片描述
      这里写图片描述
      这里写图片描述
      这里写图片描述

    整个程序至此结束,容易出错的就在于各种路径的书写上,请自行核对,必要时使用bat核对错误,因为bat调试很少崩溃。下一步研究研究文章开头说的使用HDF5格式制作多标签数据集并训练测试看看。

附件

包含代码,以及对应产出的各种文件(主要是prototxt文件)的程序打包:链接:http://pan.baidu.com/s/1nvofWJf 密码:m1h0

数据集请自行去官网下载,可以使用迅雷好像,速度蛮快的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/246646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【theano-windows】学习笔记二——theano中的函数和共享参数

前言 上一篇博客中学到了theano中的变量类型,也就是dscalar、dvector之类的, 然后还有一个theano.function和eval函数, 将我们所定义的操作转换成theano可执行的函数,类似于def, 还有就是简单的线性代数运算操作。 在神经网络(NN)中, 我们声明了权重、…

【theano-windows】学习笔记三——theano中的导数

前言 就一个NN而言,包含梯度、偏置、参数更新,而前面第一篇博客学习了theano中符号变量的定义, 第二篇博客学习了变量的随机初始化, 变量之间的互相操作(类似于sigmoid(w∗xb)), 但是参数更新还应涉及到损失函数的偏导计算,这一章节就是看看…

【theano-windows】学习笔记五——theano中张量部分函数

前言 至此感觉应该可以写出一个logistic回归程序了,但是为了达到对theano中张量的更灵活的使用, 还是先看一下thenao.tensor对变量都提供了哪些操作,最全的文档戳这里或者这里, 这里就稍微摘取一点自我感觉以后可能用得多的函数 基本张量函数 创建张量…

【theano-windows】学习笔记六——theano中的循环函数scan

前言 Scan是Theano中最基础的循环函数, 官方教程主要是通过大量的例子来说明用法. 不过在学习的时候我比较习惯先看看用途, 然后是参数说明, 最后再是研究实例. 国际惯例, 参考网址 官网关于Scan的11个例子 官网更全面的介绍 简介 用途 递归的一般形式, 可以被用于循环s…

【theano-windows】学习笔记九——softmax手写数字分类

前言 上一篇博客折腾了数据集的预备知识, 接下来按照官方的Deep learning 0.1 documentation一步步走, 先折腾softmax, 关于softmax和logistic回归分类的联系, 我在之前写过一个小博客 国际惯例, 参考博客走一波: Classifying MNIST digits using Logistic Regression soft…

【theano-windows】学习笔记十——多层感知机手写数字分类

前言 上一篇学习了softmax, 然后更进一步就是学习一下基本的多层感知机(MLP)了. 其实多层感知机同时就是w*xb用某个激活函数激活一下, 得到的结果作为下一层神经元的输入x, 类似于 output⋯f3(f2(f1(x∗w1b2)∗w2b2)∗w3b3)⋯output=\cdots f^3(f^2(f^1(x*w^1+b^2)*w^2+b^2)*…

【theano-windows】学习笔记十一——theano中与神经网络相关函数

前言 经过softmax和MLP的学习, 我们发现thenao.tensor中除了之前的博客【theano-windows】学习笔记五——theano中张量部分函数提到的张量的定义和基本运算外, 还有一个方法称为nnet, 如果自己实现过前面两篇博客中的代码就会发现用到了theano.tensor.nnet.sigmoid和thenao.te…

【caffe-windows】全卷积网络特征图分析

前言 突然就想分析一下全卷积网络的转置卷积部分了, 就是这么猝不及防的想法, 而且这个网络对图片的输入大小无要求,这么神奇的网络是时候分析一波了,我个人的学习方法调试代码,然后对照论文看理论 本次分析主要针对每层的权重大小和特征图…

【theano-windows】学习笔记十二——卷积神经网络

前言 按照进度, 学习theano中的卷积操作 国际惯例, 来一波参考网址 Convolutional Neural Networks (LeNet) 卷积神经网络如何应用在彩色图像上? 卷积小知识 三大特性:局部感知(稀疏连接), 权值共享, 池化 上图很重要, 描述的是前一个隐层m-1具有四…

【theano-windows】学习笔记十三——去噪自编码器

前言 上一章节学习了卷积的写法,主要注意的是其实现在theano.tensor.nnet和theano.sandbox.cuda.dnn中都有对应函数实现, 这一节就进入到无监督或者称为半监督的网络构建中. 首先是自编码器(Autoencoders)和降噪自编码器(denoising Autoencoders) 国际惯例, 参考网址: Denoi…

【theano-windows】学习笔记十四——堆叠去噪自编码器

前言 前面已经学习了softmax,多层感知器,CNN,AE,dAE,接下来可以仿照多层感知器的方法去堆叠自编码器 国际惯例,参考文献: Stacked Denoising Autoencoders (SdA) Greedy Layer-Wise Training of Deep Networks 理…

【theano-windows】学习笔记十五——受限玻尔兹曼机

前言 终于到了最喜欢的模型: 受限玻尔兹曼机(RBM)了, 发现关于RBM是如何从能量模型发展过来的介绍非常不错, 而关于详细理论证明, 可以去看我前面的受限玻尔兹曼机的一系列博客. 国际惯例, 参考博客,超级强推第二个博客, 证明过程很给力: Restricted Boltzmann Machines (R…

【Ogre-windows】环境配置

前言 由于工程原因, 学习一下Ogre面向对象图形渲染开源引擎, 慢慢爬坑吧。首先还是环境的配置问题哎. 其实最重要的是要预先编译三方库, 虽然官方说可以自动编译, 但是在自己电脑上还是出现了无法解析外部符号之类的问题, 正常情况下我就认为是三方库的lib出现了问题, 最后额外…

【theano-windows】学习笔记十六——深度信念网络DBN

前言 前面学习了受限玻尔兹曼机(RBM)的理论和搭建方法, 如果稍微了解过的人, 肯定知道利用RBM可以堆叠构成深度信念网络(deep belief network, DBN)和深度玻尔兹曼机(deep Boltzmann machine), 这里就先学习一下DBN. 国际惯例, 参考博文: Deep Belief Networks A fast lear…

【Ogre-windows】实例配置

前言 折腾了好久才搞定教程实例, 主要是因为上一篇博客安装的具体版本是Ogre1.10.9, 而官方的Ogre Wiki Tutorial Framework没有指定具体版本, 如果单纯下载Ogre Wiki Tutorial Framework 1.10 - (Windows line endings, updated 2015-10-15) 运行, 基本会血崩. 所以, 在经过仔…

【Ogre-windows】旋转矩阵及位置解析

前言 这篇博客主要针对三种问题 如何创建动画帧如何获取全局位置如何计算全局旋转矩阵 仿真环境为VS2013Ogre1.10.9与matlab验证 创建动画帧 这里只做一个简单的实验: 将自带的人物模型Jaiqua的run运动给新创建的运动myrun中并播放,直接贴代码了 void JaiQua:…

BP推导——续

前言 之前有证明过一次人工神经网络——【BP】反向传播算法证明 ,但是回头看的时候,有很多地方非常不严谨,特此拿出来再单独证明一次BP,并严格保证其严谨性。如果想看看粗略的证明,可以去看我之前的博客,毕…

matlab学习——强连通分量

前言 最近motion graph相关实验,发现实现运动过渡需要构建运动图,而为了避免运动过渡陷入死胡同,需要对图结构进行裁剪,方法就是计算图模型的极大强联通分量,但是自己懒得去实现,所以就去搜了一下matlab中…

【音频处理】离散傅里叶变换

前言 最近复现音乐驱动舞蹈的文章《Dancing-to-Music Character Animation》,用到了与傅里叶变换很相似的称为常Q变换的方法去分割音乐,所以对傅里叶变换做了一个小了解,本文不深入各种乱糟糟的理论,比如什么蝶形算法啥的&#x…

【音频处理】短时傅里叶变换

前言 上一篇博客讲了离散傅里叶变换,里面的实例是对整个信号进行计算,虽然理论上有N点傅里叶变换(本博客就不区分FFT和DFT了,因为它俩就是一个东东,只不过复杂度不同),但是我个人理解是这个N点是信号前面连续的N个数值…