cifar10 c语言,Python3读取深度学习CIFAR-10数据集出现的若干问题解决

今天在看网上的视频学习深度学习的时候,用到了CIFAR-10数据集。当我兴高采烈的运行代码时,却发现了一些错误:

# -*- coding: utf-8 -*-

import pickle as p

import numpy as np import os def load_CIFAR_batch(filename): """ 载入cifar数据集的一个batch """ with open(filename, 'r') as f: datadict = p.load(f) X = datadict['data'] Y = datadict['labels'] X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float") Y = np.array(Y) return X, Y def load_CIFAR10(ROOT): """ 载入cifar全部数据 """ xs = [] ys = [] for b in range(1, 6): f = os.path.join(ROOT, 'data_batch_%d' % (b,)) X, Y = load_CIFAR_batch(f) xs.append(X) ys.append(Y) Xtr = np.concatenate(xs) Ytr = np.concatenate(ys) del X, Y Xte, Yte = load_CIFAR_batch(os.path.join(ROOT, 'test_batch')) return Xtr, Ytr, Xte, Yte

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

错误代码如下:

'gbk' codec can't decode byte 0x80 in position 0: illegal multibyte sequence

1

于是乎开始各种搜索问题,问大佬,网上的答案都是类似:

cd311254677653b15395f38833269c6f.png

然而并没有解决问题!还是错误的!(我大概搜索了一下午吧,都是上面的答案)

哇,就当我很绝望的时候,我终于发现了一个新奇的答案,抱着试一试的态度,尝试了一下:

def load_CIFAR_batch(filename):

""" 载入cifar数据集的一个batch """ with open(filename, 'rb') as f: datadict = p.load(f, encoding='latin1') X = datadict['data'] Y = datadict['labels'] X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float") Y = np.array(Y) return X, Y

1

2

3

4

5

6

7

8

9

10

竟然成功了,这里没有报错了!欣喜之余,我就很好奇,encoding=’latin1’到底是啥玩意呢,以前没有见过啊?于是,我搜索了一下,了解到:

Latin1是ISO-8859-1的别名,有些环境下写作Latin-1。ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号。

因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性,MySQL数据库默认编码是Latin1就是利用了这个特性。ASCII编码是一个7位的容器,ISO-8859-1编码是一个8位的容器。

还没等我高兴起来,运行后,又发现了一个问题:

memory error

1

什么鬼?内存错误!哇,原来是数据大小的问题。

X = X.reshape(10000, 3, 32, 32).transpose(0,2,3,1).astype("float")

1

这告诉我们每批数据都是10000 * 3 * 32 * 32,相当于超过3000万个浮点数。 float数据类型实际上与float64相同,意味着每个数字大小占8个字节。这意味着每个批次占用至少240 MB。你加载6这些(5训练+ 1测试)在总产量接近1.4 GB的数据。

for b in range(1,2):

f = os.path.join(ROOT, 'data_batch_%d' % (b,)) X, Y = load_CIFAR_batch(f) xs.append(X) ys.append(Y)

1

2

3

4

5

所以如有可能,如上代码所示只能一次运行一批。

到此为止,错误基本搞定,下面贴出正确代码:

# -*- coding: utf-8 -*-

import pickle as p

import numpy as np import os def load_CIFAR_batch(filename): """ 载入cifar数据集的一个batch """ with open(filename, 'rb') as f: datadict = p.load(f, encoding='latin1') X = datadict['data'] Y = datadict['labels'] X = X.reshape(10000, 3, 32, 32).transpose(0, 2, 3, 1).astype("float") Y = np.array(Y) return X, Y def load_CIFAR10(ROOT): """ 载入cifar全部数据 """ xs = [] ys = [] for b in range(1, 2): f = os.path.join(ROOT, 'data_batch_%d' % (b,)) X, Y = load_CIFAR_batch(f) xs.append(X) #将所有batch整合起来 ys.append(Y) Xtr = np.concatenate(xs) #使变成行向量,最终Xtr的尺寸为(50000,32,32,3) Ytr = np.concatenate(ys) del X, Y Xte, Yte = load_CIFAR_batch(os.path.join(ROOT, 'test_batch')) return Xtr, Ytr, Xte, Yte

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

import numpy as np

from julyedu.data_utils import load_CIFAR10

import matplotlib.pyplot as plt plt.rcParams['figure.figsize'] = (10.0, 8.0) plt.rcParams['image.interpolation'] = 'nearest' plt.rcParams['image.cmap'] = 'gray' # 载入CIFAR-10数据集 cifar10_dir = 'julyedu/datasets/cifar-10-batches-py' X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir) # 看看数据集中的一些样本:每个类别展示一些 print('Training data shape: ', X_train.shape) print('Training labels shape: ', y_train.shape) print('Test data shape: ', X_test.shape) print('Test labels shape: ', y_test.shape)

顺便看一下CIFAR-10数据组成:

9e72ea20e2a50ce454268449a2a9356a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/259388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java程序性能优化

一、避免在循环条件中使用复杂表达式 在不做编译优化的情况下,在循环中,循环条件会被反复计算,如果不使用复杂表达式,而使循环条件值不变的话,程序将会运行的更快。 例子: import java.util.vector; class …

asp.net表单提交方法:GET\POST介绍

表单form的提交有两种方式&#xff0c;一种是get的方法&#xff0c;一种是post 的方法&#xff0c;如果没有特殊指定&#xff0c;默认为post。看下面代码,理解ASP.NET Get和Post两种提交的区别: 1.< form id"form1" method"get" runat"server"…

各种排序算法总结

转载&#xff1a;http://blog.csdn.net/warringah1/article/details/8951220 明天就要去参加阿里巴巴的实习生笔试了&#xff0c;虽然没想着能进去&#xff0c;但是态度还是要端正的&#xff0c;也没什么可以准备的&#xff0c;复习复习排序吧。 1 插入排序 void InsertSort(in…

CentOS7 上安装 Zookeeper-3.4.9 服务

在 CentOS7 上安装 zookeeper-3.4.9 服务1、创建 /usr/local/services/zookeeper 文件夹&#xff1a; mkdir -p /usr/local/services/zookeeper 2、进入到 /usr/local/services/zookeeper 目录中&#xff1a; cd /usr/local/services/zookeeper 3、下载 zookeeper-3.4.9.…

c语言在程序中显示现在星期几,C语言程序设计: 输入年月日 然后输出是星期几...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼#include main(){int year,month,day0,a,b,week,c,i,sum0,days,d;printf("please input year,month,days\n");scanf("%d,%d,%d",&year,&month,&days);for(i1;i{if (year%40){if(year%1000){if (ye…

static之用法

本文转载于http://www.cnblogs.com/stoneJin/archive/2011/09/21/2183313.html 在C语言中&#xff0c;static的字面意思很容易把我们导入歧途&#xff0c;其实它的作用有三条。 &#xff08;1&#xff09;先来介绍它的第一条也是最重要的一条&#xff1a;隐藏。 当我们同时编译…

HTTP响应报文与工作原理详解

HTTP 是一种请求/响应式的协议&#xff0c;即一个客户端与服务器建立连接后&#xff0c;向服务器发送一个请求;服务器接到请求后&#xff0c;给予相应的响应信息。 超文本传输协议(Hypertext Transfer Protocol&#xff0c;简称HTTP)是应用层协议。HTTP 是一种请求/响应式的协议…

优先队列priority_queue 用法详解

转载&#xff1a; 1.优先队列priority_queue 用法详解 2.STL系列之五 priority_queue 优先级队列 优先队列是队列的一种&#xff0c;不过它可以按照自定义的一种方式&#xff08;数据的优先级&#xff09;来对队列中的数据进行动态的排序 每次的push和pop操作&#xff0c;队…

android自定义画板,android 自定义控件 -- 画板

如图&#xff1a;package com.example.myview;import android.content.Context;import android.graphics.Canvas;import android.graphics.Color;import android.graphics.Paint;import android.graphics.Path;import android.graphics.Paint.Style;import android.util.Attrib…

postgreSQl pathman 用法语句总结

2019独角兽企业重金招聘Python工程师标准>>> --新建主表 create table part_test(id int, info text, crt_time timestamp not null); --插入测试数据 insert into part_test select id,md5(random()::text),clock_timestamp() (id|| hour)::interval from generat…

Oracle查询笔记

-- tanslate(str,from_str,to_str) -- 将str中的from_str替换成to_str select translate(hello,e,o) t from dual;-- instr(str,des_str) -- 可以实现like功能 select instr(hello,g),instr(hello,h),instr(hello,l) from dual; -- decode(value,s1,r1,s2,r2,default) -- 类似于…

全排列算法及实现

转载&#xff1a; 1.http://blog.csdn.net/hackbuteer1/article/details/6657435 2.http://blog.sina.com.cn/s/blog_9f7ea4390101101u.html 3.http://www.slyar.com/blog/stl_next_permutation.html 4.http://www.cplusplus.com/reference/algorithm/next_permutation/ 5…

ssh配置文件详解

配置“/etc/ssh/sshd_config”文件 “/etc/ssh/sshd_config”是OpenSSH的配置文件&#xff0c;允许设置选项改变这个daemon的运行。这个文件的每一行包含“关键词&#xff0d;值”的匹配&#xff0c;其中“关键词”是忽略大小写的。下面列出来的是最重要的关键词&#xff0…

EC+VO+SCOPE for ES3

词法环境 词法作用域 词法作用域&#xff08;lexcical scope&#xff09;。即JavaScript变量的作用域是在定义时决定而不是执行时决定&#xff0c;也就是说词法作用域取决于源码。 词法环境 用于定义特定变量和函数标识符在ECMAScript代码的词法嵌套结构上的关联关系&#xff0…

你真的会写二分检索吗?

转载&#xff1a;http://blog.chinaunix.net/uid-1844931-id-3337784.html 前几天在论坛上看到有统计说有80%的程序员不能够写对简单的二分法。二分法不是很简单的吗&#xff1f; 这难道不是耸人听闻&#xff1f; 其实&#xff0c;二分法真的不那么简单&#xff0c;尤其是二…

android listview动态加载网络图片不显示,Android Listview异步动态加载网络图片

Android Listview异步动态加载网络图片详见&#xff1a; http://blog.sina.com.cn/s/blog_62186b460100zsvb.html标签&#xff1a; Android SDK代码片段(5)[代码] (1)定义类MapListImageAndText管理ListViewItem中控件的内容01 package com.google.zxing.client.android.AsyncL…

C#-面向对象的多态思想 ---ShinePans

总结: 多态是面向对象的核心.---------能够理解为一个方法,多种实现, 在这里能够用虚方法,抽象类,接口能够实现多态 1.首先利用接口来实现多态: 接口相当于"功能,"接口能够实现多继承,分为 显式实现接口和隐式实现接口 keyword为interface格式: interface 接口名 { …

wxpy 0.1.2微信机器人 / 优雅的微信个人号API

微信机器人 / 优雅的微信个人号API&#xff0c;基于 itchat&#xff0c;全面优化接口&#xff0c;更有 Python 范儿。用来干啥一些常见的场景控制路由器、智能家居等具有开放接口的玩意儿跑脚本时自动把日志发送到你的微信加群主为好友&#xff0c;自动拉进群中跨号或跨群转发消…

c++中try catch的用法

在c中&#xff0c;可以直接抛出异常之后自己进行捕捉处理&#xff0c;如&#xff1a;&#xff08;这样就可以在任何自己得到不想要的结果的时候进行中断&#xff0c;比如在进行数据库事务操作的时候&#xff0c;如果某一个语句返回SQL_ERROR则直接抛出异常&#xff0c;在catch块…

const in c and cpp

http://c-faq.com/ansi/constasconst.html 转载于:https://www.cnblogs.com/invisible/p/3333575.html