《昇思 25 天学习打卡营第 4 天 | 数据集 Dataset 》
活动地址:https://xihe.mindspore.cn/events/mindspore-training-camp
签名:Sam9029
数据集
数据是深度学习的基础,可以理解在 深度学习模型 中,数据就是模型训练的基础条件
- MindSpore提供基于Pipeline的数据引擎,通过数据集(Dataset)和数据变换(Transforms)实现高效的数据预处理。
基于Pipeline(管道)的数据引擎是一种数据处理架构,它通过一系列有序的数据处理步骤来处理数据流。
数据集加载
- 同时 MindSpore的领域开发库也提供了大量的预加载数据集,可以使用API一键下载使用
mindspore.dataset提供的接口仅支持解压后的数据文件,因此我们使用download库下载数据集并解压。
from download import download
url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \"notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)
数据集迭代
数据集加载后,一般以迭代方式获取数据,然后送入神经网络中进行训练
默认为上一张 提到的 张量 Tensor 数据类型, 若设置
output_numpy=True
,访问的数据类型为Numpy
。
数据集常用操作
- shuffle : 消除数据排列造成的分布不均问题
- map :对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集。
- batch 将数据集打包为固定大小的batch是在有限硬件资源下使用梯度下降进行模型优化的折中方法,可以保证梯度下降的随机性和优化计算量
自定义数据集
mindspore.dataset模块提供了一些常用的公开数据集和标准格式数据集的加载API
- 可随机访问数据集
- 可迭代数据集
- 生成器
结合上一张了解的 张量 Tensor 数据类型,原来在数据集中表现
深度学习 就是基于 数据数据的处理,数据集就是一类型的数据,不同深度学习模型的方向有对应的数据集
mindscope AI训练框架 提供了大量的预加载数据集,可以使用API一键下载使用,非常方便;
千里之行,始于足下!
我会继续一步一步的保持学习,在 昇思社区 进行 AI 技术方面的探索和学习
希望能给同样对 AI 充满热情的你一些启发。记住,技术的世界无限广阔,让我们一起勇敢地迈出探索的脚步吧!🚀🤖