昨天看到数据集,今天继续。
数据变换
众所周知,我们的原始数据基本不能直接丢进模型里面,需要作一定的操作才可以进行训练。
所以, mindspore为我们提供了一系列的数据变换手段。
- 针对图
- 调整像素的大小 ** Rescale **
- 归一化 ** Normalize **
- 甚至修该格式 ** HWC2CHW **
- 针对文本
- 分词 ** PythonTokenizer **
- 生成词表 ** Vocab **
调整像素的大小,一个像素点可能是0-255的某个值,可以把他缩放成一个0-1的值或者其他。
归一化就是图像的每个通道将根据均值mean
和标准差std
进行调整,计算公式为 o u t p u t = i n p u t − m e a n s t d output = \frac{input - mean}{std} output=stdinput−mean