昇思25天学习打卡营第3天|数据集与数据变换

数据集

  • 数据集(Dataset)
    • 操作
      • shuffle
      • map
      • batch
  • 数据变换(Transforms)
    • Vision Transforms
    • Text Transforms
    • Lambda Transforms
  • 总结

数据集(Dataset)

数据是深度学习的基础,深度神经网络的效果对数据的高质量也有要求。
MindSpore提供基于Pipeline的数据引擎,核心是将训练样本(数据集)高效、灵活的转换至Tensor,并将该Tensor提供给训练网络用于训练。
在这里插入图片描述
加载与迭代访问在打卡第一天也代码演示过了,接下来讲讲数据集的一些操作

操作

shuffle

数据集随机shuffle可以消除数据排列造成的分布不均问题。

train_dataset = train_dataset.shuffle(buffer_size=64)

在这里插入图片描述

map

map操作可以针对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集。

image, label = next(train_dataset.create_tuple_iterator())
train_dataset = train_dataset.map(vision.Rescale(1.0 / 255.0, 0), input_columns='image')
print(image.shape, image.dtype)

输出结果:(28, 28, 1) Float32
这里对数据集做了数据缩放处理,将图像统一除以255,数据类型由uint8转为了float32

batch

将数据集打包为固定大小的batch是在有限硬件资源下使用梯度下降进行模型优化的折中方法,可以保证梯度下降的随机性和优化计算量。
一般会设置一个固定的batch size,将连续的数据分为若干批(batch)。batch后的数据增加一维,大小为batch_size。
例如这里设置size = 32,输出image.shape结果就是(32, 28, 28, 1)
在这里插入图片描述
自定义数据集就不讲了,正常自己做数据集都会打好标签参数再统一处理,符合调用规则。通常情况下直接加载的原始数据并不能直接送入神经网络进行训练,此时需要对其进行数据预处理,MindSpore也是提供不同种类的数据变换。

数据变换(Transforms)

mindspore.dataset提供了面向图像、文本、音频等不同数据类型的Transforms

Vision Transforms

支持多种变换,这里举个compose的例子

composed = transforms.Compose([vision.Rescale(1.0 / 255.0, 0),vision.Normalize(mean=(0.1307,), std=(0.3081,)),vision.HWC2CHW()]
)

Rescale基于给定的缩放和平移因子调整图像的像素大小
Normalize打卡第2天也讲了,用于对输入图像的归一化
HWC2CHW是将输入图像的shape从 <H, W, C> 转换为 <C, H, W>

Text Transforms

与图像数据不同,文本数据需要有分词(Tokenize)、构建词表、Token转Index等操作
举个例子,定义三段文本作为待处理的数据,并使用GeneratorDataset进行加载

texts = ['Welcome to Mindspore']
test_dataset = GeneratorDataset(texts, 'text')def my_tokenizer(content):return content.split()test_dataset = test_dataset.map(text.PythonTokenizer(my_tokenizer))
print(next(test_dataset.create_tuple_iterator()))

输出结果:[Tensor(shape=[3], dtype=String, value= [‘Welcome’, ‘to’, ‘Mindspore’])]

Lambda Transforms

Lambda函数是由一个单独表达式组成的匿名函数,表达式会在调用时被求值。可以加载任意定义的Lambda函数,这里简单设计一个Lambda函数,对输入数据乘2

test_dataset = GeneratorDataset([1, 2, 3], 'data', shuffle=False)
test_dataset = test_dataset.map(lambda x: x * 2)
print(list(test_dataset.create_tuple_iterator()))

输出结果就是246:[[Tensor(shape=[], dtype=Int64, value= 2)], [Tensor(shape=[], dtype=Int64, value= 4)], [Tensor(shape=[], dtype=Int64, value= 6)]]

复杂一点的例如

def func(x):return x * x + 2test_dataset = test_dataset.map(lambda x: func(x))
print(list(test_dataset.create_tuple_iterator()))

输出结果:[[Tensor(shape=[], dtype=Int64, value= 6)], [Tensor(shape=[], dtype=Int64, value= 18)], [Tensor(shape=[], dtype=Int64, value= 38)]]

总结

简单了解数据上的相关操作,更多需要熟练调用函数的功能作用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34570.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣377 组合总和Ⅳ Java版本

文章目录 题目描述代码 题目描述 给你一个由 不同 整数组成的数组 nums &#xff0c;和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。 题目数据保证答案符合 32 位整数范围。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3], targe…

algorithm中常见算法

1、前言 C的<algorithm>库是C标准库中的一个重要组成部分&#xff0c;它提供了一系列的函数&#xff0c;用于执行各种常见的算法操作&#xff0c;比如排序、查找、替换、合并等。这些算法函数通常以模板函数的形式提供&#xff0c;可以用于任何符合特定条件的容器类型。 …

玩个游戏 找以下2个wordpress外贸主题的不同 你几找到几处

Aitken艾特肯wordpress外贸主题 适合中国产品出海的蓝色风格wordpress外贸主题&#xff0c;产品多图展示、可自定义显示产品详细参数。 https://www.jianzhanpress.com/?p7060 Ultra奥创工业装备公司wordpress主题 蓝色风格wordpress主题&#xff0c;适合装备制造、工业设备…

用友U8 Cloud smartweb2.showRPCLoadingTip.d XXE漏洞复现

0x01 产品简介 用友U8 Cloud 提供企业级云ERP整体解决方案,全面支持多组织业务协同,实现企业互联网资源连接。 U8 Cloud 亦是亚太地区成长型企业最广泛采用的云解决方案。 0x02 漏洞概述 用友U8 Cloud smartweb2.showRPCLoadingTip.d 接口处存在XML实体,攻击者可通过该漏…

Origin做聚类分析并利用聚类插件绘制热力图

1.聚类分析 1.1 K均值聚类 step1、首先进行归一化&#xff0c;具体步骤如图1-1所示&#xff1a; 图1-1 操作后得到归一化值如图1-2所示&#xff1a; 图1-2 step2、执行K均值聚类分析&#xff0c;如图1-3所示&#xff0c;选中聚类列&#xff0c;接着点击“统计”—“多变量分析…

webrtc-m120编译

WebRTC实时互动入门 环境 lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.4 LTS Release: 22.04 Codename: jammyuname -a Linux yqw-Lenovo-XiaoXinPro-13ARE-2020

手把手从零开始搭建远程访问服务

远程访问服务工具——FRP frp 是一个能够实现内网穿透的高性能的反向代理应用&#xff0c;支持 TCP、UDP、HTTP、HTTPS 等多种协议。可以将内网服务以安全、便捷的方式通过具有公网的服务器来转发。 资源链接 根据自己服务型号和操作系统来选取对应的文件&#xff0c;不知道的…

VS2019中解决方案里的所有项目都是 <不同选项> 的解决方案

以上等等&#xff0c;全部是 <不同选项>。。。 这样的话&#xff0c;如何还原和查看原有的值呢&#xff0c;就这么丢失掉了吗&#xff1f; 不会&#xff0c;需要解决方案里配置一下。 解决&#xff1a; 解决方案右键属性 -> 配置属性 -> 配置 -> 将所有配置改…

三大办公软件实用小技巧 沈阳办公软件白领必修班

Word 学好办公软件能大大的提升我们的工作效率。下面让我们一起学习一下Word办公软件时几个实用小技巧&#xff01; 01.快速插入当前日期或时间 在使用Word办公软件进行文档的编辑处理时&#xff0c;如果需要在文章的末尾插入系统的当前日期或时间。通常情况下&#xff0c;我…

如何编写时区源文件

0、背景 ① 修改TZ环境变量改变时区不能立即生效。要求设置时区后立即生效&#xff0c;只能用修改/etc/localtime方式。 ② 原文作者 Bill Seymour&#xff0c;想要查看原文&#xff0c;点击官网地址https://www.iana.org/time-zones下载 zic 源码&#xff0c;源码目录中的 tz…

【TB作品】MSP430,G2533单片机,红外发射,红外接收,红外通信,IR发射

文章目录 题目红外NEC协议介绍基本概述数据帧结构位表示数据传输示例重复码&#xff08;Repeat Code&#xff09;实现细节发送端接收端 典型应用结论 最终效果代码 题目 遥控器 硬件&#xff1a;msp430g2553、oled显示器、ds18b20温度传感器、红外发射器、按键 软件功能&#…

Elasticsearch 使用问题记录

文章目录 Elasticsearch 使用问题记录Text类型的字段&#xff0c;无法进行聚合和排序高亮查询匹配过多&#xff0c;超出高亮默认限制 Elasticsearch 使用问题记录 Text类型的字段&#xff0c;无法进行聚合和排序 问题背景&#xff1a;在使用Elasticsearch的过程中&#xff0c;…

【深度学习】基础数据结构+访问

目录 深度学习中的基础数据结构1. N维数组定义特点访问元素 2. 机器学习中常用的数据结构N维数组示例 3. 数学中的访问操作带跳转的子区域访问示例 4. 数学中的访问操作4.1 一维数组&#xff08;向量&#xff09;访问一个区间带步长的区间访问 4.2 二维数组&#xff08;矩阵&am…

MD5加密接口

签名算法 app_key和app_secret由对方系统提供 MD5_CALCULATE_HASH_FOR_CHAR&#xff08;中文加密与JAVA不一致&#xff09; 代码&#xff1a; *获取传输字段名的ASCII码&#xff0c;根据ASCII码对字段名进行排序SELECT * FROM zthr0051WHERE functionid iv_functionidINTO …

vue3 新增一个菜单A ,进入A页面后 再切换到 菜单B页面时 页面是空白 需要刷新浏览器才起效

由于动态路由加载的状态未被 Vue Router 及时更新导致的 强制 Vue Router 重新渲染组件 在 App.vue 或主布局文件中&#xff0c;添加 key 属性来强制组件重新渲染 <template> <router-view :key"$route.fullPath"></router-view> </templat…

成为有影响力的领导者,必须摒弃弱者气息

在当前的职场环境下&#xff0c;每个人都渴望在职场上取得成功&#xff0c;而成为一个有影响力的领导者&#xff0c;更是是许多人梦寐以求的目标。成为有影响力的领导者不仅能为个人的职业发展开辟广阔的道路&#xff0c;还能激发团队的潜力&#xff0c;引领团队走向成功&#…

Vatee万腾平台:智慧时代的创新典范

在数字化浪潮席卷全球的今天&#xff0c;我们迎来了一个全新的智慧时代。在这个时代&#xff0c;科技与生活的融合变得日益紧密&#xff0c;为人们的生活带来了前所未有的便利与革新。其中&#xff0c;Vatee万腾平台凭借其卓越的创新能力和前瞻性的技术布局&#xff0c;成为了智…

Java中Object类有哪些方法?

在Java中&#xff0c;Object类是所有类的父类&#xff0c;每个类都继承自Object类。Object类提供了许多常用的方法&#xff0c;这些方法可以被所有子类访问和使用。以下是Java中Object类的一些常用方法&#xff1a; 1&#xff1a;getClass() 方法&#xff1a;返回对象的运行时…

如何为您的企业实施营销翻译

要为您的业务实施营销翻译&#xff0c;您需要执行以下步骤&#xff1a; 评估市场需求 你首先需要做的事情之一是确定你的产品或服务可以销售的地区或国家。这可以通过 看看在这些地区已经取得成功的竞争对手阅读行业的市场调查和预测&#xff0c;了解市场趋势和潜在机会评估…

【机器学习基础】误差函数与梯度之间的关系

在机器学习和优化领域中&#xff0c;误差函数&#xff08;也称为损失函数&#xff09;和梯度之间有着密切的关系。以下是它们之间的关系&#xff1a; 1. 误差函数&#xff08;损失函数&#xff09;&#xff1a; - 误差函数是衡量模型预测与实际结果之间差异的函数。它通常用…