昇思25天学习打卡营第3天|数据集与数据变换

数据集

  • 数据集(Dataset)
    • 操作
      • shuffle
      • map
      • batch
  • 数据变换(Transforms)
    • Vision Transforms
    • Text Transforms
    • Lambda Transforms
  • 总结

数据集(Dataset)

数据是深度学习的基础,深度神经网络的效果对数据的高质量也有要求。
MindSpore提供基于Pipeline的数据引擎,核心是将训练样本(数据集)高效、灵活的转换至Tensor,并将该Tensor提供给训练网络用于训练。
在这里插入图片描述
加载与迭代访问在打卡第一天也代码演示过了,接下来讲讲数据集的一些操作

操作

shuffle

数据集随机shuffle可以消除数据排列造成的分布不均问题。

train_dataset = train_dataset.shuffle(buffer_size=64)

在这里插入图片描述

map

map操作可以针对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集。

image, label = next(train_dataset.create_tuple_iterator())
train_dataset = train_dataset.map(vision.Rescale(1.0 / 255.0, 0), input_columns='image')
print(image.shape, image.dtype)

输出结果:(28, 28, 1) Float32
这里对数据集做了数据缩放处理,将图像统一除以255,数据类型由uint8转为了float32

batch

将数据集打包为固定大小的batch是在有限硬件资源下使用梯度下降进行模型优化的折中方法,可以保证梯度下降的随机性和优化计算量。
一般会设置一个固定的batch size,将连续的数据分为若干批(batch)。batch后的数据增加一维,大小为batch_size。
例如这里设置size = 32,输出image.shape结果就是(32, 28, 28, 1)
在这里插入图片描述
自定义数据集就不讲了,正常自己做数据集都会打好标签参数再统一处理,符合调用规则。通常情况下直接加载的原始数据并不能直接送入神经网络进行训练,此时需要对其进行数据预处理,MindSpore也是提供不同种类的数据变换。

数据变换(Transforms)

mindspore.dataset提供了面向图像、文本、音频等不同数据类型的Transforms

Vision Transforms

支持多种变换,这里举个compose的例子

composed = transforms.Compose([vision.Rescale(1.0 / 255.0, 0),vision.Normalize(mean=(0.1307,), std=(0.3081,)),vision.HWC2CHW()]
)

Rescale基于给定的缩放和平移因子调整图像的像素大小
Normalize打卡第2天也讲了,用于对输入图像的归一化
HWC2CHW是将输入图像的shape从 <H, W, C> 转换为 <C, H, W>

Text Transforms

与图像数据不同,文本数据需要有分词(Tokenize)、构建词表、Token转Index等操作
举个例子,定义三段文本作为待处理的数据,并使用GeneratorDataset进行加载

texts = ['Welcome to Mindspore']
test_dataset = GeneratorDataset(texts, 'text')def my_tokenizer(content):return content.split()test_dataset = test_dataset.map(text.PythonTokenizer(my_tokenizer))
print(next(test_dataset.create_tuple_iterator()))

输出结果:[Tensor(shape=[3], dtype=String, value= [‘Welcome’, ‘to’, ‘Mindspore’])]

Lambda Transforms

Lambda函数是由一个单独表达式组成的匿名函数,表达式会在调用时被求值。可以加载任意定义的Lambda函数,这里简单设计一个Lambda函数,对输入数据乘2

test_dataset = GeneratorDataset([1, 2, 3], 'data', shuffle=False)
test_dataset = test_dataset.map(lambda x: x * 2)
print(list(test_dataset.create_tuple_iterator()))

输出结果就是246:[[Tensor(shape=[], dtype=Int64, value= 2)], [Tensor(shape=[], dtype=Int64, value= 4)], [Tensor(shape=[], dtype=Int64, value= 6)]]

复杂一点的例如

def func(x):return x * x + 2test_dataset = test_dataset.map(lambda x: func(x))
print(list(test_dataset.create_tuple_iterator()))

输出结果:[[Tensor(shape=[], dtype=Int64, value= 6)], [Tensor(shape=[], dtype=Int64, value= 18)], [Tensor(shape=[], dtype=Int64, value= 38)]]

总结

简单了解数据上的相关操作,更多需要熟练调用函数的功能作用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34570.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

algorithm中常见算法

1、前言 C的<algorithm>库是C标准库中的一个重要组成部分&#xff0c;它提供了一系列的函数&#xff0c;用于执行各种常见的算法操作&#xff0c;比如排序、查找、替换、合并等。这些算法函数通常以模板函数的形式提供&#xff0c;可以用于任何符合特定条件的容器类型。 …

玩个游戏 找以下2个wordpress外贸主题的不同 你几找到几处

Aitken艾特肯wordpress外贸主题 适合中国产品出海的蓝色风格wordpress外贸主题&#xff0c;产品多图展示、可自定义显示产品详细参数。 https://www.jianzhanpress.com/?p7060 Ultra奥创工业装备公司wordpress主题 蓝色风格wordpress主题&#xff0c;适合装备制造、工业设备…

用友U8 Cloud smartweb2.showRPCLoadingTip.d XXE漏洞复现

0x01 产品简介 用友U8 Cloud 提供企业级云ERP整体解决方案,全面支持多组织业务协同,实现企业互联网资源连接。 U8 Cloud 亦是亚太地区成长型企业最广泛采用的云解决方案。 0x02 漏洞概述 用友U8 Cloud smartweb2.showRPCLoadingTip.d 接口处存在XML实体,攻击者可通过该漏…

Origin做聚类分析并利用聚类插件绘制热力图

1.聚类分析 1.1 K均值聚类 step1、首先进行归一化&#xff0c;具体步骤如图1-1所示&#xff1a; 图1-1 操作后得到归一化值如图1-2所示&#xff1a; 图1-2 step2、执行K均值聚类分析&#xff0c;如图1-3所示&#xff0c;选中聚类列&#xff0c;接着点击“统计”—“多变量分析…

手把手从零开始搭建远程访问服务

远程访问服务工具——FRP frp 是一个能够实现内网穿透的高性能的反向代理应用&#xff0c;支持 TCP、UDP、HTTP、HTTPS 等多种协议。可以将内网服务以安全、便捷的方式通过具有公网的服务器来转发。 资源链接 根据自己服务型号和操作系统来选取对应的文件&#xff0c;不知道的…

VS2019中解决方案里的所有项目都是 <不同选项> 的解决方案

以上等等&#xff0c;全部是 <不同选项>。。。 这样的话&#xff0c;如何还原和查看原有的值呢&#xff0c;就这么丢失掉了吗&#xff1f; 不会&#xff0c;需要解决方案里配置一下。 解决&#xff1a; 解决方案右键属性 -> 配置属性 -> 配置 -> 将所有配置改…

三大办公软件实用小技巧 沈阳办公软件白领必修班

Word 学好办公软件能大大的提升我们的工作效率。下面让我们一起学习一下Word办公软件时几个实用小技巧&#xff01; 01.快速插入当前日期或时间 在使用Word办公软件进行文档的编辑处理时&#xff0c;如果需要在文章的末尾插入系统的当前日期或时间。通常情况下&#xff0c;我…

如何编写时区源文件

0、背景 ① 修改TZ环境变量改变时区不能立即生效。要求设置时区后立即生效&#xff0c;只能用修改/etc/localtime方式。 ② 原文作者 Bill Seymour&#xff0c;想要查看原文&#xff0c;点击官网地址https://www.iana.org/time-zones下载 zic 源码&#xff0c;源码目录中的 tz…

【TB作品】MSP430,G2533单片机,红外发射,红外接收,红外通信,IR发射

文章目录 题目红外NEC协议介绍基本概述数据帧结构位表示数据传输示例重复码&#xff08;Repeat Code&#xff09;实现细节发送端接收端 典型应用结论 最终效果代码 题目 遥控器 硬件&#xff1a;msp430g2553、oled显示器、ds18b20温度传感器、红外发射器、按键 软件功能&#…

MD5加密接口

签名算法 app_key和app_secret由对方系统提供 MD5_CALCULATE_HASH_FOR_CHAR&#xff08;中文加密与JAVA不一致&#xff09; 代码&#xff1a; *获取传输字段名的ASCII码&#xff0c;根据ASCII码对字段名进行排序SELECT * FROM zthr0051WHERE functionid iv_functionidINTO …

Vatee万腾平台:智慧时代的创新典范

在数字化浪潮席卷全球的今天&#xff0c;我们迎来了一个全新的智慧时代。在这个时代&#xff0c;科技与生活的融合变得日益紧密&#xff0c;为人们的生活带来了前所未有的便利与革新。其中&#xff0c;Vatee万腾平台凭借其卓越的创新能力和前瞻性的技术布局&#xff0c;成为了智…

如何为您的企业实施营销翻译

要为您的业务实施营销翻译&#xff0c;您需要执行以下步骤&#xff1a; 评估市场需求 你首先需要做的事情之一是确定你的产品或服务可以销售的地区或国家。这可以通过 看看在这些地区已经取得成功的竞争对手阅读行业的市场调查和预测&#xff0c;了解市场趋势和潜在机会评估…

易飞8.0工单用料异常分析表

系统自带工单用料分析表看着复杂&#xff0c;但如果用了工单变更单&#xff0c;且下单时候手动改了用量&#xff0c;异常是不会出来。 对此特写一查询报表&#xff0c;根据BOM表来核对&#xff0c;在ERP前台逻辑一对&#xff0c;确实异常出来了。 系统工单&#xff1a; 工单用…

数据库概念结构设计-设计步骤、设计方法、集成中去除冲突和冗余

一、引言 1、如何用实体-联系模型&#xff0c;即ER模型进行数据库的概念结构设计&#xff1f;主要包括概念结构设计的步骤与方法 2、E-R模型用E-R图来描述概念模型中的实体、属性、实体间的联系等概念。 &#xff08;1&#xff09;在E-R模型中&#xff0c;实体用矩形来表示&…

转行AI产品经理,这些“门槛”你得先迈过!

前言 随着人工智能&#xff08;AI&#xff09;技术的飞速发展&#xff0c;AI产品经理这一岗位逐渐崭露头角&#xff0c;成为许多追求创新和挑战的职业人士的新选择。但转行并非易事&#xff0c;特别是进入到一个全新的领域。在决定踏上AI产品经理这条道路之前&#xff0c;以下…

推荐5个国内宝藏级物联网平台

随着物联网技术的快速发展物联网平台正成为企业和个人开发者构建智能系统的首选。这些平台以其灵活性、成本效益和强大的社区支持&#xff0c;为用户提供了快速开发和部署物联网解决方案的新途径。本文将介绍几款市场上流行的物联网平台&#xff0c;以及它们各自的技术优势和核…

UI(二)控件

文章目录 PatternLockProgressQRCodeRadioRatingRichTextScollBarSearchSelectSlideSpanStepper和StepperItemTextTextAreaTextClockTextInputTextPickerTextTimerTimePickerToggleWeb PatternLock PatternLock是图案密码锁组件&#xff0c;以九宫格图案的方式输入密码&#x…

数据质量管理-一致性管理

前情提要 根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档&#xff0c;当前数据质量评价指标框架中包含6评价指标&#xff0c;在实际的数据治理过程中&#xff0c;存在一个关联性指标。7个指标中存在4个定性指标&#xff0c;3个定量指标&#xff1b; 定性指标&am…

Centos7 Cpolar内网穿透工具

你是否想把本地测试的项目挂载到公网上提供给别人调用查看&#xff08;当然这是在你没有服务器的情况下&#xff0c;如果有请跳过&#xff09; 服务器系统&#xff1a;CentOS-7-x86_64-DVD-2009.iso 这是我在本地测试使用的服务器系统 Coplar官网 注册方式&#xff1a;邮箱注…

维吉尼亚密文解密小程序

维吉尼亚密文解密小程序 这几天在看CTF相关的课程&#xff0c;涉及到古典密码学和近代密码学还有现代密码学。自己编了一个解密小程序。 Vigenere 维吉尼亚密码 维吉尼亚是多表替换密码中比较典型的代表&#xff0c;维吉尼亚密码是在凯撒密码基础上产生的一种加密方法&#…