详解Keras3.0 Data loading: Text data loading

text_dataset_from_directory

用于从目录中读取文本文件并创建一个数据集。这个函数可以自动将文本文件转换为整数序列,以便在神经网络中使用。

keras.utils.text_dataset_from_directory(directory,labels="inferred",label_mode="int",class_names=None,batch_size=32,max_length=None,shuffle=True,seed=None,validation_split=None,subset=None,follow_links=False,
)
参数说明 
  • directory包含文本文件的目录路径。
  • labels="inferred"默认值为"inferred",表示Keras将尝试从文件名中推断标签。如果需要手动指定标签,可以将此参数设置为一个整数列表或字典。
  • label_mode="int"默认值为"int",表示标签将被编码为整数。如果需要使用其他模式(如"categorical"),可以将此参数设置为相应的字符串。
  • class_names=None可选参数,用于指定类别名称。如果提供了类别名称列表,数据集将使用这些名称进行编码。
  • batch_size=32每个批次中的样本数量。
  • max_length=None可选参数,用于限制每个样本的最大长度。如果未指定,则使用文件中最长的样本作为最大长度。
  • shuffle=True是否在每个epoch开始时对数据进行洗牌。
  • seed=None随机数生成器的种子,用于确保可重复的结果。
  • validation_split=None可选参数,用于指定验证集的比例。如果提供了值,将从训练集中划分出相应比例的数据作为验证集。
  • subset=None可选参数,用于指定要加载的子集("training"、"validation"或"testing")。
  • follow_links=False是否跟随符号链接。如果为True,将加载符号链接指向的文件;如果为False,将加载实际文件。
示例1
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences#定义一个函数来创建数据集
def create_dataset(directory, num_words=None, sequence_length=100):# 使用Tokenizer对文本进行编码tokenizer = Tokenizer(num_words=num_words)tokenizer.fit_on_texts(directory)sequences = tokenizer.texts_to_sequences(directory)# 对序列进行填充,使它们具有相同的长度padded_sequences = pad_sequences(sequences, maxlen=sequence_length)return padded_sequences#使用create_dataset函数创建数据集,并将其分为训练集和验证集
train_data = create_dataset('path/to/train/directory')
val_data = create_dataset('path/to/validation/directory')#使用keras.utils.text_dataset_from_directory函数创建数据集
train_dataset = keras.utils.text_dataset_from_directory('path/to/train/directory',batch_size=32,sequence_length=100,validation_split=0.2,subset='training',seed=42,class_mode='categorical'
)val_dataset = keras.utils.text_dataset_from_directory('path/to/validation/directory',batch_size=32,sequence_length=100,validation_split=0.2,subset='validation',seed=42,class_mode='categorical'
)
示例2 
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import text_dataset_from_directory# 设置参数
directory = 'path/to/your/directory'  # 指定包含文本数据的目录路径
batch_size = 32  # 每个批次中的样本数量
max_length = 100  # 每个样本的最大长度# 创建数据集
train_dataset = text_dataset_from_directory(directory,batch_size=batch_size,max_length=max_length,shuffle=True,validation_split=0.2,subset='training',   #设置subset='training',表示只加载训练集的数据
)val_dataset = text_dataset_from_directory(directory,batch_size=batch_size,max_length=max_length,shuffle=True,validation_split=0.2,subset='validation',   #设置subset='validation',表示只加载验证集的数据
)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/235814.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nginx转发ingress-nginx问题记录

背景 想直接通过域名访问k8s上的服务. 想到k8s上可以直接通过ingress配置. 不过ingress默认启动的端口3xxxxx. 一般不可能让用户访问我们的服务加上端口. 所以现在要解决直接通过80端口访问ingress的问题. 方案 修改ingress-nginx端口(这个是在网上搜到的方案, 但未选择) 这…

【数据结构和算法】定长子串中元音的最大数目

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 2.1 方法一:滑动窗口 2.2 方法二:滑动窗口优化版 三、代码 3.1 方法一&#xf…

Spring Boot构建项目常用注解

忙着去耍帅,后期补充完整.....................................

搭建esp32-idf开发环境并烧入第一个程序

ESP32下载idf并烧入第一个程序 一.官网下载idf安装包二.安装idf三 .测试安装是否成功3.1进入idf控制台3.2 查看安装版本3.3 编译工程 四.下载程序4.1查看所在端口4.2下载程序4.3 监听串口 一.官网下载idf安装包 点击下载 如图: 我们选择离线下载,注意…

Qt 国际化——创建中英文翻译步骤

Qt 国际化——创建中英文翻译步骤 说明:之前我的csdn博客,第一篇文章发表的就是Qt国际化的文章(点击打开),写的也过于简单了: 今天,这篇文章再详细的记录下,中英文翻译的步骤。 一…

diffusers-训练自己的模型

一、搭建dataset 基于datasets这个库创建的dataloader,底层代码还待探索 二、修改模型结构(非必要) 尽量可以利用已有的预训练权重去训练模型,但是权重并不一定能够完全是适配,所以还需要自己来视情况做修改&#xf…

详解TensorFlow2.0 API:tf.data.Dataset

tf.data.Dataset是TensorFlow中的一个类,用于创建和操作数据集。它提供了一种高效的方式来处理大量数据,支持并行读取、批处理、重复等操作。在使用tf.data.Dataset时,需要注意数据类型的兼容性。如果需要将字符串和数字混合在一起&#xff0…

AttributeError: module ‘_winapi‘ has no attribute ‘SYNCHRONIZE‘解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

【SplaTAM】基于RGB-D类型SplaTAM的定位与重建

SplaTAM ubuntu配置与运行记录 1. 资料收集2. 环境配置与运行注意问题3. 在线运行 近期各种定会涌现出一种新的基于高斯的方法,备受关注,这里我们也来学习下sota效果的slam用于定位和重建。 1. 资料收集 coda link3D Gaussians 2.1 Dynamic 3D Gaussian…

猫罐头评测:五大平价猫罐头排行榜揭晓!

想必铲屎官都知道给猫咪长期吃主食罐头的好处了吧!主食罐头不仅营养丰富,还能让猫咪顺便补充水分。有时候猫咪食欲不佳,一罐主食罐头就能让它们胃口大开呢。 通过本文,我将与大家分享我做宠物医生6年间发现的一些好用的猫罐头&…

安全运营之态势感知与监测

信息安全是一个动态的过程,操作系统、应用软件、中间件,还有硬件,平台的种类越来越多,技术越来越复杂,稍有不慎就会留下安全隐患和管理漏洞,依靠客户自身的IT资源无论从技术的先进性还是方案的严密性上都越…

350. 两个数组的交集 II --力扣 --JAVA

题目 给你两个整数数组 nums1 和 nums2 ,请你以数组形式返回两数组的交集。返回结果中每个元素出现的次数,应与元素在两个数组中都出现的次数一致(如果出现次数不一致,则考虑取较小值)。可以不考虑输出结果的顺序。 解…

超声功率放大器的技术方案是什么

超声功率放大器是一种用于超声波领域的放大器,主要用于将输入的小功率信号放大为高功率的超声波信号。在医学、工业和科学研究等领域,超声功率放大器被广泛应用于超声成像、无损检测、清洗和材料处理等方面。下面将详细介绍超声功率放大器的技术方案和工…

no module named cv2 、numpy 、xxx超全解决方案

常规解决方案可见博客: https://blog.csdn.net/ALiLiLiYa/article/details/126988014 案例 上述仍没有解决,可以参考如下进行: 例如:明明文件夹存在下述文件,仍然报错。那么可能缺少环境变量导致。 No module named …

推荐算法架构7:特征工程

1 概述 特征工程[1](Feature Engineering)是推荐算法的基础,它对收集到的原始数据进行解析和变换,从而提取出模型所需要的信息。通过挖掘丰富和高质量的特征,并对其进行合理的处理,可以提升模型预估准确度…

判断数据是否为整数--函数设计与实现

#定义函数:is_num(s),判断输入的数据是否整数。 #(1)判断是否是数字 def is_num(s):if s.isdigit(): #isdigit()是一个字符串方法,用于检查字符串是否只包含数字字符。如果字符串只包含数字字符,则返回True;否则返回Falsereturn T…

知识付费小程序源码系统:支持视频课程+音频课程+图文课程+完整的代码包 带搭建安装教程

近年来,人们对于知识的需求越来越大,知识付费行业也逐渐崛起。但是,目前市场上有很多知识付费平台存在一些问题,如内容质量参差不齐、用户体验不佳、支付安全问题等。知识付费小程序源码系统的出现很好的解决了这些问题&#xff0…

【Vue中给输入框加入js验证_blur失去焦点进行校验】

【Vue中给输入框加入js验证_blur失去焦点进行校验】 通俗一点就是给输入框加个光标离开当前文本输入框时&#xff0c;然后对当前文本框内容进行校验判断 具体如下&#xff1a; 1.先给文本框加属性 blur“validatePhoneNumber” <el-input v-model“entity.telephone” blur…

人工智能 RL 算法边缘服务器

提出了一种基于人工智能深度强化学习算法的扩展性及智能性较高的智能选择模式。在人工智能深度强化学习 算法的基础上&#xff0c;引入了动作抑制、四重 Q 学习 (QQL) 及归一化 Q-value 等机制&#xff0c;研究并实现了在满足业务延迟要求及公平 性的原则下&#xff0c;物联终端…

如何用docke启动redis?(解决双击docker服务闪退问题)

要使用Docker启动Redis服务&#xff0c;您可以按照以下步骤进行操作&#xff1a; 安装Docker&#xff1a; 如果您还没有安装Docker&#xff0c;请先在您的系统上安装Docker。您可以从Docker官方网站获取安装说明。 https://www.docker.com/get-started/ 2.在Docker Hub上查找R…