详解Keras3.0 Data loading: Text data loading

`text_dataset_from_directory`

用于从目录中读取文本文件并创建一个数据集。这个函数可以自动将文本文件转换为整数序列，以便在神经网络中使用。

keras.utils.text_dataset_from_directory(directory,labels="inferred",label_mode="int",class_names=None,batch_size=32,max_length=None,shuffle=True,seed=None,validation_split=None,subset=None,follow_links=False,
)

参数说明

directory：包含文本文件的目录路径。
labels="inferred"：默认值为"inferred"，表示Keras将尝试从文件名中推断标签。如果需要手动指定标签，可以将此参数设置为一个整数列表或字典。
label_mode="int"：默认值为"int"，表示标签将被编码为整数。如果需要使用其他模式（如"categorical"），可以将此参数设置为相应的字符串。
class_names=None：可选参数，用于指定类别名称。如果提供了类别名称列表，数据集将使用这些名称进行编码。
batch_size=32：每个批次中的样本数量。
max_length=None：可选参数，用于限制每个样本的最大长度。如果未指定，则使用文件中最长的样本作为最大长度。
shuffle=True：是否在每个epoch开始时对数据进行洗牌。
seed=None：随机数生成器的种子，用于确保可重复的结果。
validation_split=None：可选参数，用于指定验证集的比例。如果提供了值，将从训练集中划分出相应比例的数据作为验证集。
subset=None：可选参数，用于指定要加载的子集（"training"、"validation"或"testing"）。
follow_links=False：是否跟随符号链接。如果为True，将加载符号链接指向的文件；如果为False，将加载实际文件。

示例1

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences#定义一个函数来创建数据集
def create_dataset(directory, num_words=None, sequence_length=100):# 使用Tokenizer对文本进行编码tokenizer = Tokenizer(num_words=num_words)tokenizer.fit_on_texts(directory)sequences = tokenizer.texts_to_sequences(directory)# 对序列进行填充，使它们具有相同的长度padded_sequences = pad_sequences(sequences, maxlen=sequence_length)return padded_sequences#使用create_dataset函数创建数据集，并将其分为训练集和验证集
train_data = create_dataset('path/to/train/directory')
val_data = create_dataset('path/to/validation/directory')#使用keras.utils.text_dataset_from_directory函数创建数据集
train_dataset = keras.utils.text_dataset_from_directory('path/to/train/directory',batch_size=32,sequence_length=100,validation_split=0.2,subset='training',seed=42,class_mode='categorical'
)val_dataset = keras.utils.text_dataset_from_directory('path/to/validation/directory',batch_size=32,sequence_length=100,validation_split=0.2,subset='validation',seed=42,class_mode='categorical'
)

示例2

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import text_dataset_from_directory# 设置参数
directory = 'path/to/your/directory'  # 指定包含文本数据的目录路径
batch_size = 32  # 每个批次中的样本数量
max_length = 100  # 每个样本的最大长度# 创建数据集
train_dataset = text_dataset_from_directory(directory,batch_size=batch_size,max_length=max_length,shuffle=True,validation_split=0.2,subset='training',   #设置subset='training'，表示只加载训练集的数据
)val_dataset = text_dataset_from_directory(directory,batch_size=batch_size,max_length=max_length,shuffle=True,validation_split=0.2,subset='validation',   #设置subset='validation'，表示只加载验证集的数据
)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/235814.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！