datasets 笔记:加载数据集(基本操作)

参考了huggingface的教程

1  了解数据集基本信息( load_dataset_builder)

  • 在下载数据集之前,通常先快速了解数据集的基本信息会很有帮助。
  • 数据集的信息存储在 DatasetInfo 中,可能包括数据集描述、特征和数据集大小等信息。(不同的数据集提供的信息可能也不相同)
  • 使用 load_dataset_builder() 函数加载数据集生成器,并在不下载数据集的情况下检查数据集的属性
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")ds_builder.info.description
#''from datasets import load_dataset_builder
ds_builder = load_dataset_builder("rotten_tomatoes")ds_builder.info.description
#''
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")ds_builder.info.features
'''
{'text': Value(dtype='string', id=None),'label': ClassLabel(names=['neg', 'pos'], id=None)}
'''

至于这个数据集的名字怎么来的,我的理解是,复制完整路径即可

2 加载数据集

2.1  加载所有

此时Datasets 将返回一个 DatasetDict 对象

from datasets import load_datasetdataset = load_dataset("rotten_tomatoes")
dataset
'''
DatasetDict({train: Dataset({features: ['text', 'label'],num_rows: 8530})validation: Dataset({features: ['text', 'label'],num_rows: 1066})test: Dataset({features: ['text', 'label'],num_rows: 1066})
})
'''

2.2 加载特定划分

2.2.1 数据集划分

  • 数据集的划分是特定的子集,比如训练集(train)和测试集(test)
  • 可以使用 get_dataset_split_names() 函数查看数据集的划分名称
from datasets import get_dataset_split_namesget_dataset_split_names("rotten_tomatoes")
#['train', 'validation', 'test']

2.2.2 读取单个

from datasets import load_datasetdataset = load_dataset("rotten_tomatoes", split="train")
dataset
'''
Dataset({features: ['text', 'label'],num_rows: 8530
})
'''

2.3 读取配置

  • 某些数据集包含多个子数据集。例如,MInDS-14 数据集包含多种语言的音频数据,这些子数据集被称为配置或子集。
  • 加载这些数据集时,必须显式选择其中一个配置。
  • 如果没有提供配置名称,Datasets 会抛出 ValueError

2.3.1 获取数据集的所有可用配置

from datasets import get_dataset_config_namesconfigs = get_dataset_config_names("PolyAI/minds14")
print(configs)
'''
['cs-CZ', 'de-DE', 'en-AU', 'en-GB', 'en-US', 'es-ES', 'fr-FR', 'it-IT', 'ko-KR', 'nl-NL', 'pl-PL', 'pt-PT', 'ru-RU', 'zh-CN', 'all']
'''

2.3.2 加载需要的配置

from datasets import load_datasetmindsFR = load_dataset("PolyAI/minds14", "fr-FR", split="train")

【这一步官网是这么说的,但是我自己是报错的】

2.4 主要参数

path 

数据集的路径或名称。

  • 如果是 Hub 仓库路径(例如 "namespace/dataset_name"),加载该仓库中的数据文件。

  • 如果是本地路径,加载本地文件夹中的数据文件(需要配合data_dir/data_files)。

data_dir

数据所在的目录路径

data_files

  • 数据文件的路径或路径列表。

data_files 是一个列表时:

  • 结果直接合并(append):多个文件的数据会被视为一个整体,并按行追加形成一个统一的 Dataset
  • 返回值是一个 Dataset 对象

可以将 data_files 配置为一个字典,手动映射文件到划分

结果: ds 是一个 DatasetDict 对象,包含多个划分

split

  • 加载数据集的特定划分。

前10%+后20%

交叉验证

cache_dir

数据集缓存的存储目录,默认是~/.cache/huggingface/datasets

download_mode

指定是否重新下载数据集:
  • REUSE_DATASET_IF_EXISTS(默认):如果已缓存则不重新下载。
  • FORCE_REDOWNLOAD:强制重新下载。

keep_in_memory

是否将数据集加载到内存中

features

用于定义 数据集每一列的特征,即每一列的数据类型和结构

嵌套特征

revision

加载特定版本的数据集(如 Git 标签或分支)

token

Hugging Face Hub 的身份验证令牌。

streaming

是否启用流式加载,适用于超大数据集

num_proc

多进程数量,用于加速数据处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/64806.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp video组件无法播放视频解决方案

前言 一般正常的视频使用video组件就能播放。但视频源存在问题&#xff0c;在浏览器能正常播放 在Hbuilderx内置浏览器 在真机无法播放 使用v-html的方式 <template> <uni-popup class"videoPop" type"center" ref"videoPop">&…

Springboot 学习 之 logback-spring.xml 日志压缩 .tmp 临时文件问题

文章目录 前言功能简述1. 自定义日志文件名2. 归档规则 && 压缩2.1. 归档配置2.2. 归档压缩2.3. 日志格式 && 编码 现象原因解决办法 前言 在 Springboot 应用中&#xff0c;默认使用 logback-spring.xml 配置日志相关 功能简述 1. 自定义日志文件名 <fi…

Java程序设计2(六)

第五章&#xff1a;IO流 &#xff08;java.io包中&#xff09; 一、理解 1. 简单而言&#xff1a;流就是内存与存储设备之间传输数据的通道、管道。 2. 分类&#xff1a; (1) 按方向(以JVM虚拟机为参照物)【重点】 输入流&#xff1a;将中的内容读入到中。 输出流&#xff1a…

Java图片拼接

最近遇到一个挺离谱的功能&#xff0c;某个表单只让上传一张图&#xff0c;多图上传会使导出失败。跟开发沟通后表示&#xff0c;这个问题处理不了。我... 遂自己思考&#xff0c;能否以曲线救国的方式拯救一下&#xff0c;即不伤及代码之根本&#xff0c;又能解决燃眉之急。灵…

工程经济学(尊享版)

工程经济学是一门应用性的经济学科 也是一门介于自然科学与社会科学的之间的边缘学科。它是根据现代科学技术和社会经济发展的需要&#xff0c;在自然科学和社会科学的发展过程中相互渗透、相互促进&#xff0c;逐渐形成和发展起来的&#xff0c;是工程技术学科和经济学科交叉的…

爬虫基础学习

爬虫概念与工作原理 爬虫是什么&#xff1a;爬虫&#xff08;Web Scraping&#xff09;是自动化地访问网站并提取数据的技术。它模拟用户浏览器的行为&#xff0c;通过HTTP请求访问网页&#xff0c;解析HTML文档并提取有用信息。 爬虫的基本工作流程&#xff1a; 发送HTTP请求…

.NET重点

B/S C/S什么语言 B/S&#xff1a; 浏览器端&#xff1a;JavaScript&#xff0c;HTML&#xff0c;CSS 服务器端&#xff1a;ASP&#xff08;.NET&#xff09;PHP/JSP 优势&#xff1a;维护方便&#xff0c;易于升级和扩展 劣势&#xff1a;服务器负担沉重 C/S java/.NET/…

STM32HAL I2C函数

8.5 使用IIC协议读写EEPROM 硬件方式实现 &#xff08;HAL库&#xff09; **HAL_I2C_Mem_Write() :这种方法可以写1个或者多个字节 ** /*** brief 以阻塞模式向指定的内存地址写入数据* param hi2c 指向 I2C_HandleTypeDef 结构体的指针&#xff0c;包含指定 I2C 的配置信息…

智能工厂的设计软件 三种处理单元(NPU/GPU/CPU)及其在深度学习框架中的作用 之5(腾讯云AI代码助手 之3)

前情提要 前面讨论了智能工厂的设计软件 中三种处理单元&#xff08;NPU/GPU/CPU&#xff09;及其在深度学习框架中的作用是协作完成一个深度学习任务。 最后通过明确深度学习本身的目的是建构一个公理化系统--作为 自然语言形式化 建模约束&#xff08;为人类编辑 &#xff0…

Linux——卷

Linux——卷 介绍 最近做的项目&#xff0c;涉及到对系统的一些维护&#xff0c;有些盘没有使用&#xff0c;需要创建逻辑盘并挂载到指定目录下。有些软件需要依赖空的逻辑盘&#xff08;LVM&#xff09;。 先简单介绍一下卷的一些概念&#xff0c;有分区、物理存储介质、物…

M3D: 基于多模态大模型的新型3D医学影像分析框架,将3D医学图像分析从“看图片“提升到“理解空间“的层次,支持检索、报告生成、问答、定位和分割等8类任务

M3D: 基于多模态大模型的新型3D医学影像分析框架&#xff0c;将3D医学图像分析从“看图片“提升到“理解空间“的层次&#xff0c;支持检索、报告生成、问答、定位和分割等8类任务 论文大纲理解1. 确认目标2. 分析过程&#xff08;目标-手段分析&#xff09;核心问题拆解 3. 实…

clickhouse-副本和分片

1、副本 1.1、概述 集群是副本和分片的基础&#xff0c;它将ClickHouse的服务拓扑由单节点延伸到多个节点&#xff0c;但它并不像Hadoop生态的某些系统那样&#xff0c;要求所有节点组成一个单一的大集群。ClickHouse的集群配置非常灵活&#xff0c;用户既可以将所有节点组成…

Redis 集群实操:强大的数据“分身术”

目录 Redis Cluster集群模式 1、介绍 2、架构设计 3、集群模式实操 4、故障转移 5、常用命令 Redis Cluster集群模式 1、介绍 redis3.0版本推出的Redis Cluster 集群模式&#xff0c;每个节点都可以保存数据和整个集群状态&#xff0c;每个节点都和其他所有节点连接。Cl…

C# 从控制台应用程序入门

总目录 前言 从创建并运行第一个控制台应用程序&#xff0c;快速入门C#。 一、新建一个控制台应用程序 控制台应用程序是C# 入门时&#xff0c;学习基础语法的最佳应用程序。 打开VS2022&#xff0c;选择【创建新项目】 搜索【控制台】&#xff0c;选择控制台应用(.NET Framew…

WPF制作图片闪烁的自定义控件

1.定义自定义控件 BlinkingImage.cs: using System; using System.Windows; using System.Windows.Controls; using System.Windows.Media.Animation; using System.Windows.Media.Imaging;namespace YourNamespace {public class BlinkingImage : Control{public static rea…

猫咪睡眠:萌态背后的奥秘与启示

猫咪的睡眠&#xff0c;犹如一本充满趣味与奥秘的小书&#xff0c;每一页都写满了它们独特的习性与本能。 猫咪堪称 “睡眠大师”&#xff0c;睡眠时间之长令人咋舌&#xff0c;一天中大约有 12 - 16 个小时在梦乡中度过&#xff0c;幼猫和老年猫甚至能睡更久。它们似乎深谙放…

QML Text组件

文章目录 前言主体基本文本显示字体和样式富文本支持长文本的处理文本样式与效果超链接Label 元素总结 前言 在 QML 中&#xff0c;Text 和 Label 是常用的文本显示元素&#xff0c;它们在显示文本方面具有相似性&#xff0c;但在功能和定制性上也存在一些差异。Text 元素用于…

基于前端技术UniApp和后端技术Node.js的电影购票系统

文章目录 摘要Abstruct第一章 绪论1.1 研究背景与意义1.2 国内外研究现状 第二章 需求分析2.1 功能需求分析2.2 非功能性需求分析 第二章系统设计3.1 系统架构设计3.1.1 总体架构3.1.2 技术选型 3.2 功能架构 第四章 系统实现4.1 用户端系统实现4.1.1 用户认证模块实现4.1.2 电…

网络安全的攻防战争

当前&#xff0c;来自Web的各种攻击已经成为全球安全领域最大的挑战&#xff0c;并且有愈演愈烈之势。目前的难点在于&#xff0c;很多Web威胁的思路已经有别于传统&#xff0c;隐蔽、牟利、产业化已经成为了此类威胁的特点。对广大企业用户来讲&#xff0c;Web威胁令人无法忽视…

用adb命令给APP做压力测试,有什么不同?

压力测试 app做压力测试目的是模拟用户在使用软件时随意向软件发出指令&#xff0c;例如操作app的点击&#xff0c;滑动&#xff0c;返回等一系列随机事件&#xff0c;来检测app的承受能力 第一步&#xff1a;手机安装包需要待测的app 第二步&#xff1a;输入adb start-ser…