深度学习数据集划分比例多少合适

在这里插入图片描述
在机器学习和深度学习中,测试集的划分比例需要根据数据量、任务类型和领域需求灵活调整。


1. 常规划分比例

通用场景
  • 训练集 : 验证集 : 测试集 = 60% : 20% : 20%
    适用于大多数中等规模数据集(如数万到数十万样本),平衡了训练数据量和评估的可靠性。
大数据场景
  • 训练集 : 验证集 : 测试集 = 98% : 1% : 1%
    当数据量极大时(如百万级以上),测试集比例可大幅降低,因为少量样本已足够评估模型性能(例如 ImageNet 使用约 120 万训练图像,5 万验证图像)。
小数据场景
  • 训练集 : 测试集 = 80% : 20%
    若数据量极小(如几百到几千样本),可省略验证集,直接划分训练集和测试集,并通过交叉验证(如 K 折交叉验证)调参。

2. 关键影响因素

数据量大小
  • 数据量越大,测试集比例可越低(如 5%-10%),因为绝对数量已足够保证统计显著性。
  • 数据量越小,测试集比例需更高(如 20%-30%),但可能牺牲训练数据量,此时推荐交叉验证。
任务复杂度
  • 简单任务(如二分类):测试集比例可略低(10%-15%)。
  • 复杂任务(如目标检测、NLP):测试集比例需更高(20%-30%),以覆盖更多场景。
数据分布
  • 类别不均衡:需采用分层抽样(Stratified Sampling),确保测试集的类别分布与原始数据一致。
  • 时间序列数据:按时间顺序划分(如训练集用历史数据,测试集用最新数据),而非随机划分。

3. 特殊场景与技巧

交叉验证替代固定划分
  • 小数据集:使用 K 折交叉验证(如 5 折或 10 折),将训练集分为 K 个子集,轮流作为验证集,最大化数据利用率。
  • 示例
    from sklearn.model_selection import KFold
    kf = KFold(n_splits=5)
    for train_idx, val_idx in kf.split(X):X_train, X_val = X[train_idx], X[val_idx]# 训练和验证
    
领域特定需求
  • 医学/金融数据:因数据获取成本高,测试集可能仅占 10%-15%,但需确保样本代表性。
  • 自动驾驶/工业检测:测试集需覆盖更多边缘案例(如罕见场景),比例可能提高到 25%-30%。

4. 经验总结

数据量规模推荐测试集比例典型划分方式
极小(<1k 样本)20%-30%训练集 + 测试集 + 交叉验证
小(1k-10k 样本)15%-20%训练集 (70%) + 验证集 (10%) + 测试集 (20%)
中等(10k-1M 样本)10%-15%训练集 (80%) + 验证集 (10%) + 测试集 (10%)
大(>1M 样本)1%-5%训练集 (98%) + 验证集 (1%) + 测试集 (1%)

5. 注意事项

  1. 测试集的“不可见性”
    测试集仅用于最终评估,不可参与调参或模型选择,否则会导致数据泄露,高估模型性能。
  2. 数据增强的影响
    若对训练集进行数据增强,测试集需保持原始分布,避免增强操作干扰评估结果。
  3. 领域适配性
    在特定领域(如医疗、金融),测试集需包含与实际应用场景一致的样本。

实际案例参考

  • MNIST 手写数字分类(6万训练样本 + 1万测试样本):测试集占 ~14%。
  • ImageNet 图像分类(128万训练图像 + 5万验证图像):测试集占 ~3.7%。
  • Kaggle 比赛:通常提供固定测试集(如 50% 数据),剩余用于训练和验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/75553.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【TS学习】(15)分布式条件特性

在 TypeScript 中&#xff0c;分布式条件类型&#xff08;Distributive Conditional Types&#xff09; 是一种特殊的行为&#xff0c;发生在条件类型作用于裸类型参数&#xff08;Naked Type Parameter&#xff09; 时。这种特性使得条件类型可以“分布”到联合类型的每个成员…

NSSCTF [HGAME 2023 week1]simple_shellcode

3488.[HGAME 2023 week1]simple_shellcode 手写read函数shellcode和orw [HGAME 2023 week1]simple_shellcode (1) motalymotaly-VMware-Virtual-Platform:~/桌面$ file vuln vuln: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpret…

PostgreSQL的扩展(extensions)-常用的扩展-pg_dirtyread

PostgreSQL的扩展&#xff08;extensions&#xff09;-常用的扩展-pg_dirtyread pg_dirtyread 是 PostgreSQL 的一个特殊扩展&#xff0c;它允许读取已被删除但尚未被 VACUUM 清理的数据行&#xff0c;是数据恢复的重要工具。 原理&#xff1a; pg_dirtyread 通过直接访问表的…

linux3 mkdir rmdir rm cp touch ls -d /*/

Linux 系统的初始目录结构遵循 FHS&#xff08;Filesystem Hierarchy Standard&#xff0c;文件系统层次标准&#xff09;&#xff0c;定义了每个目录的核心功能和存储内容。以下是 Linux 系统初始安装后的主要目录及其作用&#xff1a; 1. 核心系统目录 目录用途典型内容示例…

Bazel中的Symbol, Rule, Macro, Target, Provider, Aspect 等概念

学习Bazel &#xff0c;就要学习Bazel 的规则定义&#xff0c; 弄清各个概念是重要的一个步骤。 在 Bazel 规则定义中&#xff0c;Symbol、Rule 和 Macro 是常见的概念。除此之外&#xff0c;Bazel 还有 Target、Provider、Aspect Repository、Package、 Workspace、 Configura…

深入探究 Hive 中的 MAP 类型:特点、创建与应用

摘要 在大数据处理领域,Hive 作为一个基于 Hadoop 的数据仓库基础设施,提供了方便的数据存储和分析功能。Hive 中的 MAP 类型是一种强大的数据类型,它允许用户以键值对的形式存储和操作数据。本文将深入探讨 Hive 中 MAP 类型的特点,详细介绍如何创建含有 MAP 类型字段的表…

基于Java的区域化智慧养老系统(源码+lw+部署文档+讲解),源码可白嫖!

摘 要 时代在飞速进步&#xff0c;每个行业都在努力发展现在先进技术&#xff0c;通过这些先进的技术来提高自己的水平和优势&#xff0c;区域化智慧养老系统当然不能排除在外。区域化智慧养老系统是在实际应用和软件工程的开发原理之上&#xff0c;运用Java语言、JSP技术以及…

关于JVM和OS中的指令重排以及JIT优化

关于JVM和OS中的指令重排以及JIT优化 前言&#xff1a; 这东西应该很重要才对&#xff0c;可是大多数博客都是以讹传讹&#xff0c;全是错误&#xff0c;尤其是JVM会对字节码进行重排都出来了&#xff0c;明明自己测一测就出来的东西&#xff0c;写出来误人子弟… 研究了两天&…

VS2022远程调试Linux程序

一、 1、VS2022安装参考 VS Studio2022安装教程&#xff08;保姆级教程&#xff09;_visual studio 2022-CSDN博客 注意&#xff1a;勾选的时候&#xff0c;要勾选下方的选项&#xff0c;才能调试Linux环境下运行的程序&#xff01; 2、VS2022远程调试Linux程序测试 原文参…

WPF设计学习记录滴滴滴4

<Button x:Name"btn"Content"退出"Width" 100"Height"25"Click"btn_Click" IsDefault"True"/> <Button x:Name"btn" <!-- 控件标识&#xff1a;定义按钮的实例名称为"btn&…

JVM 有哪些垃圾回收器

垃圾收集算法 标记-复制算法(Copying): 将可用内存按容量划分为两个区域,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面, 然后再把已使用过的内存空间一次清理掉。 标记-清除算法(Mark-Sweep): 算法分为“标记” 和“清除”两个…

React DndKit 实现类似slack 类别、频道拖动调整位置功能

一周调试终于实现了类 slack 类别、频道拖动调整位置功能。 历经四个版本迭代。 实现了类似slack 类别、频道拖动调整功能 从vue->react &#xff1b;更喜欢React的生态及编程风格&#xff0c;新项目用React来重构了。 1.zustand全局状态 2.DndKit 拖动 功能视频&…

新浪财经股票每天10点自动爬取

老规矩还是先分好三步&#xff0c;获取数据&#xff0c;解析数据&#xff0c;存储数据 因为股票是实时的&#xff0c;所以要加个cookie值&#xff0c;最好分线程或者爬取数据时等待爬取&#xff0c;不然会封ip 废话不多数&#xff0c;直接上代码 import matplotlib import r…

使用Android 原生LocationManager获取经纬度

一、常用方案 1、使用LocationManager GPS和网络定位 缺点&#xff1a;个别设备,室内或者地下停车场获取不到gps定位,故需要和网络定位相结合使用 2、使用Google Play服务 这种方案需要Android手机中有安装谷歌服务,然后导入谷歌的第三方库&#xff1a; 例如&#xff1a;i…

验证码实现

验证码案例 学了Spring MVC &#xff0c;配置 相关章节&#xff0c; 现可以尝试写一个前后端交互的验证码 文章目录 验证码案例前言一、验证码是什么&#xff1f;二、需求1.引入依赖2.导入前端页面3.约定前后段交互接口 三、代码解析Controllermodelapplication.xml 四丶结果五…

查询当前用户的购物车和清空购物车

业务需求&#xff1a; 在小程序用户端购物车页面能查到当前用户的所有菜品或者套餐 代码实现 controller层 GetMapping("/list")public Result<List<ShoppingCart>> list(){List<ShoppingCart> list shoppingCartService.shopShoppingCart();r…

(多看) CExercise_05_1函数_1.2计算base的exponent次幂

题目&#xff1a; 键盘录入两个整数&#xff1a;底(base)和幂指数(exponent)&#xff0c;计算base的exponent次幂&#xff0c;并打印输出对应的结果。&#xff08;注意底和幂指数都可能是负数&#xff09; 提示&#xff1a;求幂运算时&#xff0c;基础的思路就是先无脑把指数转…

【nacos安装指南】

Nacos安装指南 1.Windows安装 开发阶段采用单机安装即可。 1.1.下载安装包 在Nacos的GitHub页面&#xff0c;提供有下载链接&#xff0c;可以下载编译好的Nacos服务端或者源代码&#xff1a; GitHub主页&#xff1a;https://github.com/alibaba/nacos GitHub的Release下载…

通过发音学英语单词:从音到形的学习方法

&#x1f4cc; 通过发音学英语单词&#xff1a;从音到形的学习方法 英语是一种 表音语言&#xff08;phonetic language&#xff09;&#xff0c;但不像拼音文字&#xff08;如汉语拼音、西班牙语等&#xff09;那么规则&#xff0c;而是 部分表音部分表意。这意味着我们可以通…