在机器学习和深度学习中,测试集的划分比例需要根据数据量、任务类型和领域需求灵活调整。
1. 常规划分比例
通用场景
- 训练集 : 验证集 : 测试集 = 60% : 20% : 20%
适用于大多数中等规模数据集(如数万到数十万样本),平衡了训练数据量和评估的可靠性。
大数据场景
- 训练集 : 验证集 : 测试集 = 98% : 1% : 1%
当数据量极大时(如百万级以上),测试集比例可大幅降低,因为少量样本已足够评估模型性能(例如 ImageNet 使用约 120 万训练图像,5 万验证图像)。
小数据场景
- 训练集 : 测试集 = 80% : 20%
若数据量极小(如几百到几千样本),可省略验证集,直接划分训练集和测试集,并通过交叉验证(如 K 折交叉验证)调参。
2. 关键影响因素
数据量大小
- 数据量越大,测试集比例可越低(如 5%-10%),因为绝对数量已足够保证统计显著性。
- 数据量越小,测试集比例需更高(如 20%-30%),但可能牺牲训练数据量,此时推荐交叉验证。
任务复杂度
- 简单任务(如二分类):测试集比例可略低(10%-15%)。
- 复杂任务(如目标检测、NLP):测试集比例需更高(20%-30%),以覆盖更多场景。
数据分布
- 类别不均衡:需采用分层抽样(Stratified Sampling),确保测试集的类别分布与原始数据一致。
- 时间序列数据:按时间顺序划分(如训练集用历史数据,测试集用最新数据),而非随机划分。
3. 特殊场景与技巧
交叉验证替代固定划分
- 小数据集:使用 K 折交叉验证(如 5 折或 10 折),将训练集分为 K 个子集,轮流作为验证集,最大化数据利用率。
- 示例:
from sklearn.model_selection import KFold kf = KFold(n_splits=5) for train_idx, val_idx in kf.split(X):X_train, X_val = X[train_idx], X[val_idx]# 训练和验证
领域特定需求
- 医学/金融数据:因数据获取成本高,测试集可能仅占 10%-15%,但需确保样本代表性。
- 自动驾驶/工业检测:测试集需覆盖更多边缘案例(如罕见场景),比例可能提高到 25%-30%。
4. 经验总结
数据量规模 | 推荐测试集比例 | 典型划分方式 |
---|---|---|
极小(<1k 样本) | 20%-30% | 训练集 + 测试集 + 交叉验证 |
小(1k-10k 样本) | 15%-20% | 训练集 (70%) + 验证集 (10%) + 测试集 (20%) |
中等(10k-1M 样本) | 10%-15% | 训练集 (80%) + 验证集 (10%) + 测试集 (10%) |
大(>1M 样本) | 1%-5% | 训练集 (98%) + 验证集 (1%) + 测试集 (1%) |
5. 注意事项
- 测试集的“不可见性”
测试集仅用于最终评估,不可参与调参或模型选择,否则会导致数据泄露,高估模型性能。 - 数据增强的影响
若对训练集进行数据增强,测试集需保持原始分布,避免增强操作干扰评估结果。 - 领域适配性
在特定领域(如医疗、金融),测试集需包含与实际应用场景一致的样本。
实际案例参考
- MNIST 手写数字分类(6万训练样本 + 1万测试样本):测试集占 ~14%。
- ImageNet 图像分类(128万训练图像 + 5万验证图像):测试集占 ~3.7%。
- Kaggle 比赛:通常提供固定测试集(如 50% 数据),剩余用于训练和验证。