【机器学习300问】90、怎么理解测试集、验证集必须和训练集来自于同一分布?

        我写这篇文章是因为我自己在做一个手势识别项目的时候,所用的训练集是网上爬取的以及公开的数据集。但当我训练完成后使用我自己通过摄像头捕捉的实地拍摄的手势图片,得出的识别准确率非常的低!这些图片可能在光照、背景、手势姿势等方面与通过摄像头实地捕捉的手势图片存在差异。这让我对这句话有了更深的理解!

一、如何理解测试集、验证集必须和训练集来自于同一分布

(1)不同分布的例子——考试成绩预测:

        假设有两个班级,一个班级是高级班,学生基础较好,另一个是初级班,学生基础较弱。你想预测其中初级班在下一场考试时的平均成绩,你拿来训练的数据都是初级班的,可最后让你预测试给你的数据却是高级班的。

        如果比较两个班级学生的考试成绩分布,很可能会发现它们是不同分布的。比如,高级班的平均分和成绩的分布可能偏向高分段,而初级班则可能更多集中在较低的分数段。

 (2)不同分布的例子——手写数字识别:

        假设训练集包含了大量清晰、标准的手写数字图片,如果测试集突然包含大量模糊、倾斜或者艺术字体风格的数字图片,这就偏离了原来的分布。模型在训练时学到的规律可能无法很好地泛化到这种新风格的数字上,导致测试结果不准确,尽管它可能在标准风格的数字识别上表现出色。

二、scikit-learin划分数据集的方法

        在scikit-learn库中,用来划分数据集的函数是train_test_split。这个函数可以方便地将数据集划分为训练集和测试集

from sklearn.model_selection import train_test_split# 假设 X 是特征数据,y 是目标变量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  • X_train 和 y_train 是用于训练模型的特征和目标变量子集。
  • X_test 和 y_test 是用于测试模型的特征和目标变量子集。
  • test_size=0.2 表示测试集占整个数据集的比例,这里设置为20%。
  • random_state=42 是一个可选参数,用于设置随机数生成器的种子,确保每次分割的结果都是一致的,这对于实验的可重复性很重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot设计模式之创建型设计模式·工厂方法模式

文章目录 介绍开始架构图样例一定义工厂定义具体工厂(上衣、下装)定义产品定义具体生产产品(上衣、下装) 测试样例 总结优点缺点与抽象工厂不同点 介绍 在 Factory Method模式中,父类决定实例的生成方式,但…

图像/视频恢复和增强CodeFormer

github:https://github.com/sczhou/CodeFormer 尝试增强旧照片/修复人工智能艺术 面部修复 面部色彩增强和恢复 脸部修复

Python 机器学习 基础 之 监督学习 [ 核支持向量机 SVM ] 算法 的简单说明

Python 机器学习 基础 之 监督学习 [ 核支持向量机 SVM ] 算法 的简单说明 目录 Python 机器学习 基础 之 监督学习 [ 核支持向量机 SVM ] 算法 的简单说明 一、简单介绍 二、监督学习 算法 说明前的 数据集 说明 三、监督学习 之 核支持向量机 1、线性模型与非线性特征 …

汇编语言入门:探索 x86 架构

目录 前言 1. x86 语言 x86 架构简介 x86 架构的特点 x86 架构的演变 x86 架构的应用 2. 常用汇编指令集 3. 寻址方式 结语 前言 汇编语言是一种低级编程语言,直接面向计算机的硬件架构。在计算机科学中,了解汇编语言是非常重要的,因…

探索Java中的利器:ThreadLocal

在日常的Java开发中,我们经常会遇到多线程并发访问共享资源的情况,而这时候线程安全就成了我们需要重点考虑的问题之一。幸运的是,Java提供了一种非常巧妙的机制来解决这个问题,那就是 ThreadLocal。 什么是ThreadLocal&#xff…

基于网络爬虫技术的网络新闻分析(二)

目录 2 系统需求分析 2.1 系统需求概述 2.2 系统需求分析 2.2.1 系统功能要求 2.2.2 系统IPO图 2.2 系统非功能性需求分析 3 系统概要设计 3.1 设计约束 3.1.1 需求约束 3.1.2 设计策略 3.1.3 技术实现 3.3 模块结构 3.3.1 模块结构图 3.3.2 系统层次图 3.3.3…

JumpServer堡垒机应用(v3.10.8) 下

目录 JumpServer堡垒机简单式部署与管理(v3.10.8) 上-CSDN博客 一. 资产管理 1.1创建资产 1.2 给资产主机创建用户 1.2.1 普通账户: 1.2.2 特权账户: 1.2.3 创建用户 二. 命令过滤 2.1 创建命令组 2.2 创建命令过滤 ​编辑 三. 创建资产授权 …

在另外一个页面,让另外一个页面弹框显示操作(调佣公共的弹框)vue

大概意思是,登录弹框在另外一个页面中,而当前页面不存在,在当前页面中判断如果token不存在,就弹框出登录的弹框 最后一行 window.location.href … 如果当前用户已登录,则执行后续操作(注意此处,可不要)

2024中国应急(消防)品牌巡展西安站成功召开!惊喜不断

消防品牌巡展西安站 5月10日,由中国安全产业协会指导,中国安全产业协会应急创新分会、应急救援产业网联合主办,陕西消防协会协办的“一切为了安全”2024年中国应急(消防)品牌巡展-西安站成功举办。该巡展旨在展示中国应急(消防&am…

ADS使用记录之使用RFPro进行版图联合仿真

ADS使用记录之使用RFPro进行版图联合仿真 在ADS中,我们往往使用EM仿真来明确电路的实际性能,但是常规的方法我们只会得到S参数,对于场还有电路的电流分布往往不进行检查。但是在实际中,观察场和电流分布是非常有意义的&#xff0…

Python送你小花花

快到520了,准备好送上你的爱意了吗? 还记得去年从网上模仿了一篇python使用turtle画的小花花程序,当时还没有转行到程序员行业,刚刚入门学习编程,还在纠结是学习python、Java还是C#的时候。 总会被一些猎奇的内容吸引&…

在Linux系统上使用nmcli命令配置各种网络(有线、无线、vlan、vxlan、路由、网桥等)

前言:原文在我的博客网站中,持续更新数通、系统方面的知识,欢迎来访! 在Linux系统上使用nmcli命令配置各种网络(有线、无线、vlan、vxlan等)https://myweb.myskillstree.cn/123.html 更新于2024/5/13&…

01.认识HTML及常用标签

目录 URL(统一资源定位系统) HTML(超文本标记语言) 1)html标签 2)head标签 3)title标签 4)body标签 标签的分类 DTD文档声明 基础标签 1)H系列标签 2&#xff09…

Linux 第三十四章

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,linux 🔥座右铭:“不要等到什么都没有了…

EFDC建模方法及在地表水环境评价、水源地划分、排污口论证中实践【从软件安装到EFDC源码编译】

近年,随着水环境问题的凸显,地表水水环境状况不仅是公众关注的焦点,也是环保、水务等部门兼管的重点,已成为项目审批、规划制定,甚至领导考核的决定因素,特别是国务院水十条即将出台,必将掀起新…

【RSGIS数据资源】2001-2021 年亚洲季风区主要国家作物种植制度数据集

文章目录 1. 数据集概况2. 数据格式3. 文件名命名规则4. 数据生产服务单位5. 元数据6. 数据引用与参考文献引用 1. 数据集概况 2001-2021 年亚洲季风区主要国家作物种植制度数据集(ACIA500)是结合MODIS 影像和现有的土地利用等多源数据,基于…

js实现同步请求

看了一些网上的推荐,但是同步依然借助的async、await,这不是我需要的。这里记录下不依赖async来实现同步请求。 function syncRequest(url, param){const xhr new XMLHttpRequest();xhr.open("GET", url, false); // false 表示同步请求xhr.…

扫码免费领!全国各地妇幼医院引进绿葆自助取袋机,助力宝妈绿色出行

根据国家发展改革委生态环境部印发《关于进一步加强塑料污染治理的意见》第二条第五款,到2020年底,直辖市、省会城市、计划单列市城市建成区的商超、医院、药店等公共场所禁止使用不可降解塑料袋,并鼓励提供可降解环保袋和自助化、智慧化的投…

CNN卷积神经网络初学

1.为什么要学CNN 在传统神经网络中,我们要识别下图红色框中的图像时,我们很可能识别不出来,因为这六张图的位置都不通,计算机无法分辨出他们其实是一种形状或物体。 这是传统的神经网络图,通过权重调整神经元和神经元…

五丰黎红销量增长的秘诀:一物一码数字化营销开创调味品行业新格局!

根据当今经济环境和未来的发展趋势,传统经济向数字化经济转型的发展方向可以说是大势所趋,如何把握先机,率先迈出数字化转型第一步,可以说是无数传统企业都需要思考的问题。 作为中国调味品行业的佼佼者,五丰黎红踩着时…