label y 训练集测试集x_训练集、测试集 train_test_split

训练集 & 测试集

如果拿所有原始数据来训练,存在的问题:

模型很差无法调整;

真实环境难以拿到真实 label;

所以将数据区分为 训练数据 和 测试数据(train test split);

将训练数据来训练模型;然后用测试数据测试模型;

使用这种方式也存在问题;

python 原生分离 iris 数据集

import numpy as np

from sklearn import datasets

import matplotlib.pyplot as plt

iris = datasets.load_iris()

X = iris.data

y = iris.target

X

'''

(array([[5.1, 3.5, 1.4, 0.2],

[4.9, 3. , 1.4, 0.2], ...

[6.2, 3.4, 5.4, 2.3],

[5.9, 3. , 5.1, 1.8]])

'''

y

'''

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

'''

X.shape, y.shape #((150, 4), (150,))

# shuffle

shuffle_indexes = np.random.permutation(len(X)) # 0--len(X) 的随机排列

shuffle_indexes

# array([ 22, 4, 142, 24, 7, 146, ... 9, 95, 130, 29, 124])

test_ratio = 0.2

test_size = int(len(X) * test_ratio)

test_size # 30

test_indexes = shuffle_indexes[:test_size]

train_indexes = shuffle_indexes[test_size:]

test_indexes

'''

array([ 22, 4, 142, 24, 7, 146, 70, 77, 144, 14, 40, 119, 46, 85, 74, 87, 86, 60, 91, 120, 78, 45, 65, 105, 113, 39, 83, 80, 134, 16])

'''

X_train = X[train_indexes]

y_train = y[train_indexes]

X_test = X[test_indexes]

y_test = y[test_indexes]

X_test.shape, X_train.shape # ((30, 4), (120, 4))

封装 train_test_split 函数

def train_test_split(X, y, test_ratio=0.2, seed=None):

assert x.shape[0] == y.shape[0], "the size of X must be equal to the size of y"

assert 0.0 <= test_ratio <= 1.0, "test_ ration must be valid"

if seed:

np.random.seed(seed)

shuffle_indexes = np.random.permutation(len(X))

test_size = int(len(X) * test_ratio)

test_indexes = shuffle_indexes[:test_size]

train_indexes = shuffle_indexes[test_size:]

X_train = X[train_indexes]

y_train = y[train_indexes]

X_test = X[test_indexes]

y_test = y[test_indexes]

return X_train, y_train, X_test, y_test

sklearn 中的 train_test_split

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y)

train_test_split(*arrays, **options)

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_state=42)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/506756.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php mysql练手_ThinkPHP5练手Demo实战

最近有个朋友有个小需求&#xff0c;刚好有时间&#xff0c;也刚好准备研究一下tp5&#xff0c;听说tp5规范了&#xff0c;而且更傻瓜化了。便做了这个论坛的小Demo&#xff0c;开源出来玩玩&#xff0c;改天做两个模版。说句实话&#xff0c;TP5模型层&#xff0c;数据库层真的…

php web mysql数据库_使用php从web访问mysql

php提供多种操作数据库的方案&#xff1a;mysql扩展、mysqli扩展、PDO等。mysql扩展是伴随着php的产生而产生的&#xff0c;随着mysql数据库的发展mysql扩展不能够支持mysql数据库的一些新的特性如预加载功能&#xff0c;mysqli扩展应运而生&#xff0c;重新梳理了php对mysql数…

ubuntu 12.04 mysql_ubuntu12.04 安装和卸载mysql

1&#xff1a;登录系统&#xff0c;安装之前最好先&#xff0c;apt-get update否则会出现找不到安装文件得错误提示2&#xff1a;安装MySQL服务器以及客户端apt-get install mysql-server mysql-client安装得过程中会提示你输入root得密码。3&#xff1a;安装完成以后默认mysql…

oracle实验六杨艳华_oracle实验报告总结

Oracle 实验报告 姓名 学院: 年级: 班级: 指导老师: 实验一 了解 ...学期 Oracle 数据库应用技术 实验报告 选课序号: 班级: 学号: 姓名: 指导教师: 成绩: 史金余 2017 年月日 目录 1.实验目的 ... 学期Oracle 数据库应用......学期 Oracle 数据库应用技术实验报告 选课序号: 班…

python打印生成word_使用python调用zabbix接口截取监控图并生成Word文档

#/usr/bin/python#codingutf-8import json,urllib2,time,os,re,shutilfrom docx import Documentfrom docx.shared import Ptfrom docx.shared import Inchesfrom docx.oxml.ns import qnfrom selenium import webdriverperiod604800#需要获取的监控周期&#xff0c;单位是秒za…

wordpress mysql 密码重置_WordPress忘记密码找回登录密码的四种行之有效的方法

WordPress忘记密码找回登录密码的四种行之有效的方法PS&#xff1a;20170214更新&#xff0c;感谢SuperDoge同学提供的方法&#xff0c;登入phpMyAdmin后&#xff0c;先从左边选自己的数据库&#xff0c;然后点上面的 SQL 标签页&#xff0c;执行下面命令&#xff1a;UPDATE wp…

拷贝 var lib mysql 备份_mysql复制与备份

备份策略&#xff1a;完全差异binlog完全增量binlogbinlog最好能实时备份到另一个节点上。完全备份&#xff0c;多久一次&#xff1f;数据变化量&#xff1a;有20%&#xff0c;建议使用完全备份。可用的备份存储空间&#xff1a;数据变化量很大&#xff0c;可以每天做一个完全备…

nodejs+vue+微信小程序+python+PHP的4s店客户管理系统-计算机毕业设计推荐

系统的功能结构是系统实现的框架&#xff0c;本系统的主要结构为管理员和用户、员工。管理员的功能为车辆信息管理、用户管理、售后服务管理、售后安排管理、完成售后管理等。 本系统实现了售后的在线申请与处理&#xff0c;方便了用户和管理员、员工三方的利益&#xff0c;提高…

mysql 语句 集锦_mysql 语句集锦

查看数据库各表容量大小&#xff1a;select TABLE_NAME, concat(truncate(data_length/1024/1024,2), MB) as data_size,concat(truncate(index_length/1024/1024,2), MB) as index_sizefrom information_schema.tables where TABLE_SCHEMA cjssgroup by TABLE_NAMEorder by d…

esd防护_电路级ESD防护方法

电路板级的ESD防护方法有很多种类&#xff0c;常见的有以下几个方法1、并联放电器件常用的放电器件有ESD/TVS&#xff0c;固体放电管&#xff0c;稳压二极管&#xff0c;压敏电阻&#xff0c;气体放电管等瞬变电压消除器 TVS(Transient Voltage Suppressor)&#xff1a; TVS 是…

mysql中如何判断数组和链表_数据结构之链表与数组(-)——数组和链表的简介...

众所周知&#xff0c;在计算机中要对给定的数据集进行若干处理&#xff0c;首要任务是把数据集的一部分(当数据量非常大时&#xff0c;可能只能一部分一部分地读取数据到内存中来处理)或全部存储到内存中&#xff0c;然后再对内存中的数据进行各种处理。例如&#xff0c;对于数…

python从字符串中提取数字并转换为相应数据类型_python从PDF中提取数据的示例

01前言数据是数据科学中任何分析的关键&#xff0c;大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而&#xff0c;由于可移植文档格式(pdf)文件是最常用的文件格式之一&#xff0c;因此每个数据科学家都应该了解如何从pdf文件中提取数据&#xff0c…

python延时队列_如何通过Python实现RabbitMQ延迟队列

最近在做一任务时&#xff0c;遇到需要延迟处理的数据&#xff0c;最开始的做法是现将数据存储在数据库&#xff0c;然后写个脚本&#xff0c;隔五分钟扫描数据表再处理数据&#xff0c;实际效果并不好。因为系统本身一直在用rabbitmq做异步处理任务的中间件&#xff0c;所以想…

mysql 触发器 库存管理_Mysql中的触发器(库存、用户订单中用到)

什么是触发器&#xff1f;触发器是数据库的一个程序&#xff0c;他是用来监听着数据表的某个行为&#xff0c;一旦数据表的这个行为发生了&#xff0c;马上执行相应的sql语句触发器的语法结构&#xff1a;create trigger触发器的名称触发器事件on监听的表名for each row行为发生…

vue 修改标题栏_VUE动态修改titile的三种方法

第一种&#xff1a;适用于在已经定义好title的情况下&#xff0c;例如首页&#xff0c;关于页等等1.1 main.jsconst defaultTitle 默认 titlerouter.beforeEach((to, from, next)>{document.title to.meta.title ?to.meta.title : defaultTitlenext()})1.2 index.jsroutes…

安卓 监听 mysql_Android监听数据库的值改变与否

做购物车的时候有这个需要&#xff0c;当点击增加数量的时候&#xff0c;要更更新总价与数量&#xff0c;也就是往数据库里更新数据&#xff0c;当更新完的时候&#xff0c;就要计算出新的价钱&#xff0c;这就需要对数据库进行监听。这就要用到内容观察者了。第一步&#xff1…

while的用法java_java中的while循环和do while循环

那么在讲解循环之前呢我们先来了解一下什么是循环 生活中的例子 车子的轮胎他就是一直在循环 马拉松跑到也是在循环 因为运动员不停的一圈一圈在跑这也是一个循环那么我们为什么要学习循环呢&#xff1f;下面看一个小问题 张浩Java考试成绩未达到自己的目标。为了表明自己勤…

迷宫java代码_java写的迷宫代码

迷宫代码&#xff1a;截图如下&#xff1a;packagecom.zxl.maze;/** 抽象类表示选择不同的算法*/public abstract classAbstractMap{/** 得到数据*/public abstract boolean[][] getData(int m,intn);/** 重置*/public abstract void reset(int m,intn);}packagecom.zxl.maze;/…

java时间加减_java时间加减

展开全部1.用java.util.Calender来实现Calendar calendarCalendar.getInstance();calendar.setTime(new Date());System.out.println(calendar.get(Calendar.DAY_OF_MONTH));//今天的日期calendar.set(Calendar.DAY_OF_MONTH,calendar.get(Calendar.DAY_OF_MONTH)1);//让日期加…

java 1%10_Java获取随机数的3种方法

方法1(数据类型)(最小值Math.random()*(最大值-最小值1))例:(int)(1Math.random()*(10-11))从1到10的int型随数方法2获得随机数for (int i0;i<30;i){System.out.println((int)(1Math.random()*10));}(int)(1Math.random()*10)通过java.Math包的random方法得到1-10的int随机数…