sklearn.preprocessing中的标准化StandardScaler与scale的区别

StandardScaler与scale

    • 1、标准化概述
    • 2、两种标准化的区别



1、标准化概述


标准化主要用于对样本数据在不同特征维度进行伸缩变换,目的是使得不同度量之间的特征具有可比性,同时不改变原始数据的分布

一些机器学习算法对输入数据的规模和量纲非常敏感,如果输入数据的特征之间存在数量级差异,可能会影响算法的准确性和性能

标准化处理的好处是我们在进行特征提取时,可以忽略不同特征之间由于噪声所导致的度量差异,而保留样本在各个维度上的信息分布,提高算法的准确性和性能,增加数据的可解释性

标准化的过程如下:

  • 计算数据列的算数平均值(mean)
  • 计算数据列的标准差/方差(std)
  • 对每个数据列分别进行转化:(X-mean)/std

sklearn.preprocessing提供了两种直接对给定数据进行标准化的方式:scale()函数和StandardScaler类,它们之间有什么区别呢?

2、两种标准化的区别


1)scale()函数

import numpy as np
from sklearn.preprocessing import scale, StandardScaler# A、scale(X, axis)函数:axis:用来计算均值和标准差的轴,默认0,对每个特征进行标准化(列),1为对每个样本进行标准化(行)
# 样本数据
X = np.array([[1, -1, 2], [2, 1, 0]])
# 直接标准化处理
X_scaled = scale(X)
print(X_scaled)
'''
[[-1. -1.  1.][ 1.  1. -1.]]
'''
# 处理后数据的均值和方差
print(X_scaled.mean(axis=0))    # [0. 0. 0.]
print(X_scaled.std(axis=0))     # [1. 1. 1.]

2)StandardScaler类

# B、StandardScaler类
ss = StandardScaler()
# 标准化处理,如果在训练集上进行标准化,同时可以使用保存在训练集中的参数(均值、方差)对测试集数据进行转化
X_scaled = ss.fit_transform(X)
print(X_scaled)
'''
[[-1. -1.  1.][ 1.  1. -1.]]
'''
# 处理后数据的均值和方差
print(X_scaled.mean())    # 0.0
print(X_scaled.std())     # 1.0
# 使用训练集标准化后的均值和方差对测试集数据进行转换
print(ss.transform([[-1, 2, 0]]))
'''
[[-5.  2. -1.]]
'''

StandardScaler类与scale函数标准化的区别总结如下:

  • scale()函数:不能将原数据集(训练集)的均值和方差应用到新的数据集(测试集),如果使用全部样本,标准化计算的结果是训练集和测试集共同的期望和方差
  • StandardScaler类:可以将原数据集(训练集)的均值和方差应用到新的数据集(测试集),即假设训练集的期望和测试集的期望是一样的,测试集的标准化是用的训练集的期望和方差

在机器学习中,我们通常是从整体中以抽样的方式抽出训练集,这意味着我们默认这部分训练集可以代替整体,也就是训练集的期望就是整体的期望,测试集标准化时,它的期望采用的正是训练集的期望,所以StandardScaler类才是我们经常用的方式

更多关于StandardScaler类的使用见文章:传送门



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/655854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个基于 .NET 7 + Vue.js 的前后端分离的通用后台管理系统框架 - DncZeus

前言 今天给大家推荐一个基于.NET 7 Vue.js(iview-admin) 的前后端分离的通用后台权限(页面访问、操作按钮控制)管理系统框架:DncZeus。 官方项目简介 DncZeus是一个基于 .NET 7 Vue.js 的前后端分离的通用后台管理系统框架。后端使用.NET 7 Entity Framework…

Mysql-事务(隔离级别,事务底层原理,MVCC)

什么是事务?有哪些特性? 事务:事务指的是逻辑上的一组操作,组成这组操作的各个单元要么全都成功,要么全都失败。 事务特性: 原子性(Atomicity): 原子性是指事务是一个不…

设计模式——2_0 职责链(Chain of Responsibility)

楼下一个男人并得要死,那家隔壁的一家唱着留声机,对面是弄孩子。楼上有两人狂笑;还有打牌声,河中的船上有女人哭她死去的母亲。人类的悲欢并不相通,我只觉得他们吵闹 ——鲁迅 文章目录 定义图纸一个例子:如…

谷歌人工智能视频生成器-LUMIERE(未开源)

Google重磅发布视频生成模型Lumiere 据说后续会开源 亮点1.支持文本到视频与图像到视频 亮点2.画风迁移 亮点3.运动蒙版 亮点4.视频编辑 亮点5.视频修复 谷歌视频模型可以生成80帧的片段!不仅画质好、质量高,而且时长更长。 视频局部编辑 这项功能可以…

Qt-tr-多语言支持-QColorDialog-翻译中文文本

文章目录 一.添加资源文件二.编辑ts文件三.总结一.添加资源文件 在Visual Studio中使用Qt开发时,如果你想要为QColorDialog或任何其他Qt界面元素显示中文,你需要加载对应的中文翻译文件qt_zh_CN.qm。以下是实现这一目标的步骤: 获取并编译翻译文件: Qt自带了多种语言的翻译…

PiflowX组件-FileRead

FileRead组件 组件说明 从文件系统读取。 计算引擎 flink 组件分组 file 端口 Inport:默认端口 outport:默认端口 组件属性 名称展示名称默认值允许值是否必填描述例子pathpath“”无是文件路径。hdfs://server1:8020/flink/test/text.txtfor…

强化学习原理python篇06(拓展)——DQN拓展

强化学习原理python篇06(拓展)——DQN拓展 n-steps代码结果 Double-DQN代码结果 Dueling-DQN代码结果 Ref 拓展篇参考赵世钰老师的教材和Maxim Lapan 深度学习强化学习实践(第二版),请各位结合阅读,本合集只…

【学习笔记】vue3的watch

尚硅谷Vue2.0Vue3.0全套教程丨vuejs从入门到精通 课程 P152节 笔记: 情况一:监视ref所定义的一个响应式数据 情况二:监视ref所定义的多个响应式数据 这两种情况比较简单,正常写就ok: 情况三:监视reactive所…

LeetCode 2808.使循环数组所有元素相等的最少秒数

【LetMeFly】2808.使循环数组所有元素相等的最少秒数 力扣题目链接:https://leetcode.cn/problems/minimum-seconds-to-equalize-a-circular-array/ 给你一个下标从 0 开始长度为 n 的数组 nums 。 每一秒,你可以对数组执行以下操作: 对于…

把 matlab 公式输出成 latex 公式形式

问题 latex 进行符号计算后,想直接把 matlab 中变量代表的公式结果输出成 latex 形式。 这样可以直接 复制到 latex 中,不需要手打公式了。 方法 matlab 函数 latex 可以实现上述功能,但最好是 使用 simpify(expand(~)) 进行化简 str_Jac…

关机恶搞小程序

1. system("shutdown")的介绍 当system函数的参数是"shutdown"时,它将会执行系统的关机命令。 具体来说,system("shutdown")的功能是向操作系统发送一个关机信号,请求关闭计算机。这将触发操作系统执行一系列…

MacOS安装反编译工具JD-GUI以及解决无法打开的问题

目录 一.下载地址 二.安装 三.问题 四.解决办法 1.显示包内容 2.找到Contents/MacOS/universalJavaApplicationStub.sh 3.修改sh文件 4.保存后再次打开即可 一.下载地址 Java Decompiler 二.安装 将下载下来的 jd-gui-osx-1.6.6.tar 解压,然后将 JD-GUI.a…

Hadoop3.x基础(1)

来源:B站尚硅谷 这里写目录标题 大数据概论大数据概念大数据特点(4V)大数据应用场景 Hadoop概述Hadoop是什么Hadoop发展历史(了解)Hadoop三大发行版本(了解)Hadoop优势(4高)Hadoop组成&#xf…

IntelliJ创建一个springboot工程

安装jdk mac教程 windows教程 安装maven mac教程 windows教程 建议: 在本地磁盘新建一个文件夹叫maven,然后把下载的maven安装到这里。在后续的IntelliJ操作中,配置maven的settings.xml和repository地址为这个目录下的地址。 创建sprin…

【架构】Docker实现集群主从缩容【案例4/4】

实现集群主从缩容【4/4】 接上一节,在当前机器为4主4从的架构上,减缩容量为3主3从架构。即实现删除6387和6388. 示意图如下: 第一步:查看集群情况(第一次) redis-cli --cluster check 127.0.0.1:6387roo…

四:C语言-条件分支语句

四:条件分支语句 C语言是结构化的程序设计语言,这里的结构指的是顺序结构、选择结构、循环结构。 我们可以使用if、switch实现分支结构;使用for、while、do while实现循环结构 1.if语句: 语法格式: if(表达式)代码块…

【Leetcode热题100】

哈希 1. 两数之和 class Solution { public:vector<int> twoSum(vector<int>& nums, int target) {//构建hash表 unordered_map<int,int>hash;//遍历每个元素数据for(int i 0 ; i < nums.size();i){//目标 - 当前数据 与当前设备匹配的元素数…

c# Get方式调用WebAPI,WebService等接口

/// <summary> /// 利用WebRequest/WebResponse进行WebService调用的类 /// </summary> public class WebServiceHelper {//<webServices>// <protocols>// <add name"HttpGet"/>// <add name"HttpPost"/>// …

【Linux】fork()函数

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

Docker 安装篇(CentOS)

Docker社区版 Docker从1.13版本之后采用时间线的方式作为版本号&#xff0c;分为社区版CE和企业版EE。 社区版是免费提供给个人开发者和小型团体使用的&#xff0c;企业版会提供额外的收费服务&#xff0c;比如经过官方测试认证过的基础设施、容器、插件等。 1、Docker 要求 C…