数据预处理:标准化和归一化

标准化和归一化简介

    • 1、数据预处理概述
    • 2、数据标准化
    • 3、数据归一化
    • 4、标准化和归一化怎么选



1、数据预处理概述


在选择了合适模型的前提下,机器学习可谓是“训练台上3分钟,数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步,是构建一个好的预测模型大厦的基石。数据的数量与质量直接决定了预测模型的好坏

所以,在数据的收集与准备这一步中,必须做好数据预处理。Scikit-Learn提供了标准化和归一化等API方便我们进行数据预处理。标准化和归一化是常用的数据缩放方式

数据预处理的一般顺序(不一定全需要做)为:处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理(仅针对分类问题)

那么,为什么要进行标准化和归一化呢?

例如,我们的某个样本与其它样本数值相差较大,那么,该样本特征的方差就会比其他样本特征大几个数量级,那么,它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。也就是说,该样本会主导其它样本,最终导致预测结果的偏差

当某个或某些特征的单位或大小与其它样本相差较大,或者某特征的方差比其他的特征要大出几个数量级,那么,该特征就容易影响(支配)目标结果,使得一些算法无法学习到其他的特征,即无量纲化

因此,我们需要做的是对样本数据进行数据标准化或归一化,将所有的数据映射到同一尺度

2、数据标准化


2.1、什么是数据标准化

定义:数据标准化通过减去均值然后除以方差(或标准差),转化为均值为0,标准差为1的标准正态分布,转化公式为:
X ′ = X − μ σ X^{'}=\frac{X-\mu}{\sigma} X=σXμ

其中, μ \mu μ为均值, σ \sigma σ为标准差。标准化操作是将数据按其属性(按列)减去平均值,然后再除以标准差

当数据X按均值 μ \mu μ中心化后,再按标准差 σ \sigma

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/590897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jenkins+pytest+allure

jenkinspytestallure allure下载地址 Releases allure-framework/allure2 GitHub allure环境变量配置 allure --version 查看版本(确定是否配置完成) python安装allure插件 pip install allure-pytest pytest的运行指令 pytest -sv test_demo.py 开发完毕后将代码上传到…

深入理解@Resource与@Autowired:用法与区别解析

Resource: Resource 是Java EE提供的注解,也可以在Spring中使用。它是按照名称进行注入的,默认通过属性名(通常是类名的小驼峰命名方式)或者name属性来匹配。如果找不到符合名称的bean,则会抛出异常。在使…

轻量应用服务器阿里云61元、腾讯云62元,你选哪个?

阿里云和腾讯云又降价了,刚刚说完阿里云87元和腾讯云88元,又降级了,阿里云2核2G3M轻量应用服务器61元一年,腾讯云轻量2核2G3M服务器62元一年,你选哪个?阿里云不限制月流量,腾讯云限制200GB月流量…

2024 年 9 款简单好用的 Windows 分区管理器软件

了解适用于 Windows 11 和 Windows 7 的 Windows 分区管理器的概念。本教程还列出了分区管理器软件: 购买新电脑?担心磁盘存储空间不足?你听说过分区吗?如果没有,这篇文章就是为你准备的。 在本文中,我们…

Linux:apache优化(7)—— 访问控制

作用:为apache服务提供的页面设置客户端访问权限,为某个组或者某个用户加密访问; /usr/local/httpd/bin/htpasswd -c /usr/local/httpd/conf/htpasswd tarro1 #添加admin用户,可以在两个路径中间添加-c是新建文件删除原文件&#…

SPI通信协议:串行外设接口的精髓

SPI通信协议:串行外设接口的精髓 SPI(Serial Peripheral Interface)通信协议是一种常见且广泛应用于串行通信的标准,特别适用于连接微控制器与外围设备。本文将深入介绍SPI通信协议的基本原理、工作方式、硬件连接、应用领域以及…

Linux系统驱动要如何学习

1.你将获得: 快速上手 Linux 操作系统; 掌握Linux 内核工作原理; 掌握Linux 内核调试手段; 掌握复杂驱动:USB、PCIE、V4L2等 这门课程旨在为你打开Linux内核驱动的大门,让你在探索Linux内核的旅程中获得前…

C++常用工具函数-1

1、转为16进制 unsigned long temp 16&#xff1b; std::cout<< "temp2"<<std::setbase(16)<< temp << std::endl; 2、数组转指针操作 unsigned char W[4*8*15]; // the expanded key unsigned int * Wb reinterpret_cast<unsigned…

QT的信号与槽

QT的信号与槽 文章目录 QT的信号与槽前言一、QT 打印"hello QT"的dome二、信号和槽机制&#xff1f;二、信号与槽的用法1、QT5的方式1. 无参的信号与槽的dome2.带参的信号与槽dome 2、QT4的方式3、C11的语法 Lambda表达式1、函数对象参数2、操作符重载函数参数3、可修…

LAYABOX:2024新年寄语

2024新年寄语 过去的一年&#xff0c;尽管许多行业面临严峻挑战和发展压力&#xff0c;小游戏领域却逆势上扬&#xff0c;年产值首次突破400亿元大关&#xff0c;众多优质小游戏企业收获颇丰。 对此&#xff0c;祝福大家&#xff0c;2024一定更好&#xff01; 过去的一年&#…

伺服电机的控制模式

一、伺服电机基本的控制模式 伺服电机的基本控制模式有位置模式、速度模式、转矩模式 二、位置模式 位置模式对速度和位置都有严格的控制&#xff0c;通过控制发送脉冲的频率&#xff0c;来确定电机的转动杆速度大小&#xff0c;通过控制发送脉冲的个数来确定转动的角度。位置…

CMake入门教程【基础篇】CMake编译平台

文章目录 简介Visual Studio支持示例 其他编译器和生成器支持MinGW示例 IDE集成Eclipse示例 实验性和特殊平台支持总结 简介 CMake是一个非常强大的跨平台自动化构建工具&#xff0c;它支持生成多种类型的项目文件&#xff0c;覆盖了广泛的开发环境和编译器。在这篇博客中&…

33--反射

1、反射(Reflection)的概念 1.1 反射的出现背景 Java程序中&#xff0c;所有的对象都有两种类型&#xff1a;编译时类型和运行时类型&#xff0c;而很多时候对象的编译时类型和运行时类型不一致。 Object obj new String("hello"); obj.getClass(); 例如&#xf…

【话题】ChatGPT等大语言模型为什么没有智能2

我们接着上一次的讨论&#xff0c;继续探索大模型的存在的问题。正巧CSDN最近在搞文章活动&#xff0c;我们来看看大模型“幻觉”。当然&#xff0c;本文可能有很多我自己的“幻觉”&#xff0c;欢迎批评指正。如果这么说的话&#xff0c;其实很容易得出一个小结论——大模型如…

DS1302N的时钟逻辑

时钟也是一个实时的串口&#xff0c;也是很简单的&#xff0c;不过要注意以下的要点&#xff1a; 要点&#xff1a; &#xff08;1&#xff09;里面有很多数据&#xff0c;所以需要定义一个结构体变量&#xff0c;将其中的数据写进去。 &#xff08;2&#xff09;写进去的数…

.Net Core 防御XSS攻击

网络安全攻击方式有很多种&#xff0c;其中包括XSS攻击、SQL注入攻击、URL篡改等。那么XSS攻击到底是什么?XSS攻击有哪几种类型? XSS攻击又称为跨站脚本&#xff0c;XSS的重点不在于跨站点&#xff0c;而是在于脚本的执行。XSS是一种经常出现在Web应用程序中的计算机安全漏洞…

算法基础之计数问题

计数问题 核心思想&#xff1a; 数位dp / 累加 累加 ​ 分情况讨论 &#xff1a; xxx 000 ~ abc –1 yyy 000 ~ 999 共 abc * 1000 种 特别地&#xff0c;当枚举数字0时 (找第4位为0的数) 前三位不能从000开始了 否则没这个数不合法(有前导零) xxx abc 2.1. d < 1 , 不…

UnityShader(四)一个最简单的顶点/片元着色器

目录 顶点/片元着色器的基本结构&#xff1a; 简单的例子 增加模型数据 顶点着色器和片元着色器之间的通信 顶点/片元着色器的基本结构&#xff1a; Shader "MyShaderName"{Properties{//属性}SubShader{//针对显卡A的SubShaderPass{//设置渲染状态和标签//开始C…

C++正则表达式全攻略:从基础到高级应用

C正则表达式全攻略&#xff1a;从基础到高级应用 一、基础知识二、正则表达式的基本匹配三、C中使用正则表达式四、高级正则表达式五、实践示例六、性能优化6.1、编译正则表达式6.2、避免过度使用回溯6.3、优化匹配算法 七、总结 一、基础知识 正则表达式是一种用于匹配、搜索…

voronoi diagram

voronoi diagram Generalized voronoi diagram GVD Boris Lau - dynamicvoronoi 重要三篇论文链接 dynamic voronoi ros github dynamic voronoi 论文解读 - silver bullet - 慢悠悠的小马车 Voronoi-Based-Hybrid-Astar &#xff08;重要&#xff09; 重要论文 Local a…