2.1对 特征归一化 的一些理解

特征归一化有很多不同的叫法,比如:特征缩放Feature NormalizationFeature Scaling

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

特征归一化的意义

  • 各特征之间的大小范围一致,才能使用距离度量等算法
  • 加速梯度下降算法的收敛
  • 在SVM算法中,一致化的特征能加速寻找支持向量的时间
  • 不同的机器学习算法,能接受的输入数值范围不一样

以下是两种常用的归一化方法:

  1. Min-Max标准化(Min-Max Normalization)线性归一化

称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 1]之间。转换函数如下:

x^*=\frac{x-min}{max-min}

该方法实现对原始数据的等比例缩放,其中x^*为归一化后的数据,x为原始数据,max为样本数据的最大值,min为样本数据的最小值。

缺点:

  • 当有新数据加入时,可能导致max和min的变化,需要重新定义。
  • 数据不稳定,存在异常值和较多噪音

优点:

  • 当我们需要将特征值都归一化为某个范围[a,b]时,选MinMaxScaler
  1. 0均值标准化(Z-score standardization)

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将原始数据集归一化为均值为0、方差1的数据集,转化函数为:

x^*=\frac{x-\mu}{\delta}

其中μδ分别为原始数据集的均值和方法。该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很糟糕。

优点:

  • 适用于数据的最大值和最小值未知,或存在孤立点
  1. 比较

以上为两种比较普通但是常用的归一化技术,那这两种归一化的应用场景是怎么样的呢?什么时候第一种方法比较好、什么时候第二种方法比较好呢?下面做一个简要的分析概括:

  • 在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,第二种方法(Z-score
    standardization)表现更好。
  • 在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0
    255]的范围。

下面用Python来实现上述

举例:假设有4个样本及他们的特征如下
样本 | 特征1 | 特征2
---|---|---
1 | 10001 | 2
2 | 16020 | 4
3 | 12008 | 6
4 | 13131 | 8

可见归一化前,特征1和特征2的大小不是一个数量级。归一化后,特征变为

样本特征1特征2
100
210.33
30.730.67
40.811

min-max标准化(Min-Max Normalization)线性归一化

sklearn.preprocessing.MinMaxScaler
sklearn中,sklearn.preprocessing.MinMaxScaler是一种用于特征归一化的方法。使用示例如下

from sklearn.preprocessing import MinMaxScaler
x = [[10001,2],[16020,4],[12008,6],[13131,8]]
min_max_scaler = MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(x)#归一化后的结果
X_train_minmax
array([[ 0.        ,  0.        ],[ 1.        ,  0.33333333],[ 0.33344409,  0.66666667],[ 0.52001994,  1.        ]])

它默认将每种特征的值都归一化到[0,1]之间,归一化后的数值大小范围是可调的(根据MinMaxScaler的参数feature_range调整)。下面代码能将特征归一化到[-1,1]之间。

min_max_scaler = MinMaxScaler(feature_range=(-1,1))
X_train_minmax = min_max_scaler.fit_transform(x)#归一化后的结果
X_train_minmax
array([[-1.        , -1.        ],[ 1.        , -0.33333333],[ 0.46574339,  0.33333333],[ 0.6152873 ,  1.        ]])

MinMaxScaler的实现公式如下

X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min

这是向量化的表达方式,说明X是矩阵,其中

  • X_std:将X归一化到[0,1]之间
  • X.min(axis=0)表示列最小值
  • max,min表示MinMaxScaler的参数feature_range参数。即最终结果的大小范围

以下例说明计算过程(max=1,min=0)
样本 | 特征1 | 特征2
---|---|---
1 | 10001 | 2
2 | 16020 | 4
3 | 12008 | 6
4 | 13131 | 8
X.max | 16020 | 8
X.min | 10001 | 2

归一化的过程如下,假设归一化后的矩阵为S

  • S11=(10001-10001)/(16020-10001)=0
  • S21=(16020-10001)/(16020-10001)=1
  • S31=(12008-10001)/(16020-10001)=0.333444
  • S41=(13131-10001)/(16020-10001)=0.52002
  • S12=(2-2)/(8-2)=0
  • S22=(4-2)/(8-2)=0.33
  • S32=(6-2)/(8-2)=0.6667
  • S42=(8-2)/(8-2)=1

可见,结果与章节“MinMaxScaler使用”中的计算结果一致。

StandardScaler标准化方法 零均值归一化

sklearn.preprocessing.StandardScaler
sklearn.preprocessing.robust_scale
sklearn中,sklearn.preprocessing.StandardScaler是一种用于特征归一化的方法。使用示例如下

from sklearn.preprocessing import StandardScaler
x = [[10001,2],[16020,4],[12008,6],[13131,8]]
X_scaler = StandardScaler()
X_train = X_scaler.fit_transform(x)
X_train
array([[-1.2817325 , -1.34164079],[ 1.48440157, -0.4472136 ],[-0.35938143,  0.4472136 ],[ 0.15671236,  1.34164079]])

归一化后,矩阵每列的均值为0,标准差为1。注意,这里的标准差是指加了Delta Degrees of Freedom因子后的标准差,这与传统的标准差计算公式有区别。(在numpy中,有std()函数用于计算标准差)

StandardScaler的归一化方式是用每个特征减去列均值,再除以列标准差。
以下例说明计算过程,注意标准差是用np.std()计算的。

样本特征1特征2
1100012
2160204
3120086
4131318
列均值127905
列标准差2175.962.236

归一化的过程如下,假设归一化后的矩阵为S

  • S11=(10001-12790)/2175.96=-1.28173
  • S21=(16020-12790)/2175.96=1.484
  • S31=(12008-12790)/2175.96=-0.35938
  • S41=(13131-12790)/2175.96=0.1567
  • S12=(2-5)/2.236=-1.342
  • S22=(4-5)/2.236=-0.447
  • S32=(6-5)/2.236=0.447
  • S42=(8-5)/2.236=1.3416

转载于:https://www.cnblogs.com/cjr0707/p/9750611.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/249356.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

逆向工程生成的Mapper.xml以及*Example.java详解

逆向工程生成的接口中的方法详解 在我上一篇的博客中讲解了如何使用Mybayis逆向工程针对单表自动生成mapper.java、mapper.xml、实体类,今天我们先针对mapper.java接口中的部分方法进行测试,以了解其作用。 先看表结构。。。 从下图可以看到MBG根据数据表…

SpringBoot之静态资源访问

SpringBoot之静态资源访问 1.springboot访问静态资源的几种方式 (1)在src/main/resources/目录下创建 static文件夹 (2)在src/main/resources/目录下创建 resources文件夹 (3)在src/main/resources/目录下创建 public文件夹 (4)在src/main/resources/目录下创建 META-INF/resou…

几何

题目大意定义一个$S-$四面体表示六条边由$S$根不同的木棍组成,定义一种染色方法合法当且仅当至少有$S$根木棍被染色且与每个顶点相邻的三根木棍中至多有一根被染色,求有$N$个$S1,2...N$四面体,求至少染$K$个的方案数。 题解 单独考虑$S1$四面…

VUE的element-ui的使用

我们在自己的网站当中有的时候会用到element-ui的组建 1.如何安装element-ui的组件 在命令行工具当中输入cnpm i element-ui -S, 等待安装 2.如何在vue当中使用element-ui的组件 1.在main.js中引入element相关的js和cssimport Vue from vueimport ElementUI from element-u…

NodeJS+Express+Mysql+MongoDB之环境配置

node作为一款可以兼容前后端的js语言,在做持久层操作上和Java比较类似,下面就简单介绍一下项目中的数据库配置操作. 首选使用express框架自动创建一个测试项目,并在目录下建立一个专门存放数据库配置的配置文件,比如:db.js 代码如下 /* * 数据库配置文件 * Author: zth * D…

Python 私有变量的访问和赋值

首先我们这里先描述下:  Python中,变量名类似__x__的,以双下划线开头,并且以双下划线结尾的,是特殊变量,特殊变量是可以直接访问的(比如 __doc__, __init__等),不是pri…

SpringBoot入门教程(一)详解intellij idea搭建SpringBoot

最近公司有一个内部比赛(黑客马拉松),报名参加了这么一个赛事,在准备参赛作品的同时,由于参赛服务器需要自己搭建且比赛产生的代码不能外泄的,所以借着这个机会,本地先写了个测试的demo,来把tomcat部署相关…

文艺平衡树 Splay 学习笔记(1)

(这里是Splay基础操作,reserve什么的会在下一篇里面讲) 好久之前就说要学Splay了,结果苟到现在才学习。 可能是最近良心发现自己实在太弱了,听数学又听不懂只好多学点不要脑子的数据结构。 感觉Splay比Treap良心多了—…

JS使用XMLHttpRequest对象POST收发JSON格式数据

JavaScirpt中的XMLHttpRequest对象提供了对 HTTP 协议的完全访问,使用该对象可以在不刷新页面的情况与服务器交互数据。XMLHttpRequest是实现AJAX技术的关键对象,本站曾整理过一篇介绍该对象的文章: JS使用XMLHttpRequest对象与服务器进行数据…

ShopXO本地化部署安装之centeros 安装Apache2.4.6 + PHP7.0.33 + Mysql5.7.25环境

对于centerOS安装PHP环境,目前网上的帖子都已经比较成熟,具体步骤大家可以自行搜索查看,但是在安装过程中遇到的一些小细节,这些内容往往需要结合多个帖子才能找到答案,在这里简单记录一下。 细节一 如果使用的阿里云…

Spring Boot 扩展点应用之工厂加载机制

Spring 工厂加载机制,即 Spring Factories Loader,核心逻辑是使用 SpringFactoriesLoader 加载由用户实现的类,并配置在约定好的META-INF/spring.factories 路径下,该机制可以为框架上下文动态的增加扩展。 该机制类似于 Java SPI…

Vue.js使用-http请求

Vue.js使用-ajax使用 1.为什么要使用ajax 前面的例子,使用的是本地模拟数据,通过ajax请求服务器数据。 2.使用jquery的ajax库示例 new Vue({el: #app,data: {searchQuery: ,columns: [{name: name, iskey: true}, {name: age},{name: sex, dataSource:…

跨域(Cross-Domain) AJAX for IE8 and IE9

1、有过这样一段代码,是ajax $.ajax({url: "http://127.0.0.1:9001",type: "POST",data: JSON.stringify({"reqMsg":"12345"}),dataType: json,timeout: 1000 * 30,success: function (response) {if(response.n6){dosomet…

移动WEB的页面布局

随着移动互联网的日益普遍,现在移动版本的web应用也应用而生,那么在做移动web页面布局的过程中,应该注意哪些要点呢?现把个人的一些学习经验总结如下: 要点一、piexl 1px 2dp dp dpr dpi ppi 要点二、viewport io…

AnswerOpenCV(1001-1007)一周佳作欣赏

外国不过十一,所以利用十一假期,看看他们都在干什么。一、小白问题http://answers.opencv.org/question/199987/contour-single-blob-with-multiple-object/ Contour Single blob with multiple objectHi to everyone. Im developing an object shape id…

Mysql 开启远程连接

在日常的数据库的使用过程,往往会因为连接权限的问题搞得我们焦头烂额,今天我把我们在数据库连接上的几个误区简单做个记录。内容如下: 误区一:MYSQL密码和数据库密码的区别 mysql密码是我们在安装mysql服务是设置的密码&#xf…

基于jsp+servlet完成的用户注册

思考 : 需要创建实体类吗? 需要创建表吗 |----User 存在、不需要创建了!表同理、也不需要了 1.设计dao接口 package cn.javabs.usermanager.dao;import cn.javabs.usermanager.entity.User;/*** 用户的dao接口的设计* author Mryang**/ public interfa…

vue resource then

https://www.cnblogs.com/chenhuichao/p/8308993.html

云开发创建云函数

安装wx-server-sdk时候,终端报错如下: 解决方法: 运行:npm cache clean --force即可 转载于:https://www.cnblogs.com/moguzi12345/p/9758842.html

Java8新特性——函数式接口

目录 一、介绍 二、示例 (一)Consumer 源码解析 测试示例 (二)Comparator (三)Predicate 三、应用 四、总结 一、介绍 FunctionalInterface是一种信息注解类型,用于指明接口类型声明…