数据集归一化处理

📚博客主页:knighthood2001
公众号:认知up吧 (目前正在带领大家一起提升认知,感兴趣可以来围观一下)
🎃知识星球:【认知up吧|成长|副业】介绍
❤️如遇文章付费,可先看看我公众号中是否发布免费文章❤️
🙏笔者水平有限,欢迎各位大佬指点,相互学习进步!

为什么需要归一化

将数据转换成标准正态分布(也称为标准化或归一化)的主要目的是改善机器学习模型的训练效果。以下是详细原因和优势:

原因:

  1. 均一性

    • 不同特征的数值范围可能相差很大,如果不进行标准化,特征值较大的特征会对模型的训练产生更大的影响,而特征值较小的特征可能被忽略。
    • 标准化后,所有特征的均值为0,标准差为1,使得每个特征在同一数量级上,有助于模型公平地对待每一个特征。
  2. 加速梯度下降

    • 在神经网络训练中,梯度下降算法用于优化模型参数。
    • 如果输入数据没有标准化,梯度下降过程可能会变得非常慢,因为不同特征的值差异大,可能导致梯度的更新步长不一致,模型需要更多的迭代次数才能收敛。
  3. 提高数值稳定性

    • 在计算过程中,特别是使用反向传播算法时,标准化数据可以减少数值计算中的溢出或下溢问题。
    • 数值稳定性提高后,模型的训练过程更稳定,收敛速度更快。
  4. 激活函数的有效区间

    • 常见的激活函数(如Sigmoid, Tanh)在输入接近均值0的区域梯度最大,模型训练效果最好。
    • 如果数据没有经过标准化,激活函数可能会饱和(即输出接近其极值),导致梯度接近0,无法有效更新权重。

优势:

  1. 提升模型性能

    • 经过标准化处理后的数据,使得模型训练更快、效果更好。
    • 模型能够更好地捕捉数据中的模式,提高预测性能。
  2. 改进数值问题

    • 标准化后的数据,有助于避免在计算过程中出现数值问题,提高算法的鲁棒性。

实现方式:

标准化通常通过以下方式实现:

  1. 均值-方差标准化(Z-score normalization):

    • 计算每个特征的均值μ和标准差σ
    • 对每个特征进行标准化:[ x’ = \frac{x - \mu}{\sigma} ]
    • 使得每个特征的均值为0,标准差为1。
  2. 最小-最大标准化(Min-Max normalization):

    • 将数据缩放到特定的范围(通常是0到1)。
    • 对每个特征进行缩放:[ x’ = \frac{x - x_{min}}{x_{max} - x_{min}} ]
    • 使得每个特征的值都在0到1之间。

归一化处理的步骤即是将图像像素值标准化到0到1之间,为后续的均值和方差计算做好准备。这一步的核心思想就是希望通过标准化,使得数据更适合于神经网络的训练,提高模型的训练效果和性能。

python代码

原始数据如下图:
在这里插入图片描述

from PIL import Image
import os
import numpy as np# 文件夹路径,包含所有图片文件,这里不区分训练集验证集
folder_path = 'data_cat_dog'# 初始化累积变量
total_pixels = 0
sum_normalized_pixel_values = np.zeros(3)  # 如果是RGB图像,需要三个通道的均值和方差# 遍历文件夹中的图片文件
for root, dirs, files in os.walk(folder_path):for filename in files:if filename.endswith(('.jpg', '.jpeg', '.png', '.bmp')):  # 可根据实际情况添加其他格式image_path = os.path.join(root, filename)image = Image.open(image_path)image_array = np.array(image)# 归一化像素值到0-1之间normalized_image_array = image_array / 255.0# print(image_path)# print(normalized_image_array.shape)# 累积归一化后的像素值和像素数量total_pixels += normalized_image_array.size  # 计算像素数量,宽*高*通道数sum_normalized_pixel_values += np.sum(normalized_image_array, axis=(0, 1))# axis=0 通常表示沿着第一个维度(通常是行)进行操作,而 axis=1 表示沿着第二个维度(通常是列)进行操作。# 计算均值
mean = sum_normalized_pixel_values / total_pixelssum_squared_diff = np.zeros(3)
for root, dirs, files in os.walk(folder_path):for filename in files:if filename.endswith(('.jpg', '.jpeg', '.png', '.bmp')):image_path = os.path.join(root, filename)image = Image.open(image_path)image_array = np.array(image)# 归一化像素值到0-1之间normalized_image_array = image_array / 255.0# print(normalized_image_array.shape)# print(mean.shape)# print(image_path)try:diff = (normalized_image_array - mean) ** 2sum_squared_diff += np.sum(diff, axis=(0, 1))except:print(f"捕获到自定义异常")# diff = (normalized_image_array - mean) ** 2# sum_squared_diff += np.sum(diff, axis=(0, 1))
# 计算方差
variance = sum_squared_diff / total_pixelsprint("Mean:", mean)
print("Variance:", variance)

其中,虽然是三通道图片,但是有些图片,没有三通道,因此可能就会出错,需要把这种图片排除掉。

计算结果

运算结果如下
在这里插入图片描述

Mean: [0.16207108 0.15101928 0.13847153]
Variance: [0.05800501 0.05212834 0.04776142]

后续,就可以将这个数据,放到图像数据预处理中,也就是先对图像归一化处理,好处见上面。

这也看出来,不同的数据集,其归一化结果不同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8分钟带你快速了解Connector/Catalog API的核心设计

引言 在现代大数据应用中,数据集成和同步成为企业数据管理的关键环节。随着数据源和数据库的多样化,如何高效地进行数据集成成为企业面临的重要挑战。 Apache SeaTunnel 作为一款开源的数据集成工具,致力于解决这一问题。本文将详细介绍 Sea…

【Oracle】Oracle常用函数

目录 聚合函数数字函数1. ABS函数:返回一个数的绝对值。2. CEIL函数:返回大于等于给定数的最小整数。3. FLOOR函数:返回小于等于给定数的最大整数。4. ROUND函数:将一个数四舍五入到指定的小数位。5. MOD函数:返回两个…

Java 面向对象编程(OOP)的四大特征

Java 面向对象编程(OOP)的四大特征 1、抽象2、继承3、 封装4、多态性 💖The Begin💖点点关注,收藏不迷路💖 在Java编程中,面向对象编程(OOP)是一个核心概念。OOP的四大基…

总结一下 .NET FrameWork 和 .NET Core 创建的项目的不同点

前言 从 Visual Studio 2022 开始,微软开始淡化 .NET Framework 的概念,在项目向导中,只有使用带 “.NET Framework” 的项目模板创建的才是 .NET Framework 项目,使用其他模板创建的都是 .NET Core 项目 比如,如果你…

​智汇云舟参编的数字孪生团标在2024全球数字经济大会上发布

7月4日,2024全球数字经济大会元宇宙创新发展论坛,2024年“创客中国”元宇宙中小企业创新创业大赛颁奖活动在北京成功举办。智汇云舟作为数字孪生行业头部企业和视频孪生技术首倡者受邀出席活动,并与中国人民大学、摩尔线程等11家知名院校和企…

Java | Leetcode Java题解之第218题天际线问题

题目&#xff1a; 题解&#xff1a; class Solution {public List<List<Integer>> getSkyline(int[][] buildings) {PriorityQueue<int[]> pq new PriorityQueue<int[]>((a, b) -> b[1] - a[1]);List<Integer> boundaries new ArrayList&l…

算法库应用--寻找最长麦穗

学习贺利坚老师算法库 数据结构例程——串的顺序存储应用_使用顺序串存储身份证号-CSDN博客 本人详细解析博客 串的顺序存储的应用实例二_串的顺序存储应用-CSDN博客 版本更新日志 V1.0: 在原有的基础上, 进行优化名字, 并且有了相应的算法库作为支撑, 我使用了for循环来代替老…

【Linux进阶】ext2文件系统(inode)

1.再谈inode (1) 理解inode&#xff0c;要从文件储存说起。 文件储存在硬盘上&#xff0c;硬盘的最小存储单位叫做"扇区"&#xff08;Sector&#xff09;。每个扇区储存512字节&#xff08;相当于0.5KB&#xff09;。操作系统读取硬盘的时候&#xff0c;不会一个个…

jenkins学习

一、jenkins介绍 1.介绍 Jenkins 是一款流行的开源持续集成&#xff08;Continuous Integration&#xff09;工具&#xff0c;广泛用于项目开发&#xff0c;具有自动化构建、测试和部署等功能 2.特点 开源的Java语言开发持续集成工具&#xff0c;支持持续集成&#xff0c;持…

《扩音器声音太小?来看保姆级改装教程》

在我们的日常生活中&#xff0c;你是否曾遇到过这样的困扰&#xff1a;在课堂教学时&#xff0c;扩音器的声音被嘈杂的环境所掩盖&#xff1b;组织活动时&#xff0c;后排的听众总是抱怨听不清声音&#xff1b;又或者在热闹的集市中&#xff0c;你想要宣传自己的商品&#xff0…

win11中配制了系统的环境变量mvn/java,但是mvn/java就是提示不存在的解决方法。

1、已经配制了环境变量&#xff0c;但是提示mvn不存在 2、然后我们在开始程序中查看到cmd&#xff0c;然后以管理员运行&#xff1a; 这样的话&#xff0c;是可以mvn这个命令的&#xff0c;而且只有这种方式是可以的&#xff0c;其它的方式&#xff0c;就算设置了以管理员身份运…

54、一维和二维自组织映射(matlab)

1、一维和二维自组织映射原理 一维和二维自组织映射&#xff08;Self-Organizing Maps, SOM&#xff09;是一种无监督的机器学习算法&#xff0c;通过学习输入数据的拓扑结构&#xff0c;将高维输入数据映射到低维的网格结构中&#xff0c;使得相似的输入数据点在映射空间中也…

二叉树中的前序、中序、后续遍历(C语言)

目录 前序遍历概念代码递归分解图 中序遍历概念代码 后序遍历概念代码 前序遍历 概念 概念&#xff1a; 前序遍历(Preorder Traversal 亦称先序遍历)——访问根结点的操作发生在遍历其左右子树之前。 简单点来说就是&#xff1a;根 左子树 右子树的访问顺序 例如&#xff1a;…

第TR1---TR3周: Pytorch复现Transformer

TR1 一、文本输入处理 1. 词向量 和常见的NLP 任务一样&#xff0c;首先会使用词嵌入算法&#xff08;embedding algorithm&#xff09;&#xff0c;将输入文本序列的每个词转换为一个词向量。 如下图所示&#xff0c;假设我们的输入文本是序列包含了3个词&#xff0c;那么每…

如何实现一套键盘鼠标控制两台计算机(Mouse Without Borders快速上手教程)

需求背景 当我们需要同时使用一台主机和一台笔记本的时候&#xff0c;如果使用两套键盘和鼠标分别操作各自的系统&#xff0c;非常地不便捷且非常占据桌面空间。那么如何使用一套键盘鼠标控制两台电脑呢&#xff1f; 需求实现 软件说明 我们可以使用微软官方的一款软件Mous…

【吊打面试官系列-MyBatis面试题】为什么说 Mybatis 是半自动 ORM 映射工具?它与全自动的区别在哪里?

大家好&#xff0c;我是锋哥。今天分享关于 【为什么说 Mybatis 是半自动 ORM 映射工具&#xff1f;它与全自动的区别在哪里&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; 为什么说 Mybatis 是半自动 ORM 映射工具&#xff1f;它与全自动的区别在哪里&#xf…

网络防御保护——网络安全概述

一.网络安全概念 1.网络空间---一个由信息基础设施组成相互依赖的网络 。 网络空间&#xff0c;它跟以前我们所理解的网络不一样了&#xff0c;它不光是一个虚无缥缈的&#xff0c;虚拟的东西&#xff0c;它更多的是融入了我们这些真实的物理设备&#xff0c;也就意味着这个网…

transformer初探

transformer初探 self-attentionmultihead-attentionencoderdecoder self-attention 其实就是三个矩阵&#xff0c; W q W_q Wq​、 W k W_k Wk​、 W v W_v Wv​&#xff0c;这三个矩阵就是需要训练的参数。分别得到每个token对应的 q q q k k k v v v&#xff0c;其中 q …

maven的卸载与安装

卸载 1.找到当前的maven路径:使用 mvn -v 查看当前maven的安装目录在哪 2.删掉 sudo rm -rf [maven的路径] 3.再次输入 mvn -v 查看是否删除成功 安装 1.下载maven安装包 https://archive.apache.org/dist/maven/maven-3/3.6.3/binaries/ 注意&#xff1a;maven版本请使用3.…

刷题之移除元素(leetcode)

移除元素 这题简单题&#xff0c;但是前面思路是先找到左边第一个不是val的&#xff0c;和右边第一个不是val的&#xff0c;进行交换&#xff0c;边界条件没有处理好&#xff0c;导致报错&#xff08;水平真菜&#xff09; 也可以直接把left是val的与right进行交换&#xf…