【Python机器学习】无监督学习——不同类型的预处理

【Python机器学习】无监督学习——不同类型的预处理

diannao/2025/4/27 4:19:12/文章来源:https://blog.csdn.net/weixin_39407597/article/details/139450134

之前学习过，一些算法（比如神经网络和SVM）对数据缩放非常敏感。因此，通常的做法是对特征进行调节，使数据更适合于这些算法。通常来说，这是对数据的一种简单的按照特征的缩放和移动。举例：

import mglearn.plots
import matplotlib.pyplot as pltmglearn.plots.plot_scaling()
plt.show()

如上图，左侧显示的是一个模拟的有两个特征的二分类数据集。第一个特征位于10-15之间，第二个特征大约位于0-9之间。

右侧的4张图展示了4种数据变换方法，都生成了更加标准的范围。

1、scikit-learn中的StandardScaler确保每个特征的平均值为0，方差为1，使所有特征都位于同一量级，但这种缩放不能保证特征任何特定的最大值与最小值。

2、RobustScaler的工作原理与StandardScaler类似，确保每个特征的统计属性都位于同一范围，但RobustScaler使用的是中位数和四分位数，而不是平均值和方差。这样RobustScaler会忽略与其他点有很大不同的数据点（比如测量误差）。这些与众不同的数据点也叫异常值。可能会给其他缩放方法造成麻烦；

3、MinMaxScaler移动数据，使所有特征都刚好位于0-1之间，对于二维数据集来说，所有的数据都包含在x轴0-1与Y轴0-1组成的矩阵之间；

4、Normalizer用到一种完全不同的缩放方法。它对每个数据点进行缩放，使得特征向量的欧式长度等于1，换句话说，它将一个数据点投射在半径为1 的圆上，这意味着每个数据点的缩放比例都不相同。如果只有数据的方向（或角度）是重要的，而特征向量的长度无关紧要，通常会使用这种归一化。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/22326.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

js图片跟随鼠标移动效果

js图片跟随鼠标移动效果

js原生代码要实现图片跟随鼠标移动的效果，可以使用JavaScript原生的mousemove事件以及CSS的transform属性。 HTML代码： <div id"container"><img id"image" src"path_to_image.jpg" alt"Image">…

阅读更多...

【python】成功解决“ModuleNotFoundError: No module named ‘graphviz’”错误的全面指南

【python】成功解决“ModuleNotFoundError: No module named ‘graphviz’”错误的全面指南

成功解决“ModuleNotFoundError: No module named ‘graphviz’”错误的全面指南一、引言在Python编程中，当尝试导入一个不存在的模块时，你会遇到ModuleNotFoundError错误。当你看到“ModuleNotFoundError: No module named ‘graphviz’”这样的错…

阅读更多...

vue无需引入第三方，将web页面内容直接下载为docx

vue无需引入第三方，将web页面内容直接下载为docx

vue无需引入第三方， 将web页面内容直接下载为docx 将web页面内容重绘 html ，通过 a 标签直接下载通过写行内样式，控制docx中的文字图效果 let echHtmlWithIf ;if (this.chartImg.length) {if (this.exceed10Min) {echHtmlWithIf <div…

阅读更多...

Linux线程安全：线程互斥

Linux线程安全：线程互斥

一、线程互斥的概念 1.1临界资源与互斥的关系临界资源：多线程执行流共享的资源就叫做临界资源。临界区：每个线程内部，访问临界资源的代码，就叫做临界区。互斥：任何时刻，互斥保证有且只有一个执行流进入…

阅读更多...

《数字图像处理-OpenCV/Python》第15章：图像分割

《数字图像处理-OpenCV/Python》第15章：图像分割

《数字图像处理-OpenCV/Python》第15章：图像分割本书京东优惠购书链接 https://item.jd.com/14098452.html 本书CSDN 独家连载专栏 https://blog.csdn.net/youcans/category_12418787.html 第15章：图像分割图像分割是由图像处理到图像分析的关键步骤…

阅读更多...

对 SQL 说“不”~

对 SQL 说“不”~

开发人员注意！ 您在当前的应用程序架构中是否面临这些问题？ 对 SQL 数据库的高吞吐量。SQL 数据库中的瓶颈。内存数据存储将是解决问题的方案。Redis 是市场上最受欢迎的内存数据存储和缓存选项。Redis 拥有广泛的生态系统，因为主要科技巨…

阅读更多...

Vue3视图渲染技术

Vue3视图渲染技术

1. 模版语言 Vue 使用一种基于 HTML 的模板语法，使我们能够声明式地将其组件实例的数据绑定到呈现的 DOM 上。所有的 Vue 模板都是语法层面合法的 HTML，可以被符合规范的浏览器和 HTML 解析器解析。在底层机制中，Vue 会将模板编译成高度优化…

阅读更多...

54.WEB渗透测试-信息收集- 端口、目录扫描、源码泄露（2）

54.WEB渗透测试-信息收集- 端口、目录扫描、源码泄露（2）

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 内容参考于： 易锦网校会员专享课上一个内容：53.WEB渗透测试-信息收集-端口、目录扫描、源码泄露（1） 关于源码…

阅读更多...

TypeScript 在前端开发中的应用

TypeScript 在前端开发中的应用

TypeScript 在前端开发中的应用非常广泛。以下是一些常见的应用场景： 类型检查：TypeScript 是 JavaScript 的超集，它引入了静态类型检查。在开发过程中，TypeScript 编译器可以帮助开发者捕捉潜在的类型错误，提前发现并…

阅读更多...

Nginx作为下载站点

Nginx作为下载站点

grep -Ev ^$|# /usr/local/nginx/conf/nginx.conf > /opt/nginx.txt cat /opt/nginx.txt > /usr/local/nginx/conf/nginx.conf用上面的指令提取最小化的配置文件 vim /usr/local/nginx/conf/nginx.conf [rootlocalhost ~]# cat /usr/local/nginx/conf/nginx.conf worker…

阅读更多...

uniapp+vue3+ts+百度人脸检测

uniapp+vue3+ts+百度人脸检测

百度人脸检测：https://console.bce.baidu.com/ai/?fromai1#/ai/face/overview/index 免费资源包用完需要付费。 1、百度开通人脸检测创建应用：https://console.bce.baidu.com/ai/?fromai1#/ai/face/app/list 新建组->新建用户实名认证->领…

阅读更多...

Vue 的响应式系统原理

Vue 的响应式系统原理

Vue 的响应式系统是其核心功能之一,它允许数据模型发生变化时自动更新视图。这个机制使得 Vue 能够高效地跟踪依赖关系,并在数据发生变化时仅更新必要的部分,而不是全局重新渲染。 Vue 的响应式系统原理主要包括以下几个方面: 1：数据观测: Vue 使用 Object.define…

阅读更多...

JS百题斩~秒懂数据的作用域（超详细）

JS百题斩~秒懂数据的作用域（超详细）

数据的作用域定义：作用域是运行时代码中的变量，函数和对象的可访问性。通俗的意思就是数据在哪个范围是有效可用的，出了这个范围就不能用了。作用域在哪，关键看在哪里定义的。 ES6之前没有块级作用域。 1.JS有两种作用域&…

阅读更多...

解决linux系统求前N月月份的bug

解决linux系统求前N月月份的bug

日常工作中，需要获取某个日期（20240531）的前N个月，通常会写命令 date -d "20240531 last-month" %Y%m 我期望得到202404 但是很意外： 经过几轮测试，发现只要月内天数超过30天，即所有…

阅读更多...

短视频动画脚本：成都鼎茂宏升文化传媒公司

短视频动画脚本：成都鼎茂宏升文化传媒公司

短视频动画脚本：创作与魅力的探索在数字化时代的浪潮中，短视频动画以其独特的魅力迅速崛起，成为大众娱乐和信息传播的重要载体。成都鼎茂宏升文化传媒公司作为一名原创文章编辑，我深入探索了短视频动画脚本的创作过程&#xff0…

阅读更多...

二，几何相交-5，BO算法分析--（1）正确性

二，几何相交-5，BO算法分析--（1）正确性

也就是说，BO算法有没有可能误报或者漏报？ 一，为什么不会误报？ 因为两条线段从不相邻到相邻，或者其中一条线段不存在到相邻，都会进行一次相交测试。所以不会误报。二，为什么不会漏报&#xff1…

阅读更多...

学习算法笔记（7.5）-贪心算法（股票售卖问题）

学习算法笔记（7.5）-贪心算法（股票售卖问题）

学到这里的大家应该都非常清楚贪心算法到底是怎么一回事了，说白了就是动态规划的一种特例，没有动态规划的使用范围广，但是效率却比动态规划效率高，贪心算法不考虑之前的情况，只考虑当前的最优选择以期达到最优的结果。…

阅读更多...

五款效率软件助你事半功倍

五款效率软件助你事半功倍

1、🔗 亿可达作为一款自动化工具，亿可达被誉为国内版的免费Zaiper。它允许用户无需编程知识即可将不同软件连接起来，构建自动化的工作流程。其界面设计清新且直观，描述语言简洁易懂，使得用户可以轻松上手。 2、&…

阅读更多...

轻松产出创新点！多元时间序列最新可参考成果，高性能高精度

轻松产出创新点！多元时间序列最新可参考成果，高性能高精度

今天给大家推荐一个好挖创新点的研究方向：多元时间序列。多元时间序列是我们解决复杂系统分析和预测问题的重要工具。它通过综合分析多个相关时序数据，可以给我们提供更精准的预测结果，非常适合处理涉及多个变量和多个时间点数据的场景&…

阅读更多...

基于 GhostNet 不同版本的图像识别

基于 GhostNet 不同版本的图像识别

1、介绍 GhostNet 文章地址：[1911.11907] GhostNet: More Features from Cheap Operations (arxiv.org) 主要思想： 特征提取的时候，很多特征图是具有高度相似性的，也就是说存在许多的冗余特征图。从另一个角度想，…

阅读更多...

最新文章