机器学习降维技术全面对比评析

简介

在机器学习领域,处理高维数据带来了与计算效率、模型复杂性和过度拟合相关的挑战。降维技术提供了一种解决方案,将数据转换为低维表示,同时保留基本信息。本文旨在比较和对比一些突出的降维技术,涵盖线性和非线性方法。

alt

线性技术

主成分分析(PCA)

  • 线性投影:PCA 执行线性投影以捕获数据中的最大方差。
  • 计算效率:高效且广泛使用,但假设线性关系。

线性判别分析 (LDA)

  • 有监督的降维:LDA 结合了类别信息来找到最好地分离类别的线性组合。
  • 分类重点:对于分类任务特别有用。

随机投影

  • 计算简单性:随机投影提供了一种计算有效的降维方法。
  • 近似保留:虽然计算效率高,但它仅提供成对距离的近似保留。

非线形技术

t-Distributed Stochastic Neighbor Embedding (t-SNE)

  • 非线性嵌入:t-SNE 对于在低维空间中可视化高维数据非常有效。
  • 计算成本:计算成本昂贵,限制了其在大型数据集中的使用。

Uniform Manifold Approximation and Projection (UMAP)

  • 效率:UMAP 的计算效率比 t-SNE 更高,使其适用于更大的数据集。
  • 全局和局部保留:有效保留数据中的局部和全局结构。

自动编码器

  • 神经网络方法:自动编码器使用神经网络来学习高维空间和低维空间之间的非线性映射。
  • 表示学习:能够学习分层表示,但可能对超参数敏感。

Isomap(等轴测图)

  • 测地距离的保留:Isomap 专注于保留测地距离,捕获数据的内在几何形状。
  • 对噪声的敏感性:对噪声和异常值敏感,需要仔细的预处理。

局部线性嵌入 (LLE)

  • 本地关系:LLE 专注于保留数据点之间的本地关系。
  • 参数敏感性:对邻居的选择敏感,并且可能难以保存全局结构。

Code

下面是一个完整的 Python 代码,使用流行的 scikit-learn 库将各种降维技术应用于 Iris 数据集,并用绘图可视化结果。确保您的 Python 环境中安装了 scikit-learn 和 matplotlib:

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.manifold import TSNE
from sklearn.manifold import Isomap
from sklearn.manifold import LocallyLinearEmbedding
from sklearn.manifold import MDS
from sklearn.manifold import SpectralEmbedding
from umap import UMAP
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier

# Load Iris dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Standardize the data
X_std = StandardScaler().fit_transform(X)

# Define dimensionality reduction techniques
methods = [
    ('PCA', PCA(n_components=2)),
    ('LDA', LDA(n_components=2)),
    ('t-SNE', TSNE(n_components=2)),
    ('Isomap', Isomap(n_components=2)),
    ('LLE', LocallyLinearEmbedding(n_components=2)),
    ('MDS', MDS(n_components=2)),
    ('Spectral Embedding', SpectralEmbedding(n_components=2)),
    ('UMAP', UMAP(n_components=2)),
]

# Apply dimensionality reduction and plot results
plt.figure(figsize=(1510))
for i, (name, model) in enumerate(methods, 1):
    plt.subplot(33, i)
    
    # Modified part for LDA
    if name == 'LDA':
        reduced_data = model.fit_transform(X_std, y)
    else:
        reduced_data = model.fit_transform(X_std)
    
    plt.scatter(reduced_data[:, 0], reduced_data[:, 1], c=y, cmap=plt.cm.Set1, edgecolor='k', s=40)
    plt.title(name)
    plt.xlabel('Component 1')
    plt.ylabel('Component 2')

plt.tight_layout()
plt.show()

此代码片段在 Iris 数据集上使用 PCA、LDA、t-SNE、Isomap、LLE、MDS、Spectral Embedding 和 UMAP 等降维技术,并绘制降维后的数据。您可以在缩小的空间中观察每种技术的不同聚类。请随意尝试其他数据集或根据您的具体需求修改代码。

alt

总结

总之,降维技术的选择取决于数据的具体特征和分析的目标。 PCA 和 LDA 等线性方法简单高效,但可能难以处理非线性关系。 t-SNE 和 UMAP 等非线性技术擅长捕获复杂结构,但也带来计算挑战。自动编码器提供了一种灵活的基于神经网络的方法,Isomap 和 LLE 等方法专注于保留特定的几何方面。了解每种技术的优点和局限性对于为给定数据集和任务选择最合适的方法至关重要,从而确保机器学习应用程序获得最佳结果。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/617522.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有道云笔记编辑 Markdown 文件 - GitHub README.md

有道云笔记编辑 Markdown 文件 - GitHub README.md 1. 新建 -> Markdown2. GitHub README.mdReferences 1. 新建 -> Markdown ​ 2. GitHub README.md ​​​ References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/

066:vue中实现二维数组的全选、全不选、反选、部分全选功能(图文示例)

第061个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下,本专栏提供行之有效的源代码示例和信息点介绍,做到灵活运用。 (1)提供vue2的一些基本操作:安装、引用,模板使用,computed,watch,生命周期(beforeCreate,created,beforeM…

Vue3+Vite连接高德地图JS API——地图显示、输入搜索

1 开通高德地图Web端JS API服务 1、进入高德地图API官网(https://lbs.amap.com/): 2、注册登录。 3、进入控制台。 4、点击“应用管理”,点击“我的应用”,创建新应用。 5、添加Key,服务平台选择“Web端&…

BikeDNA(六)参考数据的内在分析2

BikeDNA(六)参考数据的内在分析2 1.数据完整性 见链接 2.网络拓扑结构 见链接 3.网络组件 断开连接的组件不共享任何元素(节点/边)。 换句话说,不存在可以从一个断开连接的组件通向另一组件的网络路径。 如上所述…

基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互

有需要本项目或者部署的系统可以私信博主,提供远程部署和讲解 本研究基于淘宝用户行为的开源数据展开大数据分析研究,通过Hadoop大数据分析平台对阿里天池公开的开源数据集进行多维度的用户行为分析,为电商销售提供可行性决策。 首先我们将大…

如何配置Kafka账号密码

背景 我们需要与第三方系统进行数据同步,需要搭建公网Kafka,Kafka默认是没有用户密码校验的,所以我们需要配置用户名密码校验。 配置 新增JAAS配置文件 在conf目录下新增kafka_server_jaas.conf文件,文件内容如下:…

python统计分析——小提琴图(sns.violinplot)

参考资料:用python动手学统计学,帮助文档 使用seaborn.violinplot()函数绘制箱线图 sns.violinplot()的做出来的小提琴图比plt.violinplot()更像小提琴。 import numpy as np import pandas as pd from matplotlib import pyplot as plt import seabo…

Spark的内核调度

目录 概述 RDD的依赖 DAG和Stage DAG执行流程图形成和Stage划分 Stage内部流程 Spark Shuffle Spark中shuffle的发展历程 优化前的Hash shuffle 经过优化后的Hash shuffle Sort shuffle Sort shuffle的普通机制 Job调度流程 Spark RDD并行度 概述 Spark内核调度任务: 1…

强化学习应用(四):基于Q-learning的无人机物流路径规划研究(提供Python代码)

一、Q-learning简介 Q-learning是一种强化学习算法,用于解决基于马尔可夫决策过程(MDP)的问题。它通过学习一个价值函数来指导智能体在环境中做出决策,以最大化累积奖励。 Q-learning算法的核心思想是通过不断更新一个称为Q值的…

jetson orin nano 使用yolov8导出engine

1. 导出onnx 经过前面训练,得到了best.pt模型,现在想要使用tensorrt进行推理,需要先导出为onnx格式,再转化为engine格式。 yolo export modelbest.pt formatonnx opset12 simplifyTrue2.解决错误 在导出过程中,可能…

Android代码混淆

Android之代码混淆 代码混淆的作用设置混淆1. 在模块目录下的 build.gradle 文件中配置以下代码2. 在 proguard-rules.pro 文件中添加混淆规则 通用混淆规则常用匹配符常用命令注意事项如何查看是否已混淆 代码混淆的作用 1.令 APK 难以被逆向工程,即很大程度上增加…

开源项目CuteSqlite开发笔记(七):CuteSqlite释放BETA版本啦

经过大半年的开发,CuteSqlite程序代码不知不觉来到了6万行,有效行数4万行,CuteSqlite开发完成了一个小版本,进入下一个阶段,并于2024元旦释放BETA版本,有兴趣的朋友可以下载试用。 GitHub下载https://gith…

Handsfree_ros_imu:ROS机器人IMU模块的get_imu_rpy.py文件学习记录

上一篇博客写了关于Handsfree_ros_imu:ROS机器人IMU模块ARHS姿态传感器(A9)Liunx系统Ubuntu20.04学习启动和运行教程: https://blog.csdn.net/qq_54900679/article/details/135539176?spm1001.2014.3001.5502 这次带来get_imu_r…

池化、线性、激活函数层

一、池化层 池化运算是深度学习中常用的一种操作,它可以对输入的特征图进行降采样,从而减少特征图的尺寸和参数数量。 池化运算的主要目的是通过“收集”和“总结”输入特征图的信息来提取出主要特征,并且减少对细节的敏感性。在池化运算中…

ElasticSearch 学习9 spring-boot ,elasticsearch7.16.1实现中文拼音分词搜索

一、elasticsearch官网下载:Elasticsearch 7.16.1 | Elastic 二、拼音、ik、繁简体转换插件安装 ik分词:GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized d…

高质量训练数据助力大语言模型摆脱数据困境 | 景联文科技

目前,大语言模型的发展已经取得了显著的成果,如OpenAI的GPT系列模型、谷歌的BERT模型、百度的文心一言模型等。这些模型在文本生成、问答系统、对话生成、情感分析、摘要生成等方面都表现出了强大的能力,为自然语言处理领域带来了新的突破。 …

ROS2——launcher

在ROS2中,launcher 文件是通过Python构建的,它们的功能是声明用哪些选项或参数来执行哪些程序,可以通过 launcher 文件快速同时启动多个节点。一个 launcher 文件内可以引用另一个 launcher 文件。 使用 launcher 文件 ros2 launch 可以代替…

掌握 Vue 响应式系统,让数据驱动视图(上)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

GitLab任意用户密码重置漏洞(CVE-2023-7028)

GitLab CVE-2023-7028 POC user[email][]validemail.com&user[email][]attackeremail.com 本文链接: https://www.黑客.wang/wen/47.html

Webhook端口中的自定义签名身份认证

概述 如果需要通过 Webhook 端口从交易伙伴处接收数据,但该交易伙伴可能对于安全性有着较高的要求,而不仅仅是用于验证入站 Webhook 要求的基本身份验证用户名/密码,或者用户可能只想在入站 Webhook 消息上增加额外的安全层。 使用 Webhook…