从0开始机器学习--Day27--主成分分析方法

主成分分析方法(Principal components analysis)

在降维算法中,比较普遍的是使用主成分分析方法(PCA)

PCA算法简单示例

如图,假设我们有一个二维的特征,想要将其降为一维,简单的方法是寻找一条直线,图中选择的是过原点斜率为正的直线,可以观察到,每个样本点到直线之间的距离都很小,这就是PCA算法实现的结果,每个样本点到直线或低维平面的距离叫做投影误差,而PCA的目的简单来说就是寻找到一个投影平面,使得所有样本点的投影误差最小。

往往在实行PCA算法之前,我们会进行均值归一化和特征规范化处理,使的特征的均值为0,并使得其数据在可比较的范围内,有利于对预测结果的判断。一般来说我们会用u^{(i)}

来表示那条直线也就是向量,但对于一般的问题来说,往往都是将n维的数据降为K维,以把三维数据降为二维为例,降维后我们会得到两个向量,这两个向量会组成一个平面,降维前的数据点就会投影到这上面,所以我们会得到一组K维的向量组。

注意,PCA在将二维降成一维的时候,拟合的向量有时会跟线性回归拟合直线很像,但实际上这是两个不同的东西,直观来讲就是前者是计算点到直线的距离,做的是垂线,特征之间没有区别;后者是直接取相同的x值并对y值作差,y是我们的预测目标,接下来我们来看PCA的具体实现过程。

首先,我们对数据进行预处理。先判断是否要进行特征缩放(如一个特征是房子的尺寸,另一个是卧室数量,此时我们就需要进行特征缩放,将其减去方差并除以偏差),接着进行归一化处理。这里的均值归一化是指在计算出均值后,与其作差并替代原本的样本点,这样新的样本点的均值就变成了0。

接下来,我们通过将协方差矩阵带入到SVD函数中来求的这些向量以及误差投影,协方差矩阵公式为:\Sigma = \frac{1}{m}\sum_{i=1}^{m}{(x^{(i)})(x^{(i)})^{T}},经过SVD函数的计算后,首先会输出由向量组成的U = [u^{(1)},u^{(2)},u^{(3)},...,u^{(m)}],加入我们想降到K维,只需要取前K个向量即可,取得的向量重新组成 U_{reduce},最终得到我们想要的降维矩阵z = (U_{reduce})^{T}X

而在PCA算法中,我们通过以下这个式子来判断,分母是样本点到原点的距离,分子是样本点的平均投影误差平方:

PCA算法的K值判断

我们一般会设置这个式子的值小于等于1%,意为保留了百分之九十九的方差,而在PCA算法中,挑选K值的过程就是循环计算每个K值,看哪个符合。当然,这个式子是为了方便我们理解他的含义,事实上,我们在运行SVD函数时,还会输出一个矩阵S,类似的,我们将K值带入进去,计算1-\frac{\sum_{i=1}^{k}{S_{ii}}}{\sum_{i=1}^{n}{S_{ii}}},只需要满足这个式子也小于等于1%即可,所以有时我们为了方便也会表示为\frac{\sum_{i=1}^{k}{S_{ii}}}{\sum_{i=1}^{n}{S_{ii}}}\geq 0.99

视频参考:https://www.bilibili.com/video/BV1By4y1J7A5?spm_id_from=333.788.videopod.episodes&vd_source=867b8ecbd62561f6cb9b4a83a368f691&p=85

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电子工牌独立双通道定向拾音方案(有视频演示)

现在一些行业的客服人员在面对客户都要求使用电子工牌分别记录客服和顾客的声音,我们利用双麦克风阵列双波束拾音的方案设计了一个电子工牌方案.可以有效分别记录客服和顾客的声音. 方案思路: 我们采用了一个双麦阵列波束拾音的模块A-59,此模块可以利用2个麦克风组成阵列进行双…

Qt Quazip压缩解压实例

qt 中Quazip封装了zip压缩解压操作类,windows编译出dll,lib 最简单的使用示例如下:

小程序19-微信小程序的样式和组件介绍

在小程序中不能使用 HTML 标签,也就没有 DOM 和 BOM,CSS 也仅支持部分选择器 小程序提供了 WXML 进行页面结构的编写,WXSS 进行页面的样式编写 WXML 提供了 view、text、image、navigator等标签构建页面结构,小程序中标签称为组件…

HCIP-HarmonyOS Application Developer 习题(二十二)

1、用户将手机导航迁移至智能手表之后,智能手表如果需要获取手机传过来的数据,从下列哪个方法中获取? A、onCompleteContinuation() B、onStartContinuation() C、onRestoreData() D、onSaveData() 答案:C 分析:FA发起迁移后&am…

动态规划-背包问题——[模版]完全背包问题

1.题目解析 题目来源 [模版]完全背包_牛客题霸_牛客 测试用例 2.算法原理 1.状态表示 与01背包相同,这里的完全背包也是需要一个二维dp表来表示最大价值,具体如下 求最大价值dp[i][j]:在[1,i]区间选择物品,此时总体积不大于j时的最大价值 求…

高效分支管理规范

一、目的 通过标准化的流程和最佳实践,确保代码组织清晰、版本控制高效、变更管理有序,从而提高软件开发的质量、效率和可维护性,支持团队协作和持续集成/持续部署流程,最终实现项目的长期成功和发展 二、分支命名规范 简洁明了…

前后端分离练习(云客项目)

这几天学习了一点前端的开发,后面通过这个小项目来整理开发的过程,参考的是动力节点的动力云客这个项目,大家有兴趣可以去看一下视频,我更多的是学习了它的前端开发,后端我是用自己的方式来的,那么开始今天…

linux001.在Oracle VM VirtualBox中ubuntu虚拟系统扩容

1.打开终端切换到virtualBox安装目录 2.输入命令扩容 如上终端中的代码解释: D:\Program Files\Oracle\VirtualBox>.\VBoxManage modifyhd D:\ubuntu18.04\Ubuntu18.04\Ubuntu18.04.vdi --resize 40960如上代码说明:D:\Program Files\Oracle\Virtual…

小版本大不同 | Navicat 17 新增 TiDB 功能

近日,Navicat 17 迎来了小版本更新。此次版本新增了对 PingCap 公司的 TiDB 开源分布式关系型数据库的支持,进一步拓展了 Navicat 的兼容边界。即日起,Navicat 17 所有用户可免费升级至最新版本,通过 Navicat 工具实现 TiDB 数据库…

Flutter:key的作用原理(LocalKey ,GlobalKey)

第一段代码实现的内容:创建了3个块,随机3个颜色,每次点击按钮时,把第一个块删除 import dart:math; import package:flutter/material.dart; import package:flutter_one/demo.dart;void main() {runApp(const App()); }class App…

10款PDF翻译工具的探索之旅:我的使用经历与工具特色!!

在如今的时代,PDF文件已经成为我们工作、学习和生活中不可或缺的一部分。但是,当遇到一些非母语或陌生语言的PDF文档时,这要怎么办呀!这时候翻译工具就显得尤为重要了。这也是我所遇到过的难题,现在我将与大家分享几款…

L11.【LeetCode笔记】有效的括号

目录 1.题目 2.分析 理解题意 解决方法 草稿代码 ​编辑 逐一排错 1.当字符串为"["时,分析代码 2.当字符串为"()]"时,分析代码 正确代码(isValid函数部分) 提交结果 3.代码优化 1.题目 https://leetcode.cn/problems/valid-parentheses/descri…

创建vue插件,发布npm

开发步骤:1.创建一个vue项目,2.开发一个组件。 3.注册成插件。 4.vite和package.json配置。5.发布到npm 1.创建一个vue项目 npm create vuelatest 生成了vue项目之后,得到了以下结构。 在src下创建个plugins目录。用于存放开发的…

Android OpenGL ES详解——实例化

目录 一、实例化 1、背景 2、概念 实例化、实例数量 gl_InstanceID 应用举例 二、实例化数组 1、概念 2、应用举例 三、应用举例——小行星带 1、不使用实例化 2、使用实例化 四、总结 一、实例化 1、背景 假如你有一个有许多模型的场景,而这些模型的…

MyBatis-Plus的IPage分页total不正确问题

场景: 执行了一条连接查询的sql语句,进行分页后,total不正确问题。如下图: 分析: 分页部分代码如下: String sql searchSqlBuilderInstance.generateSql(); Page page new Page(commonSearchDTO.getPage…

【LeetCode】【算法】53. 最大子数组和

LeetCode 53. 最大子数组和 题目描述 给你一个整数数组 nums ,请你找出一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。子数组是数组中的一个连续部分。 思路 思路:动态规划秒了 具体递推式如…

每日八股——JVM组成

直接上图 JVM(Java虚拟机)是运行Java字节码的虚拟机。它主要由以下几个部分组成: 1. 类加载器(ClassLoader) 负责加载class文件到内存中,并生成对应的Class对象。类加载器分为启动类加载器、扩展类加载器…

Java项目实战II基于微信小程序的私家车位共享系统(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 在城市化进…

Linux(CentOS 7) yum一键安装mysql8

1、通过yum安装 (1)下载mysql 在Linux找个地方输入以下命令 wget https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm (2)安装mysql yum 仓库配置文件 [rootVM-8-15-centos ~]# sudo rpm -Uvh mysql80-c…

K8S单节点部署及集群部署

1.Minikube搭建单节点K8S 前置条件:安装docker,注意版本兼容问题 # 配置docker源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo# 安装docker环境依赖 yum install -y yum-utils device-m…