线性判别结合源码分析LDA原理

1. LDA的思想

LDA线性判别分析也是一种经典的降维方法,LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
可能还是有点抽象,我们先看看最简单的情况。假设我们有两类数据分别为红色和蓝色,如下图所示,这些数据特征是二维的,我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。

在这里插入图片描述

上图中提供了两种投影方式,哪一种能更好的满足我们的标准呢?从直观上可以看出,右图要比左图的投影效果好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了,当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。

在这里插入图片描述
在这里插入图片描述


2.实例结合源码

导包

import numpy as np
from sklearn import datasets
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import warnings warnings.filterwarnings("ignore") 
X,y = datasets.load_iris(True)
X[:5]

array([[5.1, 3.5, 1.4, 0.2],
[4.9, 3. , 1.4, 0.2],
[4.7, 3.2, 1.3, 0.2],
[4.6, 3.1, 1.5, 0.2],
[5. , 3.6, 1.4, 0.2]])

#特征值和特征向量 solver='eigen'/svd
lda = LinearDiscriminantAnalysis(solver='eigen',n_components=2)
X_lda = lda.fit_transform(X,y)
X_lda[:5]

array([[6.01716893, 7.03257409],
[5.0745834 , 5.9344564 ],
[5.43939015, 6.46102462],
[4.75589325, 6.05166375],
[6.08839432, 7.24878907]])

源码截图

def _solve_eigen(self, X, y, shrinkage):
在这里插入图片描述

共分为五步

#1、总的散度矩阵
#协方差X.T 等同rowvar=False,源码中有偏差值bias=1
St = np.cov(X,rowvar=False,bias=1)
St

array([[ 0.68112222, -0.04215111, 1.26582 , 0.51282889],
[-0.04215111, 0.18871289, -0.32745867, -0.12082844],
[ 1.26582 , -0.32745867, 3.09550267, 1.286972 ],
[ 0.51282889, -0.12082844, 1.286972 , 0.57713289]])

#2、类内的散度矩阵
# Scatter 散点图,within(内)
Sw = np.full(shape = (4,4),fill_value=0,dtype = np.float64)
for i in range(3):Sw += np.cov(X[y == i],rowvar=False,bias=1)
Sw/=3
Sw

array([[0.259708 , 0.09086667, 0.164164 , 0.03763333],
[0.09086667, 0.11308 , 0.05413867, 0.032056 ],
[0.164164 , 0.05413867, 0.181484 , 0.041812 ],
[0.03763333, 0.032056 , 0.041812 , 0.041044 ]])

# 3、计算类间的散度矩阵
#Scatter between
Sb = St -Sw
Sb

array([[ 0.42141422, -0.13301778, 1.101656 , 0.47519556],
[-0.13301778, 0.07563289, -0.38159733, -0.15288444],
[ 1.101656 , -0.38159733, 2.91401867, 1.24516 ],
[ 0.47519556, -0.15288444, 1.24516 , 0.53608889]])

# scipy 这个模块下的线性代数子模块
from scipy import linalg
# 4、特征值 和 特征向量
eigen,ev = linalg.eigh(Sb,Sw)print(eigen )
print( ev)

[-1.84103303e-14 1.18322589e-14 2.85391043e-01 3.21919292e+01]
[[ 1.54162331 -2.82590065 0.02434685 0.83779794]
[-2.49358543 1.05970269 2.18649663 1.55005187]
[-2.86907801 1.01439507 -0.94138258 -2.22355955]
[ 4.58628831 0.45101349 2.86801283 -2.83899363]]

ev= ev[:,np.argsort(eigen)[::-1]]
ev

array([[ 0.83779794, 0.02434685, -2.82590065, 1.54162331],
[ 1.55005187, 2.18649663, 1.05970269, -2.49358543],
[-2.22355955, -0.94138258, 1.01439507, -2.86907801],
[-2.83899363, 2.86801283, 0.45101349, 4.58628831]])

# 5、筛选特征向量 ,进行矩阵运算
X.dot(ev[:,:])[:5]

array([[ 6.01716893, 7.03257409, -9.19277808, -3.96472168],
[ 5.0745834 , 5.9344564 , -9.1574493 , -3.02625362],
[ 5.43939015, 6.46102462, -8.48176814, -3.54638757],
[ 4.75589325, 6.05166375, -8.10226933, -4.02500696],
[ 6.08839432, 7.24878907, -8.80421775, -4.36824255]])


3.LDA与PCA比较

相同点

1)两者均可以对数据进行降维。

2)两者在降维时均使用了矩阵特征分解的思想。

3)两者都假设数据符合高斯分布【正态分布】。

不同点

1)LDA是有监督的降维方法,而PCA是无监督的降维方法

2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。

3)LDA除了可以用于降维,还可以用于分类。

4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456092.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RIFF文件规范

RIFF文件规范Peter Lee 2007-10-02 摘要:RIFF全称为资源互换文件格式(Resources Interchange File Format),RIFF文件是windows环境下大部分多媒体文件遵循的一种文件结构,常见的如WAV文件、AVI文件等。RIFF可以看成一种…

FB宣布将回购60亿美元股票 首席会计官将离职

11月19日消息,据美国媒体报道,Facebook宣布将回购60亿美元股票,回购计划将在明年第一季度开始实施。另外,该公司还宣布首席会计官贾斯艾特瓦尔将离职。 短期回购股票可使Facebook赢得时间,缓解投资长期项目如Instagram…

2017小目标

最美人间四月天,没有三月的傲寒,没有五月的燥热,桃花刚偷去了红,杨柳在风中扭着腰,樱花正开的烂漫。工作繁忙之余。做一下深呼吸,沾衣欲湿杏花雨,吹面不含杨柳风。不知不觉2017第一季度已经结束…

【机器学习】feature_importances_ 参数源码解析

在用sklearn的时候经常用到feature_importances_ 来做特征筛选,那这个属性到底是啥呢。 分析源码发现来源于每个base_estimator的决策树的 feature_importances_ 由此发现计算逻辑来源于cython文件,这个文件可以在其github上查看源代码 而在DecisionTree…

流行视频格式讲解

转自 豪杰技术 http://www.herosoft.com 流行视频格式讲解 *. MPEG/.MPG/.DAT MPEG也是Motion Picture Experts Group 的缩写。这类格式包括了 MPEG-1, MPEG-2 和 MPEG-4在内的多种视频格式。MPEG-1相信是大家接触得最多的了,因为目前其正在被广泛地应用在 VCD…

欧盟通过最新《数据保护法》

欧洲议会近日通过了最新的《数据保护法》,用以保护消费者的数据和隐私。该法案是数字时代的首个新规,取代了一套20年前的、在互联网发展初期阶段构想的规则。新规规定,当企业所拥有的消费者相关数据遭遇黑客攻击等泄露事件后,消费…

ajax 长轮询

未完成,因为需要换成webscoket来做,该ajax长轮询有待完善 function poll(){$.ajax({type:"POST",url:"ajax",async:true,data:{"receiverType":"single","receiverId":"${receiverId}",&qu…

python中变量的作用域

变量的作用域 变量的作用域就是指变量的有效范围。 变量按照作用范围分为两类,分别是 全局变量 和 局部变量。 全局变量:在函数外部声明的变量就是全局变量 有效范围:全局变量在函数外部可以正常使用。全局变量在函数内部也可以正常使用(需要…

【机器学习】 关联规则Apriori和mlxtend——推荐算法

引入: 啤酒与尿布的故事 关联规律挖掘:从交易数据中发现:买了X 还会买Y 的规则 关联规律挖掘‘购物篮分析’Market Basket Analysis(MBA) 关联规律->应用于推荐系统 1. 关联规则代码演示 使用的是mlxtend.frequent…

预防和检测如日中天?事件响应表示不服

近些年,企业安全工作的关注点,一直聚焦在如何预防黑客攻击。但是,频发的大型跨国企业的数据泄露事件表明,即使是对网络安全更为重视,同时也投入了更多成本的金融业,也明白了“无论做了怎样的安全防护&#…

python中的内部函数和闭包函数

内部函数 在函数内部声明的函数就是内部函数。 格式: def 函数名():局部变量...def 内部函数名():Python功能代码...示例: def funName():name dragon#定义一个内部函数def inner():print(我是内部函数)‘’‘注释: 1.内部函数的本质就是局…

【机器学习】K-Means(非监督学习)学习及实例使用其将图片压缩

非监督学习之k-means K-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。 1、从数据中选择k个对象作为初始聚类中心; 2、计算每个聚类对象到聚类中心的距离来划分; 3、再次计算…

CloudCC CRM:物联网必将成为CRM的推动力

CRM热门话题背后的主要推动力包括云、社交、移动和大数据,CloudCC CRM认为物联网必将成为CRM的推动力,也就是传感器将事物连接到互联网,创建之前我们从未想到的新型服务。 社交:在销售、市场和客户服务部门,营销人员正…

关于Video Renderer和Overlay Mixer

原文作者: 陆其明 整理日期: 2004/12/27 大家知道,Video Renderer (VR)是接收RGB/YUV裸数据,然后在显示器上显示的Filter。为提高计算机画图性能,根据你计算机显卡的能力,VR会优先使用DirectDraw以及Overlay表面;如果…

【tensorflow】tensorflow -gpu安装及jupyter环境更改

tensorflow -gpu安装 首先,安装Anoconda 1. 官网下载点我:2.安装 点击 python 3.6 version自动下载x64版,下载好之后,然后安装。 如图,打上勾之后,一路next3.打开终端 1)输入conda –-version …

张震博士:SDT是未来安防发展方向

如何挖掘安防大数据价值是未来发展方向 发展实践证明,科技强警已经成为未来发展的必然选择,发展科技强警,必须用技术实力说话。作为科技强警的重要组成部分,安防视频非常重要,但是,目前,安防视频…

关于虚拟机第二块网卡eth1(仅主机模式)的配置问题

这里发生了一个想不明白的事情,我的真机的网卡上面并没有192.168.100.0网段的网卡 但是我在虚拟机上面添加了一块网卡(仅主机模式)eth1 并配置为192.168.100.60(配置文件已经写好) 开机却能用eth1连接上xhell&#xff…

【机器学习】朴素贝叶斯介绍及实例--对短信进行二分类 使用多项式分布

贝叶斯 首先什么是贝叶斯? 一个例子,现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这…

H.264码流结构

a、对照:H.263的码流结构H.263定义的码流结构是分级结构,共四层。自上而下分别为:图像层(picture layer)、块组层(GOB layer)、宏块层(macroblock layer)和块层(block layer)。 PSC TR PTYPE PQUANT CPM PSBI TRB DBQUANT PEI PSPARE PEI…

Gartner分享物联网和智慧城市最新数据

主题为“移我所想 Mobile is me”的2016世界移动大会上海展正在上海如火如荼的举行,Gartner也在第一时间分享了最新的市场数据,包括企业级用户最为关注的物联网和智慧城市的调查预测报告,下面就一起来看看吧! 智慧城市与物联网 物…