分类问题(二元,多元逻辑回归,费歇尔判别分析)spss实操

分类模型:

二分类和多分类:

对于二分类模型

,我们将介绍逻辑回归Fisher线性判别分析两种分类算法;

对于多分类模型,我们将简单介绍Spss中的多分类线性判别分析和多分类逻辑回归的操作步骤

二分类:

基于广义线性模型,假设因变量(类别)服从伯努利分布(二分类情况)。它通过构建逻辑函数,将自变量的线性组合映射到[0,1]区间,得到属于某一类别的概率

其中Y是类别变量,X是自变量,β是待估计的参数

引例:

根据水果的一些属性来判断水果的类别

ID

mass

width

height

color_score

fruit_name

1

192

8.4

7.3

0.55

apple

2

180

8

6.8

0.59

apple

3

176

7.4

7.2

0.6

apple

4

178

7.1

7.8

0.92

apple

5

172

7.4

7

0.89

apple

6

166

6.9

7.3

0.93

apple

7

172

7.1

7.6

0.92

apple

8

154

7

7.1

0.88

apple

9

164

7.3

7.7

0.7

apple

10

152

7.6

7.3

0.69

apple

11

156

7.7

7.1

0.69

apple

12

156

7.6

7.5

0.67

apple

13

168

7.5

7.6

0.73

apple

14

162

7.5

7.1

0.83

apple

15

162

7.4

7.2

0.85

apple

16

160

7.5

7.5

0.86

apple

17

156

7.4

7.4

0.84

apple

18

140

7.3

7.1

0.87

apple

19

170

7.6

7.9

0.88

apple

20

342

9

9.4

0.75

orange

21

356

9.2

9.2

0.75

orange

22

362

9.6

9.2

0.74

orange

23

204

7.5

9.2

0.77

orange

24

140

6.7

7.1

0.72

orange

25

160

7

7.4

0.81

orange

26

158

7.1

7.5

0.79

orange

27

210

7.8

8

0.82

orange

28

164

7.2

7

0.8

orange

29

190

7.5

8.1

0.74

orange

30

142

7.6

7.8

0.75

orange

31

150

7.1

7.9

0.75

orange

32

160

7.1

7.6

0.76

orange

33

154

7.3

7.3

0.79

orange

34

158

7.2

7.8

0.77

orange

35

144

6.8

7.4

0.75

orange

36

154

7.1

7.5

0.78

orange

37

180

7.6

8.2

0.79

orange

38

154

7.2

7.2

0.82

orange

二元逻辑回归

这里的y就是水果的类别,这里是Apple和orange,x就是mass,weight等等

接下来使用spss来进行逻辑回归

spss操作

1,生成虚拟变量:

如果apple就是1

不是apple就是0

2,使用spss进行二元逻辑回归

这里的原理就是极大似然估计

(分析->回归->二元logic回归)

紧接着对协变量进行分类;

如果有一些变量是定性变量,那么就要在这里面进行设置

选中那些定性变量,让他们表示为指示符

上面的如果是向前回归,就是0.05,向后的就是除去的概率就是0.1,基本不用调整什么

自助抽样运用于少量数据的时候

直接进行回归

这里告诉我们预测总体的预测正确率有76.3%

这里显著的只有width和height

针对新的数据进行预测,用到的是下面的公式

也就是

如何提高预测的准确率:

加入平方项和交互项目,

这样提高了预测的准确性,但是导致了每一个变量都不再显著了

(过拟合),只是对样本预测的好,但是不能代表对样本外的数据也有这样的预测准确性

所以可以80%作为训练组,20%为测试组,这样根据训练后的对测试组进行预测(手动扣掉已经知道的值)

 假设条件

二元逻辑回归:

1对自变量的分布没有严格要求,可以是连续变量、离散变量或二者混合。

2假设观测值之间相互独立,即每个样本的取值不受其他样本的影响。

3要求自变量与对数几率(logit)之间存在线性关系,即

Fisher线性判别分析

是一种经典的有监督的线性降维与分类方法,由罗纳德・费希尔(Ronald A. Fisher)提出。它的主要思想是找到一个最优的投影方向,将高维数据投影到低维空间,使得不同类别的数据在投影后能够尽可能地分开,同时同一类别的数据尽可能紧凑。

让他们在投影点上尽可能集中,不同的类的投影点中心尽可能的远离

它通过最大化类间散度与类内散度的比值(即 Fisher 准则函数)来确定投影方向w,其中SB是类间三度矩阵,Sw是类内散度矩阵.新的数据点通过投影到该方向上,并根据投影值与各类别投影中心的距离等规则进行分类。

Spss软件的操作

分析里面的分类的判别式

然后定义范围,在这里是 0-1

统计需要统计我们的费希尔判别系数和未标准化

分类

保存

下面是未标准化的w系数

最后会给出两列尺度,第一列表示属于0的概率,第二列表示属于1的概率

最后的结果

假设条件:

Fisher 判别分析:

1通常假设各类数据服从正态分布,且各类数据的协方差矩阵相等。在这些假设下,Fisher 判别分析能达到较好的效果。

2数据的特征之间具有线性关系,因为它是基于线性投影进行分类的。v

多分类问题:

ID

mass

width

height

color_score

fruit_name

kind

1

192

8.4

7.3

0.55

apple

1

2

180

8

6.8

0.59

apple

1

3

176

7.4

7.2

0.6

apple

1

4

178

7.1

7.8

0.92

apple

1

5

172

7.4

7

0.89

apple

1

6

166

6.9

7.3

0.93

apple

1

7

172

7.1

7.6

0.92

apple

1

8

154

7

7.1

0.88

apple

1

9

164

7.3

7.7

0.7

apple

1

10

152

7.6

7.3

0.69

apple

1

11

156

7.7

7.1

0.69

apple

1

12

156

7.6

7.5

0.67

apple

1

13

168

7.5

7.6

0.73

apple

1

14

162

7.5

7.1

0.83

apple

1

15

162

7.4

7.2

0.85

apple

1

16

160

7.5

7.5

0.86

apple

1

17

156

7.4

7.4

0.84

apple

1

18

140

7.3

7.1

0.87

apple

1

19

170

7.6

7.9

0.88

apple

1

20

194

7.2

10.3

0.7

lemon

2

21

200

7.3

10.5

0.72

lemon

2

22

186

7.2

9.2

0.72

lemon

2

23

216

7.3

10.2

0.71

lemon

2

24

196

7.3

9.7

0.72

lemon

2

25

174

7.3

10.1

0.72

lemon

2

26

132

5.8

8.7

0.73

lemon

2

27

130

6

8.2

0.71

lemon

2

28

116

6

7.5

0.72

lemon

2

29

118

5.9

8

0.72

lemon

2

30

120

6

8.4

0.74

lemon

2

31

116

6.1

8.5

0.71

lemon

2

32

116

6.3

7.7

0.72

lemon

2

33

116

5.9

8.1

0.73

lemon

2

34

152

6.5

8.5

0.72

lemon

2

35

118

6.1

8.1

0.7

lemon

2

36

342

9

9.4

0.75

orange

3

37

356

9.2

9.2

0.75

orange

3

38

362

9.6

9.2

0.74

orange

3

39

204

7.5

9.2

0.77

orange

3

40

140

6.7

7.1

0.72

orange

3

41

160

7

7.4

0.81

orange

3

42

158

7.1

7.5

0.79

orange

3

43

210

7.8

8

0.82

orange

3

44

164

7.2

7

0.8

orange

3

45

190

7.5

8.1

0.74

orange

3

46

142

7.6

7.8

0.75

orange

3

47

150

7.1

7.9

0.75

orange

3

48

160

7.1

7.6

0.76

orange

3

49

154

7.3

7.3

0.79

orange

3

50

158

7.2

7.8

0.77

orange

3

51

144

6.8

7.4

0.75

orange

3

52

154

7.1

7.5

0.78

orange

3

53

180

7.6

8.2

0.79

orange

3

54

154

7.2

7.2

0.82

orange

3

55

86

6.2

4.7

0.8

mandarin

4

56

84

6

4.6

0.79

mandarin

4

57

80

5.8

4.3

0.77

mandarin

4

58

80

5.9

4.3

0.81

mandarin

4

59

76

5.8

4

0.81

mandarin

4

Fisher判别分析

spss处理:

分析->分类->判别式

其他的统计,分类和保存的选择和之前的一样

下面是结果:

多元逻辑回归

spss操作:
分析->回归->多元逻辑回归

检测出来100%正确率

感觉有过拟合的问题,挑10%作为测试组,发现模型的预测准确率是100%,但是测试组的准确率是5/11,不到一半

所以有明显的过拟合的现象

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/68629.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NPC与AI深度融合结合雷鸟X3Pro AR智能眼镜:引领游戏行业沉浸式与增强现实新纪元的畅想

if… NPC(非玩家角色)与AI(人工智能)的深度融合,正引领游戏行业迈向一个全新的沉浸式与增强现实(AR)相结合的新时代。这一创新不仅预示着游戏体验的质变,更可能全面革新游戏设计与叙…

Dom的学习

DOM(文档对象模型,Document Object Model)是一个编程接口,用于HTML和XML文档。它将文档表示为一个树形结构,其中每个节点都是文档的一部分,例如元素、属性和文本内容。通过DOM,开发者可以使用编…

游戏行业销售数据分析可视化

完整源码项目包获取→点击文章末尾名片! 🌟分析: 可看出最近五年用户最喜爱的游戏类型依然还是Action-动作类(当然市场发行的也很多) Sports-运动类和Shooter-射击类顺序互换,但我估计现在大环境局势紧张可以会推动射击…

Golang Gin系列-4:Gin Framework入门教程

在本章中,我们将深入研究Gin,一个强大的Go语言web框架。我们将揭示制作一个简单的Gin应用程序的过程,揭示处理路由和请求的复杂性。此外,我们将探索基本中间件的实现,揭示精确定义路由和路由参数的技术。此外&#xff…

靠右行驶数学建模分析(2014MCM美赛A题)

笔记 题目 要求分析: 比较规则的性能,分为light和heavy两种情况,性能指的是 a.流量与安全 b. 速度限制等分析左侧驾驶分析智能系统 论文 参考论文 两类规则分析 靠右行驶(第一条)2. 无限制(去掉了第一条…

PyTorch使用教程(11)-cuda的使用方法

1. 基本概念 CUDA(Compute Unified Device Architecture)是NVIDIA开发的一种并行计算平台和编程模型,专为图形处理器(GPU)设计,旨在加速科学计算、工程计算和机器学习等领域的高性能计算任务。CUDA允许开发…

金融项目实战 07|Python实现接口自动化——连接数据库和数据清洗、测试报告、持续集成

目录 一、投资模块(投资接口投资业务) 二、连接数据库封装 和 清洗数据 1、连接数据库 2、数据清洗 4、调用 三、批量执行测试用例 并 生成测试报告 四、持续集成 1、代码上传gitee 2、Jenkin持续集成 一、投资模块(投资接口投资业务…

Ubuntu22.04安装paddle GPU版本

文章目录 确立版本安装CUDA与CUDNN安装paddle 确立版本 查看官网信息,确立服务版本:https://www.paddlepaddle.org.cn/documentation/docs/zh/2.6/install/pip/linux-pip.html 安装CUDA与CUDNN 通过nvidia-smi查看当前显卡驱动版本: 通过…

网络编程-UDP套接字

文章目录 UDP/TCP协议简介两种协议的联系与区别Socket是什么 UDP的SocketAPIDatagramSocketDatagramPacket 使用UDP模拟通信服务器端客户端测试 完整测试代码 UDP/TCP协议简介 两种协议的联系与区别 TCP和UDP其实是传输层的两个协议的内容, 差别非常大, 对于我们的Java来说, …

Unity补充 -- 协程相关

1.协程。 协程并不是线程。线程是主线程之外的另一条 代码按照逻辑执行通道。协程则是在代码在按照逻辑执行的同时,是否需要执行额外的语句块。 2.协程的作用。 在update执行的时候,是按照帧来进行刷新的,也是按照帧执行代码的。但是又不想…

IoTDB 常见问题 QA 第四期

关于 IoTDB 的 Q & A IoTDB Q&A 第四期来啦!我们将定期汇总我们将定期汇总社区讨论频繁的问题,并展开进行详细回答,通过积累常见问题“小百科”,方便大家使用 IoTDB。 Q1:Java 中如何使用 SSL 连接 IoTDB 问题…

Json转换类型报错问题:java.lang.Integer cannot be cast to java.math.BigDecimal

Json转换类型报错问题:java.lang.Integer cannot be cast to java.math.BigDecimal 小坑规避指南 小坑规避指南 项目中遇到json格式转换成Map,已经定义了Map的key和value的类型,但是在遍历Map取值的时候出现了类型转换的报错问题&#xff08…

数据结构——队列和栈(介绍、类型、Java手搓实现循环队列)

我是一个计算机专业研0的学生卡蒙Camel🐫🐫🐫(刚保研) 记录每天学习过程(主要学习Java、python、人工智能),总结知识点(内容来自:自我总结网上借鉴&#xff0…

python http server运行Angular 单页面路由时重定向,解决404问题

问题 当Angular在本地ng server运行时候,可以顺利访问各级路由。 但是运行ng build后,在dist 路径下的打包好的额index.html 必须要在服务器下运行才能加载。 在服务器下我们第一次访问路由页面时是没有问题的,但是尝试刷新页面或手动输入路…

SQL表间关联查询详解

简介 本文主要讲解SQL语句中常用的表间关联查询方式,包括:左连接(left join)、右连接(right join)、全连接(full join)、内连接(inner join)、交叉连接&…

Android Jni(一) 快速使用

文章目录 Android Jni(一) 快速使用1、 环境配置下载 NDK2、右键 add c to module3、创建一个 native 方法,并更具提示,自动创建对应的 JNI 实现4、实现对应 Jni 方法5、static loadLibrary6、调用执行 遇到的问题1、[CXX1300] CM…

【HarmonyOS之旅】基于ArkTS开发(二) -> UI开发之常见布局

目录 1 -> 自适应布局 1.1 -> 线性布局 1.1.1 -> 线性布局的排列 1.1.2 -> 自适应拉伸 1.1.3 -> 自适应缩放 1.1.4 -> 定位能力 1.1.5 -> 自适应延伸 1.2 -> 层叠布局 1.2.1 -> 对齐方式 1.2.2 -> Z序控制 1.3 -> 弹性布局 1.3.1…

物联网网关Web服务器--Boa服务器移植与测试

1、Boa服务器介绍 BOA 服务器是一个小巧高效的web服务器,是一个运行于unix或linux下的,支持CGI的、适合于嵌入式系统的单任务的http服务器,源代码开放、性能高。 Boa 嵌入式 web 服务器的官方网站是http://www.boa.org/。 特点 轻量级&#x…

tomcat状态一直是Exited (1)

docker run -di -p 80:8080 --nametomcat001 你的仓库地址/tomcat:9执行此命令后tomcat一直是Exited(1)状态 解决办法: 用以下命令创建运行 docker run -it --name tomcat001 -p 80:8080 -d 你的仓库地址/tomcat:9 /bin/bash最终结果 tomcat成功启动

三天急速通关Java基础知识:Day1 基本语法

三天急速通关JAVA基础知识:Day1 基本语法 0 文章说明1 关键字 Keywords2 注释 Comments2.1 单行注释2.2 多行注释2.3 文档注释 3 数据类型 Data Types3.1 基本数据类型3.2 引用数据类型 4 变量与常量 Variables and Constant5 运算符 Operators6 字符串 String7 输入…