主成分分析法_数学建模 || 葡萄酒的评价(1)主成分分析法

首先要说一下,这篇文章我在其他的平台发过,也是本人亲自写的,如果大家觉得眼熟的话放弃轻松,没有抄袭,主要是因为与我这 “葡萄酒的评价” 题目成系列了,因此在这里再把这个贴出来。


2012 年 A 题葡萄酒的评价,关于评价指标体系的构建,由于变量过多可以使用主成分分析法,对变量进行“降维”处理,使得分析计算结果得到简化。大家今天先学习方法吧,各种方法介绍全了会专门有一篇讲解这些方法在葡萄酒评价题目中的使用。

1

主成分分析法原理

主成分分析法:核心思想是根据原始数据的 n 个变量,重新组合成k个变量,而且这 k 个变量能最大程度的涵盖原始数据的信息。

依据:某一维的方差越大,其所包含的信息越多,也就是说越重要。转换坐标系的方法,可以将二维数据降为一维数据,将三维数据降为二维数据。

主成分分析法,可以通过线性变换的方法将多个变量组合成几个少数的重要变量的多元统计方法。在数学上,这种思想是“降维”。简单的描述一下计算的过程,假设现在有 20 个变量,通过相关性计算,将 20 个变量通过线性表示的方法简化成 4 个新变量,而整理出的4个新变量包含了原来 20  个变量的大部分信息。这句话包含了两个比较重要的点。第一点是整理出出来的是 4 个新变量,也有可能是在 20 个变量中选择出 4 个比较重要的变量。第二点是包含了原变量的大部分信息。而后就可以使用这 4 个新变量进行打分评价,主成分分析法最重要的作用是用于评价。现在可能就会有这么一个问题,既然 20 个变量都有,为什么不直接使用 20 个量进行评价,而是将20个变量简化成了4个新变量。这里就涉及到表述信息的重复。最初的20个变量,可能是从研究主体上直接提取到20个原始数据,可能有两个量之间包含的信息重复,当然也有不同的信息之处。如果第20个变量所展现出来的信息完全可以由其他的19个变量线性表示,那第20个变量的存在完全是没有意义的。这就是在处理中简化变量个数的意义。

新的主成分与原始变量具有不可分割的联系,如下:

1、主成分保留了原始变量绝大多数信息。

2、主成分的个数大大少于原始变量的数目。

3、各个主成分之间互不相关。

4、每个主成分都是原始变量的线性组合。

然后给出一个应用的例子,美国统计学家stone研究国民经济的发展状况,他利用1929年—1938年的的数据得到了17个指标变量,包括雇主补贴,公共支出,利息等,通过主成分分析法,将17个变量简化成了三个新变量,依据自身经济学的背景知识,将三个每变量分别定名为:总收入,总收入变化量,经济发展趋势。这也是主成分分析法需要注意的一个问题,你需要根据背景知识将新变量进行重新命名,这个对于大部分人是很难做到的,也是一个使用受限的一个地方。

2

主成分分析的计算及特点

主成分分析的步骤:

1、初始变量

2、根据初始变量特性选择使用协方差矩阵还是相关矩阵求主成分。

3、计算协方差矩阵或相关矩阵的特征值和特征向量。

①解特征方程,常用雅可比法求出特征值,并使其按大小顺序排列

②分别求出对应于特征值的特征向量

③ 计算主成分贡献率及累计贡献率

④ 计算主成分载荷

⑤ 各主成分的得分

4、确定主成分个数

5、对主成分的含义做解释。

主成分分析的特点:

1、变量间需要有较强相关性,保证能起到很好的降维的效果。

2、新的指标体系无法包含原数据的所有信息。

3、计算前需要进行标准化处理,具体的含义会发生变化,自己进行指标命名时会发生较大的困难。

3

主成分分析的案例分析

一、从将Excel中的数据导入spss

95b016e67084f735152a23a2cf646c38.png

1、启动spss软件

2、操作一下步骤

50b23e40381449d51529404b527a4863.png

3、注意修改文件类型,找到你的文件

6d5bce6f113ad8ea47a6e9c2e7e58654.png

4、属性修改

010852292c33a058cdd150ce48a60f6c.png

5、完成导入

d39a451ab09038c37f33731ce7dbfa88.png

二、主成分分析步骤

1、如下操作,降维

a472e9f6ac22aa477350883cea54a85a.png

2、将左侧的变量导入到右侧,修改“描述、提取、得分”三项

7fe922e46fb2ac442635275b9381f122.png

3、修改三项

#描述:

128dda6e2371d849bec1fb112f4d462e.png

#提取,选中比较直观的碎石图

a4b7841bffa44c4fb0b7259de1d2f873.png

#得分,选中得分系数矩阵,并点击继续

efb1772c7d41b88540cdc36734adfe74.png

4、回到初始的界面,点击确定,开始计算

7bf88d0ea5424f341f1cbcf4c6750894.png

三、计算结果的保存

1、右击,选择导出

905fae8c02d1ed5b212d05c635a10a56.png

2、命名,确定即可

de3a37c22866cc419160b0c2610c2941.png

3、在word里可以直接复制分析出来的了

4

主成分分析的计算结果分析

计算结果是很多的图表,这也是说这是个傻瓜软件的原因,通过操作得到这些图表的过程是很简单的,但是能把这些图表分析清楚需要你有一定的统计学的知识背景。原始数据如下:

a1f96964bfef7fb2b5615d95ab1a7f37.png

1、相关系数矩阵

a0f7d120053c5f7bd5ffe3bd7559a614.png

相关系数矩阵能表示任意两个指标之间的关系( spss 中,0.01,它只写个 .01),比如 GDP 跟 GDP 相关性,自身与自身的相关性是1了; GDP 与工业增加值相关性为 0.967 ,大于0.9的数,表示相关性程度已经非常强了。

2、总方差解释

89853c2f603a4f5c53fb932beebb3485.png

总方差解释图表是主成分分析中最重要的一个表格。在这个案例分析汇总,主成分是两个,第一主成分占比重 72.205% (可以这么理解),第二主成分占比重 12.346% ,这两个主成分达到 85.551% ,超过了 80% ,可以说用这两个指标评价各省份的经济完全可以代替原来的10个指标。碎石图原理基本相同。

e5cb7e9c8bea6ea98090159c6f0204cd.png

3、系数获取

系数指的是在获得两个主成分后,用 10 个原变量线性表示新的 2 个主变量的过程, spss 软件给出的“成分得分系数矩阵”中可以直接得到系数。

2d0b6980fce7e98bd4e3a8393f6fc0df.png

十个变量的位置大家摆清楚,通过以上表格得到这个线性表示的方程,但是大家一定要清楚,由新求出来的 2 个主成分表示总得分的时候一定记得,利用主成分各自占的比重重新求,而不是原来的简单的权重,从下边公式中看的比较清楚,直接看下边的图片吧。

d5cda44561d15c5b357791766d50d47e.png

4、计算得分

计算的得分过程也是有很多技巧的,有的人用计算器按,有的人用 Excel 计算,有的人直接拿 MATLAB 矩阵相乘,效率也不一样的,强烈建议大家使用 MATLAB 进行计算,矩阵相乘大家还记得吧,行向量乘以列向量等于位次相同的元素相乘再加和,跟上边这个公式计算过程一模一样,建议大家回去试一试。当然用 Excel 计算也是比较方便。

acb166eaf5a9da8d6926b1db86e3fd7a.png

从结果上看,广东排名第一,江苏次之。但是天津作为直辖市排名第十,原因可以结合题目背景进行讨论,比如人口数量等因素。

大家先把这方法看明白,到最后的时候会综合的联系到 “葡萄酒评价” 一题上。

5

资源分享

本次主要有三个要分享的东西。

1、这次案例用到的原始数据。

2、用到的软件 spss 版本 24,今天的第二篇推文是 spss24 的安装教程。

3、我自己看过的 spss 的教程,简单易懂的那种。

链接:  https://pan.baidu.com/s/1YuGUnIqbampc8Ag6XV8lfg 

提取码:  sv8f 复制这段内容后打开百度网盘手机App,操作更方便哦

撰文 / 科研狗Doggy

排版 / 科研狗Doggy

-数学与物理-原创内容  转载请联系后台

往期精彩回顾

———————————————

经验 | 数学建模中数据归一化处理
狗子荐题| 2012 年 建模国赛 A 题
软件 | MATLAB2014a软件及安装教程

————————————————————————

40d17efa138df86aea30e988d9edd59c.png

6c1078a58c4048aca9953fe8b3839fa4.png公众号ID:maths-physics*****************************************数学建模 || 物理学术竞赛

软件安装 || 资料大礼包   

数学、物理的历史  

认知、逻辑的提升  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

imagePreview接口调用微信自带图片播放器

2019独角兽企业重金招聘Python工程师标准>>> 在微信浏览器中,出现在网页上的图片通过点按一小段时间,可以调出微信隐藏的图片播放器,在播放器中看图可以随意放大缩小,体验更炫酷。不过这个功能默认只对通过微信后台编辑…

TypeError: 'MongoClient' object is not callable

在声明数据库的时候,将中括号[ ]换成了圆括号()错误:修改完成后的代码:client pymongo.MongoClient(localhost)db client[my_database]#注意这里用中括号!! 之后再运行程序,就能存…

信息系统开发有管理

做了一套题,又总结了下《信息系统开发与管理》。感觉又有了新的认识。这本书应该说总体的设计都是非常具有逻辑性的。内容设计的有些水到渠成。要说结构的话,应该算是总—分结构吧。一開始就以一篇概述全面的介绍了此书。我总结了以下的图。 信息、系统、…

Main 和 静态构造函数 到底谁先执行?

最近被问到一个很有意思的问题,到底是 Main函数 先执行还是 静态构造函数 先执行?参考如下代码:class Program{static Program(){Console.WriteLine("我是 静态构造 函数!");}static void Main(string[] args){Console.…

c 正则提取html,c – 正则表达式以获取HTML表格内容

确实没有可能的正则表达式解决方案适用于任意数量的表数据,并将每个单元格放入单独的后向引用中.这是因为通过反向引用,您需要为要创建的每个backref创建一个独特的开放式窗口,并且您不知道自己有多少个单元格.使用一种或另一种循环来提取数据没有任何问题.例如,在最后一个,在P…

(五)python3 只需3小时带你轻松入门—— 逻辑运算符

如果if判断中存在多个表达式判断,需要使用逻辑运算符。 例如有一个变量a,需要判断是否在1到5之间,那么则需要判断a是否大于1且a小于5。这个时候需要使用and逻辑运算符进行判断。 and python中使用and判断左右两边表达式是同时正确&#xff0c…

(四)python3 只需3小时带你轻松入门—— 流程控制

缩进 python中使用缩进代表代码块;每一个块代表一个层次(分支),每个单独的分支是独立的,但是从整体逻辑上又是相融的;就像一本书一样,每个知识点是独立的,但是每个知识点组成了这本书…

ASP.NET Core 正确获取查询字符串参数

前言有网友在交流群中询问,如何获取查询字符串参数:默认情况下,ASP.NET Core 的模型绑定以键值对的形式从 HTTP 请求中的以下列表中指示的顺序扫描源并获取数据:表单域请求正文路由数据查询字符串参数上传的文件因此,不…

(三)python3 只需3小时带你轻松入门—— 变量的简单运算

变量运算 在编程时,需要对数据进行计算,计算的形式不限于:字符串拼接、相加减、相乘除及普遍的数学运算、剔除或指定剔除、添加或指定添加等。 在python中: *表示乘法/表示除法表示加法-表示减法 a,b10,11 cog3 j2 print(ca)#加…

使用XMLConfiguration解析xml,properties等相应信息

org.apache.commons.configuration.XMLConfiguration; Apache Common-Configuration工具可以从Properties文件,XML文件,JNDI,JDBC数据源,System Properties,Applet parameters,Servlet Parameters等读取相应信息 使用步骤 前提,引入commons-c…

C#语法糖系列 —— 第二篇:聊聊 ref,in 修饰符底层玩法

自从 C# 7.3 放开 ref 之后,这玩法就太花哨了,也让 C# 这门语言变得越来越多范式,越来越重,这篇我们就来聊聊 ref,本质上来说 ref 的放开就是把 C/C 指针的那一套又拿回来了,而且还封装成一套自己的玩法&am…

(二)python3 只需3小时带你轻松入门——基本变量

输入 在程序运行过程中,数据从外部流向程序,称为输入。在程序运行过程中,接收用户从键盘上键入值,可以使用input()函数。 input("请输入你要输入的值:")在输入值时,一般是代表接下来的运算需要使用到用户所…

Fiddler之为什么我没有抓到网络请求的js链接

1 问题 我开了Fiddler,没有抓到js的连接请求,因为我需要替换js文件,我以为我是没有开启抓起https的连接,但是的确开启了。 2 原因 浏览器里面有缓存,部分js文件不会再进行请求。 2 解决办法 在浏览器页面按下F12,然…

html5一年四季的变化,家乡四季的变化作文(精选5篇)

家乡四季的变化作文(精选5篇)在日常生活或是工作学习中,大家或多或少都会接触过作文吧,写作文是培养人们的观察力、联想力、想象力、思考力和记忆力的重要手段。那么你有了解过作文吗?下面是小编精心整理的家乡四季的变化作文(精选5篇)&#…

ThinkPHP多次重复提交问题的根源

2019独角兽企业重金招聘Python工程师标准>>> 由于用户刷新网页,导致页面所有变量回归初始空值 $code_session2 session(code2); $code2 I(code2);if($code2 ! $code_session2) {session(code2, $code2);M(dati)->data($data)->add();} 解决方法是…

(一)python3 只需3小时带你轻松入门—— 编程尝试

什么是函数? 在编程中,函数和通常数学中的函数概念并不完全相同;编程中的函数更接近于一个写好的工具,在开发某些功能时,所需要到该函数,就把该函数拿过来使用。 输出/显示 运行python程序时显示指定的文本…

HTTP 笔记与总结(7)HTTP 缓存(配合 Apache 服务器)

在网络上&#xff0c;有一些缓存服务器&#xff0c;另外浏览器自身也有缓存功能。 例如&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Document</title> </head> <body&…

httpcilent绕过证书

2019独角兽企业重金招聘Python工程师标准>>> 对接其他公司接口&#xff0c;测试环境没有问题&#xff0c;生产环境出现https证书认证的问题&#xff0c; 网上搜了许久才发现一个&#xff0c;链接&#xff1a;http://pan.baidu.com/s/1dEDSmY1 密码&#xff1a;dpsb …

(六)python3 只需3小时带你轻松入门——循环

for循环 使用循环可以重复执行某些代码&#xff0c;可以方便程序编写&#xff1b;但是不记效率的使用循环会使程序运行效率降低。 range 使用range()函数可以生成多个连续整数的range对象(这个概念后面会说)。基本格式&#xff1a;range(end)其中end是结尾数。range(10)则会生…

linux下查看mysql的当前连接情况

为什么80%的码农都做不了架构师&#xff1f;>>> 首先需要登录到mysql中。 总共有三个命令&#xff1a; 1、status mysql> status--------------mysql Ver 14.14 Distrib 5.5.30, for Linux (x86_64) using readline 5.1Connection id: 96Current data…