因子分析模型

主成分分析和因子分析

#包载入
library(corrplot)
library(psych)
library(GPArotation)
library(nFactors)
library(gplots)
library(RColorBrewer)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

主成分分析

主成分分析(PCA)是对针对大量相关变量提取获得很少的一组不相关的变量,这些无关变量也成为主成分变量。

数据探索

#本部分引入消费者品牌感知的问卷数据集作为数据pca <- read.csv("http://r-marketing.r-forge.r-project.org/data/rintro-chapter8.csv")summary(pca)
#可以看到,该数据除了一个字符变量外,其他都是1~10的数字变量
head(pca)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
library(corrplot)
#检查两两变量之间的相关关系
corrplot(cor(pca[,1:9]), order = "FPC")
#"FPC" for the first principal component order.
  • 1
  • 2
  • 3
  • 4
  • 5

这里写图片描述
可以大致发现聚成了三个类别,分别是latest/trendy/fun,serious/leader/perform,bargain/rebuy/value三类,而这也是接下来的分析所要验证的。

提取主成分

#数据表度化
pca.sc <- pca
pca.sc[,1:9] <- scale(pca.sc[,1:9])
#提取主成分
pca.pc <- prcomp(pca.sc[,1:9])
summary(pca.pc)
#判断成分数量
plot(pca.pc, type = "l")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

这里写图片描述

这里写图片描述

对于主成分数量,scree图可看到在3类之后,每个主成分解释的方差增值减少。

主成分得分获取

#psych包也有不错的PCA分析输出
library(psych)
fa.parallel(pca.sc[,1:9],fa = "pc") #principal()需要事先知道大致多少成分,该包的碎石图输出
pca.psy <- principal(pca.sc[,1:9], nfactors = 3,rotate = "none")
round(unclass(pca.psy$weights),2) #获取主成分得分
  • 1
  • 2
  • 3
  • 4
  • 5

这里写图片描述

此处的获得的各个主成分的构成系数,可以导出:PC1 = 0.14*perform + 0.12 leader + latest(-0.21)….

品牌感知图

与此同时,主成分分析运用的另一个重要方面是,通过双标图(biplot)考察不同类别(品牌)之间的关系可视化

#对主成分中的前两个成分映射到二维,但因为直接投射数据主体会面临散点太多,可视度差的问题
biplot(pca.pc)
#所以,可对其类别(品牌)进行映射
pca.mean <- aggregate(.~ brand, pca.sc, mean)
rownames(pca.mean) <- pca.mean[,1]
pca.mean.pc <- prcomp(pca.mean[,-1], scale = T)
summary(pca.mean.pc)
biplot(pca.mean.pc) #品牌感知图
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

这里写图片描述

这里写图片描述
从这张图上就可以考到各个分类(品牌)的调性和位置。

可进一步考察不同品牌间的差异:

pca.mean["a",] - pca.mean["j",]
  • 1
  • 2

这里写图片描述

解释性因子分析

因子分析(EFA)是用来发现一组变量潜在结构的方法,主要针对无法观测的因子变量,提取获得可观测的显变量。

EFA因子数量确定

# 碎石图和特征值确定因子数目
library(nFactors)
# 多种碎石图方案
nScree(pca.sc[,1:9])#  noc naf nparallel nkaiser
#  1   3   2         3       3# >1 的特征值数量
eigen(cor(pca.sc[,1:9]))#$values
#[1] 2.9792956 2.0965517 1.0792549 0.7272110 0.6375459 0.5348432 0.3901044
#[8] 0.3120464 0.2431469
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

从以上结果可知,因子数在2和3之间选择。

#使用psych包提取公因子
#公因子数量为2的方案
fa(pca.sc[,1:9], nfactors = 2, rotate = "none",fm = "ml") #因子化方法选择最大似然法ml
  • 1
  • 2
  • 3

这里写图片描述
2因子方案的只解释了44%的方差。

#公因子数量为3的方案
fa(pca.sc[,1:9], nfactors = 3, rotate = "none",fm = "ml") 
  • 1
  • 2

这里写图片描述
上升到了57%的方差解释度。由此可认为3因子方案更胜一筹。

EFA旋转

两种方法进行旋转

#使用psych的fa来进行正交旋转
#正交旋转
fa.vaf <- fa(pca.sc[,1:9], nfactors = 3, rotate = "varimax",fm = "ml")  
fa.vaf
#斜交旋转
#使用GPArotation的oblimin斜交旋转,factanal的结果相对简练。
library(GPArotation)
fa.ob <- factanal(pca.sc[,1:9], factors = 3, rotation = "oblimin") 
fa.ob
#获得未列出的因子结构矩阵,通过因子模型矩阵*因子关联矩阵获得
fsm <- function(oblique) {
if (class(oblique)[2]=="fa" & is.null(oblique$rotmat)) {warning("Object doesn't look like oblique EFA")
} else {P <- unclass(oblique$loading)F <- P %*% oblique$rotmatreturn(F)
} }
fsm(fa.ob)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

正交旋转
这里写图片描述

斜交旋转
这里写图片描述

正交旋转将人为的强制因子间不相关,并且关注的结果集中在因子结构矩阵(correlations of the variables with the factors)。斜交旋转则关注三个矩阵:
* 因子模式矩阵(pattern matrix),结果中的(loading)列出了各个变量和因子变量的标准化回归系数。
* 因子关联矩阵(Factor Correlations matrix),因子间的关联性考察。
* 因子结构矩阵(structure matrix),即因子载荷矩阵,衡量变量与因子间的相关系数。

#相应的替代方案
#正交旋转
fa.va <- factanal(pca.sc[,1:9], factors = 3, rotation = "varimax") 
#斜交旋转
fa.promax <- fa(pca.sc[,1:9], nfactors = 3, rotate = "promax",fm = "ml") fsmfa <- function(oblique) {
if (class(oblique)[2]=="fa" & is.null(oblique$Phi)) {warning("Object doesn't look like oblique EFA")
} else {P <- unclass(oblique$loading)F <- P %*% oblique$Phireturn(F)
} }fsmfa(fa.promax)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

EFA旋转结果的可视化

使用路线图展示潜因子和单独因子之间的关系。

fa.diagram(fa.promax,simple = T,digits = 2)
  • 1

这里写图片描述

使用热图更直观的展示潜因子和变量之间的关系。

library(gplots)
library(RColorBrewer)
heatmap.2(fa.ob$loadings,col=brewer.pal(9, "GnBu"), trace="none", key=FALSE, dend="none",Colv=FALSE, cexCol = 1.5,main="\n\n\nFactor loadings for brand adjectives")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

这里写图片描述

不同品牌因子得分

#获得各个品牌的三个因子均值
fa.ob <- factanal(pca.sc[,1:9], factors = 3, rotation = "oblimin",scores = "Bartlett") 
fa.score <- data.frame(fa.ob$scores)
fa.score$brand <- pca.sc$brand
fa.score.mean <- aggregate(.~ brand, fa.score, mean)
fa.score.mean
#根据因子均值做热图
rownames(fa.score.mean) <- fa.score.mean[, 1]           # brand names
fa.score.mean <- fa.score.mean[, -1]heatmap.2(as.matrix(fa.score.mean),col=brewer.pal(9, "GnBu"), trace="none", key=FALSE, dend="none",cexCol=1.2, main="\n\n\n\nMean factor score by brand")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

这里写图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475529.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络机器人开发商

http://soft.pt42.com/blog_backup_index.htm转载于:https://www.cnblogs.com/carl2380/archive/2011/09/01/2162136.html

因子分析模型 - 案例按步骤详解 - (SPSS建模)

一、SPSS中的因子分析。 步骤: &#xff08;1&#xff09;定义变量&#xff1a;x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重&#xff0c;x3-非农村人口比重&#xff0c;x4-乡村从业人员占农村人口的比重&#xff0c;x5-农业总产值占农林牧总…

MVC View 中 html 属性名与关键字冲突问题的分析与解决

在 MVC 的 View 中&#xff0c;允许使用 {} 来定义元素的属性。不过&#xff0c;HTML 中的 class 属性名与 C# 中的类 class 是冲突的&#xff0c;所以&#xff0c;在使用的时候&#xff0c;会发现不能使用 class 这个属性。解决的办法是在 class 前面加上一个 符号&#xff0…

神经网络 - 用单层感知器实现多个神经元的分类 - (Matlab建模)

训练样本矩阵&#xff1a; P [0.1 0.7 0.8 0.8 1.0 0.3 0.0 –0.3 –0.5 –1.5; 1.2 1.8 1.6 0.6 0.8 0.5 0.2 0.8 –1.5 –1.3]; 训练样本对应的分类&#xff1a; T [1 1 1 0 0 1 1 1 0 0 ;0 0 0 0 0 1 1 1 1 1]; 用MATLAB实现分类&…

LeetCode 1218. 最长定差子序列(哈希map)

1. 题目 给你一个整数数组 arr 和一个整数 difference&#xff0c;请你找出 arr 中所有相邻元素之间的差等于给定 difference 的等差子序列&#xff0c;并返回其中最长的等差子序列的长度。 示例 1&#xff1a; 输入&#xff1a;arr [1,2,3,4], difference 1 输出&#xff…

缺失值处理 - 定位空值并用空值的上一个值填充 - (Excel)

今天小助理很烦恼&#xff0c;说要处理一批汇率的数据&#xff0c;用近邻日期的汇率填充汇率为空的日期的汇率&#xff0c;这句话比较拗口&#xff0c;我们用数据解释一下。 比如下表&#xff0c;10月6日和10月8日9日的汇率没有采集到&#xff0c;那么我们就用10月5日的汇率填…

C#开发基础类库

下载地址&#xff1a;http://files.cnblogs.com/dashi/Sxmobi.rar转载于:https://www.cnblogs.com/dashi/archive/2011/09/09/2172506.html

LeetCode 1027. 最长等差数列(DP)

1. 题目 给定一个整数数组 A&#xff0c;返回 A 中最长等差子序列的长度。 回想一下&#xff0c;A 的子序列是列表 A[i_1], A[i_2], ..., A[i_k] 其中 0 < i_1 < i_2 < ... < i_k < A.length - 1。并且如果 B[i1] - B[i]( 0 < i < B.length - 1) 的值都…

因子分析模型 - 因子分析法原理与代码实现 -(Python,R)

因子分析基本思想 和主成分分析相似&#xff0c;首先从原理上说&#xff0c;主成分分析是试图寻找原有自变量的一个线性组合&#xff0c;取出对线性关系影响较大的原始数据&#xff0c;作为主要成分。 因子分析&#xff0c;是假设所有的自变量可以通过若干个因子&#xff08;中…

如何将两个DateTimePicker的日期和时间组合成一个值

有两个DateTimePicker&#xff0c;DateTimePicker1用于选择日期&#xff0c;DateTimePicker2用于选择Time&#xff0c;现在需要将两个DateTimePicker的值组合成一个DateTime使用。 方法&#xff1a; 1: DateTime dtTime Convert.ToDateTime(dateTimePicker1.Value.ToShortDate…

LeetCode 1255. 得分最高的单词集合(回溯)

1. 题目 你将会得到一份单词表 words&#xff0c;一个字母表 letters &#xff08;可能会有重复字母&#xff09;&#xff0c;以及每个字母对应的得分情况表 score。 请你帮忙计算玩家在单词拼写游戏中所能获得的「最高得分」&#xff1a;能够由 letters 里的字母拼写出的 任…

推荐几个网站 - (可视化、博客、社区、学习网站)

------------------------------------------------------------------------------------------------------------- 作者&#xff1a;Mf是个大坏蛋 原文&#xff1a;https://blog.csdn.net/destinymf/article/details/81186452 ----------------------------------------…

对Java注解(Annotation)初步的认识

----------------------android培训、java培训、期待与您交流&#xff01; ---------------------- 为注解增加属性 例如&#xff1a; import java.lang.annotation.Retention;import java.lang.annotation.RetentionPolicy;Retention(RetentionPolicy.RUNTIME)public interfac…

LeetCode 789. 逃脱阻碍者(曼哈顿距离)

1. 题目 你在进行一个简化版的吃豆人游戏。 你从 (0, 0) 点开始出发&#xff0c;你的目的地是 (target[0], target[1]) 。地图上有一些阻碍者&#xff0c;第 i 个阻碍者从 (ghosts[i][0], ghosts[i][1]) 出发。 每一回合&#xff0c;你和阻碍者们可以同时向东&#xff0c;西&…

ACDSee Photo Manager 12 中文绿色版

用WinRAR解压即玩&#xff0c;无需安装。可以拷贝到USB硬盘&#xff0c;便于携带 凭借易于使用且速度极快的特点&#xff0c;ACDSee 12提供了整理相片、优化拍摄以及与亲朋好友分享往事所需的全部功能。 幻灯片浏览 支持幻灯片浏览图片&#xff0c;并支持背景音乐和多种多样的图…

排序算法 - 6种 - 超炫的动画演示 - Python实现

1.冒泡排序 思路&#xff1a;遍历列表&#xff0c;每一轮每次比较相邻两项&#xff0c;将无序的两项交换&#xff0c;下一轮遍历比前一轮比较次数减1。 def bubble_sort(a_list):for passnum in range(len(a_list)-1, 0, -1):for i in range(passnum):if a_list[i] > a_list…

LeetCode 565. 数组嵌套

1. 题目 索引从0开始长度为N的数组A&#xff0c;包含0到N - 1的所有整数。 找到最大的集合S并返回其大小&#xff0c;其中 S[i] {A[i], A[A[i]], A[A[A[i]]], ... }且遵守以下的规则。 假设选择索引为i的元素A[i]为S的第一个元素&#xff0c;S的下一个元素应该是A[A[i]]&…

因子分析模型 - Python 做因子分析简直比 SPSS 还简单 - ( Python、SPSS)

为什么&#xff1f; SPSS 那么简单还免费&#xff0c;为什么还要用 Python 做因子分析&#xff08;factor analysis&#xff09;呢&#xff1f;工作狗表示&#xff0c;建模的目的是要卖钱的&#xff0c;也就是要嵌入到公司开发的产品上去&#xff0c;用 Python 写因子分析&…

缺失值处理 - 拉格朗日插值法 - Python代码

目录 缺失值处理 拉格朗日差值法的理论基础 拉格朗日插值法代码实现 其他数据预处理方法 缺失值处理 处理缺失值常用的办法可分为三类&#xff1a;删除记录、数据插补、不处理。 其中常见的数据插补法有&#xff1a; 如果通过删除小部分的数据就可以达到既定的目标&#…

做po_requisitions_interface_all接口开发问题

po_requisitions_interface_all这个接口表的字段charge_account_id来源于: 1、组织参数的Material Account 2、工单类型的Outside Processing Account 转载于:https://www.cnblogs.com/songdavid/archive/2011/09/19/2181757.html