1、主成分分析和聚类分析简介
主成分分析(Principal Component Analysis, PCA)和聚类分析(Cluster Analysis)是两种常用的数据分析方法,用于降维和数据分类。
1)主成分分析(PCA)
主成分分析是一种常用的多元统计数据分析方法,旨在通过找到数据中最重要的变量(主成分),将数据从高维空间降维到低维空间,同时保留尽可能多的信息。其基本原理如下:
- 首先,通过协方差矩阵或相关系数矩阵计算数据间的相关性;
- 然后,通过特征值分解或奇异值分解等方法,找到数据中最重要的主成分;
- 最后,使用主成分来表示原始数据,实现降维。
PCA常用于特征提取、数据可视化和降维处理,帮助揭示数据中的模式和结构,发现数据之间的关系。
2)聚类分析(Cluster Analysis)
聚类分析是一种无监督学习技术,旨在将数据对象组织成类或簇,使得同一簇内的数据对象相互之间相似,而不同簇之间的数据对象差异较大。其基本原理如下:
- 首先,通过定义一个相似性度量标准(如欧氏距离、余弦相似度等),计算数据对象之间的相似性;
- 然后,将数据对象划分为若干个簇,使得同一簇内的数据对象之间相似度高,不同簇之间相似度低;
- 最后,评估聚类结果的质量和有效性,调整聚类算法的参数来优化聚类效果。
聚类分析常用于数据分类、模式识别和群体分析等领域,帮助发现数据对象之间的隐藏结构和规律。
3)总结
主成分分析主要用于降维和特征提取,聚类分析用于数据分类和群体分析。这两种方法在数据分析、机器学习和模式识别等领域具有广泛的应用,有助于理解和挖掘数据背后的规律和关联。
2、基于主成分分析和聚类分析的基因表达分析说明
解决问题
使用神经网络寻找面包酵母的基因表达谱模式
3、实验数据
数据来源
来源基因表达综合网站 https://www.yeastgenome.org
加载数据
代码
load yeastdata.mat
4、使用 numel(genes) 显示数据集中有的基因
1)说明
基因表达水平在双峰转换期间的七个时间点测量而得的。变量 times 包含在试验中测量表达水平的时间。变量 genes 包含测量其表达水平的基因的名称。变量 yeastvalues 包含试验中七个时间步的 "VALUE" 数据或 LOG_RAT2N_MEAN,即 CH2DN_MEAN 与 CH1DN_MEAN 之比的 log2。
代码
numel(genes)ans =6400
2)genes 是一个由基因名称组成的元胞数组。
说明
变量 yeastvalues 的第 15 行包含 ORF YAL054C 的表达水平
代码
genes{15}ans ='YAL054C'
5、过滤基因
1)删除'EMPTY'点
说明: