pvrect r语言 聚类_R语言常用统计方法包+机器学习包(名称、简介)

上期帮大家盘点了一下R中常用的可视化包,这期将简要盘点一下关于统计分析与机器学习的R包,并通过简要介绍包的特点来帮助读者深入理解可视化包。

本文作者为“食物链顶端”学习群中的小伙伴,感谢他们的分享。

话不多说我们一起来看看吧!

1. survival

简介:survival是目前用的最多的做生存分析的包,Surv:用于创建生存数据对象,survfit:创建KM生存曲线或是Cox调整生存曲线,survdiff:用于不同组的统计检验,coxph:构建COX回归模型,cox.zph:检验PH假设是否成立,survreg:构建参数模型,包括Km和cox分析。

缺点:图形不够美观。

2. glmnet简介:glmnet是做lasso分析的R包,包括二分类logistic回归模型,多分类logistic回归模型,Possion模型,Cox比例风险模型,svm模型,是目前用的最多的lasso分析的包,简单易用,通过选择1se lambda为最优参数,广泛应用在筛选基因的研究中。缺点:优化下速度。3. randomForests简介:randomForest 包提供了利用随机森林算法解决分类和回归问题的功能。使用起来比较简单,其中randomForest()函数用于构建随机森林模型,importance()函数用于计算模型变量的重要性,MDSplot()函数用于实现随机森林的可视化,rfImpute()函数可为存在缺失值的数据集进行插补(随机森林法),得到最优的样本拟合值,treesize()函数用于计算随机森林中每棵树的节点个数。缺点:据我所知这是用R做随机森林最常用(可能是唯一)的R包,比用python容易上手,硬要说缺点的话就是图形美观度,但可以后期AI调整。4. rms简介:全称是recession modeling strategy,包如其名,Harrell教授给我们提供了大量的好用便捷的函数进行建模及模型的评价与检验!最有名的是该包最先提供了画列线图函数,这几乎是现在模型可视化必备!缺点:有一些图形函数参数不够!5. e1071简介:e1071是用于做支持向量机分析的R包,SVM旨在多维空间中找到一个超平面(hyperplane),该平面能够将全部对象分成最优的两类,其实也可以多类,但是效果不是很好。e1071名字比较特殊简单,但是功能绝对强大,包括优化的tune.svum,包括了多种核函数,简单方便。缺点:缺乏特征选择的功能。6. 回归包 Logistic简介:当通过一系列连续型或类别型预测变来预测二值型结果变量时,Logistic回归是一个非常有用的工具。Logistic 回归是二分类任务的首选方法。它输出一个 0 到 1 之间的离散二值结果。简单来说,它的结果不是 1 就是 0。缺点:我们不能用 logistic 回归来解决非线性问题,因为它的决策面是线性的。7. caret简介:caret包全称是(Classificationand Regression Training),应用之一就是数据预处理,比如我们常用的拆分训练集和验证集。caret包应用之二:特征选择,比如我们的svm-rfe这种特征选择就是可以帮助我们在svm的基础上进行选择最重要的特征,弥补e1071包的不租,caret包还可以参与建模与参数优化和模型预测与检验,里面功能很强大。缺点:可能需要做点和内部函数相关的可视化功能。8. kmeans聚类简介:k(均值)聚类属于扁平聚类算法,即进行一层划分得到k个簇,与层次聚类算法开始不需要决定簇数不同,k均值聚类需要用户事先确定好簇个数,因为构建一颗聚类树是非常耗时的事情,所以k均值聚类算法的效率要优于层次聚类。可使用ggfortify包进行聚类结果的可视化展示。缺点:应该属于无监督学习,分组效果略差。9. nnet简介:如果你做过多分类的变量的相关模型的分析,那么你一定用过nnet包,它可以帮助你设置哑变量。另外nnet还是一个人工神经网络的算法包,该算法提供了传统的前馈反向传播神经网络算法的实现。一个nnet函数就可以实现神经网络的构建,整个过程会一直重复直至拟合准则值与衰减项收敛。缺点:这个函数的运行速度可能还需要进一步的优化。10. rpart简介:rpart是RecursivePartitioning and Regression Trees的简称,rpart可以用于决策树的构建,修剪,图形展示,plotcp函数可视化或者printcp函数选取合适cp值。R语言中关于决策树建模,最为常用的有两个包,一个是rpart包,另一个是party包,rpart还更友好,结果简单明了些。缺点:优化速度,然后rpart包的内置绘图功能需要更加美观。11. mlr简介:mlr包就是类似python的sklearn库。囊括盖分类、回归、生存分析、聚类等功能的可扩展机器学习工作框架。提供了一个对于160多个基础学习包的统一接口,包括了“元算法”和模型选择技术,并扩展了基本学习算法的功能,比如超参数调参、特征选择、集成结构等。同时并行化计算也是其天然支持的一项技能。虽然Caret包和CMA包融入了数据预处理和变量选择方法,但是MLR可以无缝同时用这些方法进行调节。缺点:速度提升是一个需要努力的方向,可视化也需要增加。12. gbm简介:gbm包是梯度提升回归树的实现。梯度提升回归树缩写是GBRT,全称是Gradient Boosting Regression Tree, 有时也叫做GBDT,是一个树形算法,数据无需归一化,其实用起来非常想glmet这个包,方法包括OOB,test,cv,一般选择cv就行,可以方便的选择选择最适的回归树个数。缺点:可视化功能不是很好。13. nlme简介:是R语言安装时默认的包,可以分析分层的线性混合模型和非线性模型。并且可以处理更复杂的线性和非线性模型,可以定义方差协方差结构,可以在广义线性模型中定义几种分布函数和连接函数。缺点:数据量大时速度很慢,不能处理多变量数据。14. ASReml-R简介:这个R包是一个主要用来做遗传分析的R包,包括多年份平衡与不平衡试验数据分析,重复测量数据分析,平衡与不平衡试验设计数据分析,遗传参数评估等,替代了ASReml这个软件,这个软件本来原来也是替代SAS和SPSS的部分功能。缺点:收费。15. Mass简介:其实是为了介绍一种降维算法——LDA线性判别分析,LDA可以通过Mass包来建模。LDA和PCA都是线性降维技术,通用的LDA与PCA相似,但是除了找到使数据方差最大的成分轴外,还对最大化多个类之间距离的轴感兴趣。此外,PCA属于“无监督”算法,降维时不关注数据的分类,目标是找到代表数据集最大化方差方向的一系列特征向量,也就是主成分,但是LDA属于“有监督”聚类,不仅关注类别关系,还可以通过线性判别式定义一系列表示最大化类别之间距离的正交轴。缺点:对各组数据分布模式有着严格要求,操作比较麻烦。16. kernlab简介:这个R包是一个主要用来做SVM的R包,功能类似e1071,使用bsvm和libsvm库中的优化方法,得以实现svm算法。对于分类,有C-SVM分类算法和v-SVMz这2类分类算法,并且还包括C分类器的有界约束的版本。对于回归,提供了2种回归方法,ε-SVM、v-SVM回归算法。对于多类分类,有一对一方法和原生多类分类方法。缺点:同样可以考虑把svm的特征选择加进来。17. mboost简介:mboost包提供基于提升(boosting)的机器学习算法和模型。可以用于用于广义线性、加性和非参数模型的可扩展的boosting框架。大概是3步完成,首先是最小乘方或者回归树作为基本学习器;然后梯度下降算法(提升)用于优化通用的风险函数,最后对于潜在的高维数据拟合通用的线性、可加性和交互性模型。缺点:可视化不美观。18. xgboost简介:XGBoost 是Extreme Gradient Boosting 的缩写,在竞赛平台Kaggle很流行。xgboost包使用efficient trees作为基学习器来实现tree-based boosting。XGBoost 算法是一种现在在数据科学竞赛的获胜方案很流行的算法,一般不管怎么样,都先用这个方法来一次看看效果,一般都不错。XGBoost仅适用于数值型向量,我们可以利用热编码转换。缺点:速度不够快。19. veganvegan 包是由芬兰Oulu大学生物系Oksanen等几位数量生态学者编写的R包。Vegan包提供各种群落生态学分析工具,包括常用的PCA,DCA,RDA和CCA等方法,并且打包好了关于这些方法的计算和检验的代码,甚至还包括了大部分多元分析方法,操作简便,代码简单。缺点: 图片真的丑,速度也挺慢,可以出来结果后用ggplot2重新可视化结果。20. CatBoost简介:CatBoost全称是CategoricalBoosting,该算法类似于XGBoost,LightGBM的Gradient Boosting算法,这个算法的创新之处主要是,首先对于离散特征值的处理,采用了ordered TS(target statistic)的方法。第二是提供了两种训练模式:Ordered和Plain。里面主要包括catboost.train、catboost.predict、calc_accuracy等函数。缺点:基本上不提供可视化结果的函数。21. h2o包简介:通过连接外部服务器,支持R语言和GPU结合加速深度学习。现目前R语言应用在深度学习的相关包数量不多,h2o支持多线程分析,加快深度学习的运行速度。是人工神经网络ANN分析的利器。使用h2o.init()连接到h2o平台,然后就可以开始你的深度学习之旅了~缺点:对于卷积神经网络建模方法仍然不能很好的使用。解螺旋《生信全书》上册体系课原价299元2020立一个flag“我一定要掌握它!扫码领100元优惠,仅限15人哦!???9962386d60b462f1e385fa71ddd7ca47.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/558111.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

rap2检测哪些接口在使用_Apifox for Mac(接口调试管理工具)

Apifox 是一款用于接口文档定义、Mock 数据、接口自动化测试等等方面的工具,它的功能高效好用,接口云端同步,实时更新。成熟的团队/项目权限管理,满足各类企业的需求。有需要的朋友赶快来使用吧!Apifox 软件介绍软件开…

layui根据name获取对象_layui表格行合并;解决侧边固定栏合并

实现效果图:适配分页&#xff1b;全选&#xff1b;后台嵌套数据&#xff1a;获取数据后&#xff1b;渲染前操作&#xff1a;,done:function(res){if(res.data){for(var i 0;i<res.data.length;i){var trObj $([lay-id"table"] .layui-table-box).find([data-ind…

abap al设置单元格可编辑 oo_利用WPS做业务系统的超级编辑器

业务系统中的数据很笼统的分可以分为两大类&#xff0c;一个是结构化的&#xff0c;通常用关系型数据库来存储管理&#xff1b;一个是非结构化的&#xff0c;在这类数据中&#xff0c;可能最多、价值密度最大的就是文档。如何更便捷高效的生成或分析文档&#xff0c;就是业务系…

pyecharts怎么绘制散点图_pyecharts可视化和wx的结合

前言最近在研究 pyecharts 的用法&#xff0c;它是 python 的一个可视化工具&#xff0c;然后就想着结合微信来一起玩不多说&#xff0c;直接看效果&#xff1a;条形图.gif环境配置pip install pyechartspip install snapshot_seleniumpip install echarts-countries-pypkgpip …

jekenis父子结构项目打包_全栈之DevOps系列 - 发布 Python 项目 开源/私有 包

DevOps目前并没有权威的定义&#xff0c;普遍认为&#xff0c;DevOps 强调的是高效组织团队之间如何通过自动化的工具协作和沟通来完成软件的生命周期管理&#xff0c;从而更快、更频繁地交付更稳定的软件。作者以 dukepy 系列项目中 dkimageapp 子项目&#xff08;关于图像处理…

如何计算_振动筛处理能力如何计算呢

振动筛在生活中的应用可谓设计到方方面面&#xff0c;大到煤炭开采筛分。小到果汁饮料&#xff0c;这些都离不开振动筛或者震动筛的身影。下面和道联合机械讲解一下如何计算振动筛的处理量&#xff0c;从而选购好的振动筛。振动筛的处理能力计算公式主要如下&#xff1a;1、处理…

springsession分布式登录被覆盖_拉勾 分布式 学习小结

分布式和集群分布式一定是集群&#xff0c;但是集群不一定是分布式&#xff08;可能是复制的&#xff09;集群是多个实例一起工作&#xff0c;分布式将一个系统拆分之后那就是多个实例分布式应用结构&#xff1a;Hash算法适用于在加密&#xff0c;数据存储和查找方面有hash表&a…

c++ 舞伴配对问题_R绘图:配对样本差异表达作图ggpubr

R绘图往期回顾&#xff1a;R绘图&#xff1a;唱一半的歌&#xff0c;画一半的图 gghalvesR绘图&#xff1a;gggibbous&#xff0c;基于ggplot2的Moon chartsR绘图&#xff1a;ggeconodist&#xff0c;基于ggplot2的另类箱图R语言学习系列之“多变的热图”蚂蚁金服在线可视化引擎…

输入引脚时钟约束_最强干货分享 | 时钟树例外(exclude pin、stop pin、non_stop pin、float pin)...

《最强干货分享时钟树例外(exclude pin、stop pin、non_stop pin、float pin)》研究生毕业之前曾发过这篇推文&#xff0c;现在在原来的基础上进行了修正&#xff0c;又添加了一些内容&#xff0c;几乎是压箱底的&#xff0c;现在拿出来分享一下&#xff0c;如果觉得好的话麻烦…

mac mysql not found_mac下mysql提示command not found解决

原标题&#xff1a;mac下mysql提示command not found解决问题描述输入mysql -u root -p会出现&#xff1a;zsh: command not found: mysql的提示&#xff0c;此时需要配置环境变量。解决方法一1 .打开终端,输入&#xff1a; cd ~2.输入&#xff1a;sudo vim .bash_profile回车执…

mysql数据库删除列数据_MySQL数据库-数据表、以及列的增删改查

1、创建一个表CREATE(创建)TABLE(表)ENGINE(引擎)ENGINEINNODB(引擎)还有很多类引擎&#xff0c;这里只是简单的提一下INNODB引擎&#xff0c;INNODB引擎支持事务(回滚)&#xff0c;也就是一个事务执行时如果没有完成数据可以回滚CHARSET(字符编码)CREATE TABLE(创建表)--创建表…

mysql 分区 性能更差_用案例分析MySQL 5.7分区表性能下降的根本原因

前言&#xff1a;希望通过本文&#xff0c;使MySQL5.7.18的使用者知晓分区表使用中存在的陷阱&#xff0c;避免在该版本上继续踩坑。同时通过对源码的分享&#xff0c;升级MySQL5.7.18时分区表性能下降的根本原因&#xff0c;向MySQL源码爱好者展示分区表实现中锁的运用。问题描…

java 数组 截取_Java成长孵化园---认识java(day09)

1、APIApplication Programming Interface应用编程接口一切可以调用的东西&#xff0c;都是API2、基础APIObject、String、StringBuilder/StringBuffer、正则表达式、基本类型的包装类、BigDecimal/BigInteger、Date、SimpleDateFormat3、java.lang.Objectlang包&#xff1a;la…

mysql id还原_一次线上DB问题排查(MySQL、事务、MVCC)

背景在司机数据库中&#xff0c;有一张用于存储司机车型的表&#xff0c;暂且称之为表t。该表结构如下所示&#xff1a;MySQL [comp_epower]> show create table t \G; *************************** 1. row *************************** Table: Create Table: CREATE TABLE …

mysql 可以用多个索引_mysql索引合并:一条sql可以使用多个索引

前言mysql的索引合并并不是什么新特性。早在mysql5.0版本就已经实现。之所以还写这篇博文&#xff0c;是因为好多人还一直保留着一条sql语句只能使用一个索引的错误观念。本文会通过一些示例来说明如何使用索引合并。什么是索引合并下面我们看下mysql文档中对索引合并的说明&am…

mysql三种引擎_MySQL常见的三种存储引擎

原文连接&#xff1a;https://www.cnblogs.com/yuxiuyan/p/6511837.htmlhtml简单来讲&#xff0c;存储引擎就是指表的类型以及表在计算机上的存储方式。数据库存储引擎的概念是MySQL的特色&#xff0c;Oracle中没有专门的存储引擎的概念&#xff0c;Oracle有OLTP和OLAP模式的区…

django win下安装mysql_python测试开发django-8.windows系统安装mysql8教程

前言MySQL 是最流行的关系型数据库管理系统&#xff0c;可以在本地搭建一个mysql的环境&#xff0c;便于学习。windows7/windows10mysql-8.0.11-winx64下载安装包也可以在此页面【https://dev.mysql.com/downloads/file/?id476233】&#xff0c;进入页面后可以不登录。后点击底…

php mysql ajax 注册验证 实例_Ajax小实例   用户注册异步验证

简介51cto的程序员应该都有sina微博吧&#xff01;你会发现当你更改新浪会员名称&#xff0c;输入用户名Tab后&#xff0c;光标焦点移动到密码输出框时&#xff0c;用户名输出框的后面&#xff0c;就已经显示出了验证。验证信息是&#xff1a;你的用户名是否唯一&#xff0c;因…

同一事务中未提交的写能读到吗_03、MySQL事务的隔离性分析

事务可以用来保证数据库的完整性&#xff1a;要么都做&#xff0c;要么不做。在 MySQL 中&#xff0c;事务支持是在引擎层实现的。你现在知道&#xff0c;MySQL 是一个支持多引擎的系统&#xff0c;但并不是所有的引擎都支持事务。比如 MySQL 原生的 MyISAM 引擎就不支持事务&a…

python软件管理系统_conda:基于python的软件管理系统

python语言在发展的过程中&#xff0c;经历了python2到python3的迁移&#xff0c;对应的包也出现了多个版本。如何在一台服务器上同时安装不同版本的python,不同版本的package, 而且不互相干扰&#xff0c;是一个令人头痛的问题。为了解决这个问题&#xff0c;首先是virtualenv…