《属性数据分析引论》 部分课后习题R语言实践(第三章、第四章)

目录

前言

第三章  广义线性模型

习题3.18

a小题

 b小题

 c小题

d小题

习题3.19

a小题

b小题

c小题

第四章  Logistic回归

习题4.1

a小题

b小题

c小题

d小题

e小题

习题4.2

a小题

b小题

c小题

 d小题

 小结


前言

        习题选自高等教育出版社译制,Alan Agresti著的《属性数据分析引论(第二版)》中,第三章广义线性模型、第四章Logistic回归中的课后习题。具体题目在文中给出。

        本人目前是一位在读的应用统计学专业本科生,这些题目是在课前进行的练习,所给出的思路和答案可能有所错误,欢迎大家批评指正。

第三章  广义线性模型

习题3.18

        表3.8列出了英乙联赛一个赛季每支球队观赛总人数(千人)和被捕总人数.

表3.8 习题3.18关于足球队逮捕人数数据
球队观众数逮捕数球队观众数逮捕数
阿斯顿维拉404308什鲁斯伯里10868
布拉德福城286197史云顿21067
利兹联443184谢菲尔德联22460
伯恩茅斯169149斯托克城21157
西布朗维奇222132巴恩斯利16855
汉德斯菲德150126米尔沃尔18544
米德尔斯堡321110侯城15838
伯明翰189101曼彻斯特城42935
伊普斯维奇25899普利茅斯22629
莱切斯特城22381雷丁15020
布莱克本21179奥威14819
水晶宫21578

a小题

令Y表示观赛总人数为t的球队被捕球迷人数。说明为什么模型E(Y)=μt是可行的。它有等价形式log[E(Y)/t]=α,其中α=log(μ),给出带位移项的模型表达式。

        题解:(本题的解释我并不确定正确)

        题目指出了计数响应Y(被捕球迷数)有指标t(总观众数),那么我们关心的是样本的比率Y/t

        若设样本比率的期望值为μ,即 ,那么两边同乘t便有模型

        样本比率的对数模型应为 ,x是效应因子,在本题中将每个球队的数据视作一次观测,并无效应因子,于是模型表示为,与比较就可得出样本比率的期望值为常数的结论

        可以给出带位移的模型表达式为:

 b小题

假设样本为泊松样本,拟合模型。给出并解释。

         题解:

        本题用R进行模型拟合,先将表3.8的数据输入进Excel保存为csv文件,以下是实现的代码

> data3.8=read.csv('table3.8.csv')    #读取数据,并对数据框进行一些处理
> rownames(data3.8)=data3.8[,1]
> data3.8=data3.8[,-1]
> colnames(data3.8)=c('t','Y')
> head(data3.8)                        #展示数据框前6行
###t   Y
阿斯顿维拉 404 308
布拉德福城 286 197
利兹联     443 184
伯恩茅斯   169 149
西布朗维奇 222 132
汉德斯菲德 150 126
###
#接着用glm()函数进行拟合,offset表示位移项
> model3.8=glm(Y~NULL,data=data3.8,family=poisson(link='log'),offset=log(t))
> summary(model3.8)
###
Call:
glm(formula = Y ~ NULL, family = poisson(link = "log"), data = data3.8, offset = log(t))Deviance Residuals: Min       1Q   Median       3Q      Max  
-12.789   -3.426   -0.938    3.079   10.137  Coefficients:Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.91028    0.02164  -42.07   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for poisson family taken to be 1)Null deviance: 669.45  on 22  degrees of freedom
Residual deviance: 669.45  on 22  degrees of freedom
AIC: 812.62Number of Fisher Scoring iterations: 5
###

        从summary(model3.8)返回的模型摘要中可以获得,根据计算得到

         这表明被捕球迷数与总观众数的比率期望在0.4左右,即被捕球迷数预计为总观众数的40%

 c小题

画出被捕人数与观众人数的散点图以及预测方程。利用残差区分比期望被捕人数更大和更小的球队。

        题解:

        预测方程即为,模型图像为直线,R中可以通过abline()添加直线

> attach(data3.8)
> mu=exp(model3.8$coe)
> plot(Y~t)
> abline(0,mu)

 

 

        在直线之上的是被捕人数大于期望值的球队,在直线之下的是被捕人数小于期望值的球队,可以通过残差的正负来判断,也可以用以下命令可以返回被捕人数大于期望值和小于期望值的球队的队名,这种方式和利用残差正负进行判断的方式是等价的

> rownames(data3.8)[Y<mu*t]    #比期望值小,在直线之下,残差小于0的球队
###[1] "米德尔斯堡" "伊普斯维奇" "莱切斯特城" "布莱克本"   "水晶宫"     "史云顿"    [7] "谢菲尔德联" "斯托克城"   "巴恩斯利"   "米尔沃尔"   "侯城"       "曼彻斯特城"
[13] "普利茅斯"   "雷丁"       "奥威"  
###
> rownames(data3.8)[Y>=mu*t]    #比期望值大,在直线之上,残差大于0的球队
###
[1] "阿斯顿维拉" "布拉德福城" "利兹联"     "伯恩茅斯"   "西布朗维奇" "汉德斯菲德"
[7] "伯明翰"     "什鲁斯伯里"
###

d小题

用负二项分布拟合模型log[E(Y)/t]=\alpha. 将\hat{\alpha }及其SE与(b)中结果比较。基于这个信息和散布参数及其SE的估计值,泊松假设合适吗?

        题解:

        负二项对数模型用MASS包内的glm.nb()函数,不采用glm()进行负二项对数拟合的原因是我们暂不知晓样本的散布参数,虽然可以用logtrans()函数确定散布参数倒数θ的取值,但是用glm.nb()可以一步到位,比较方便。不过glm.nb()没有offset参数(位移),但是我们可以调整formula参数的表达进行带位移项的拟合,这个调整也适用于glm()函数

        

> library(MASS)
> model3.8_nb=glm.nb(Y~offset(log(t)),data=data3.8,init.theta=1,link='log')
> summary(model3.8_nb)
###
Call:
glm.nb(formula = Y ~ offset(log(t)), data = data3.8, init.theta = 3.135631071, link = "log")Deviance Residuals: Min       1Q   Median       3Q      Max  
-2.2049  -0.7464  -0.1857   0.6129   1.5568  Coefficients:Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.9052     0.1200  -7.546 4.49e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for Negative Binomial(3.1356) family taken to be 1)Null deviance: 24.15  on 22  degrees of freedom
Residual deviance: 24.15  on 22  degrees of freedom
AIC: 244.24Number of Fisher Scoring iterations: 1Theta:  3.136 Std. Err.:  0.920 2 x log-likelihood:  -240.236
###
#比较两个模型截距的估计值和标准误
> summary(model3.8)$coe
###Estimate Std. Error   z value Pr(>|z|)
(Intercept) -0.9102802 0.02163712 -42.07031        0
###
> summary(model3.8_nb)$coe
###Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -0.9051888  0.1199579 -7.545888 4.492147e-14
###

 

        从模型摘要可见负二项对数模型的θ的估计值为3.136,标准误为0.920,则散布参数的估计值为,说明样本具有一定的超散布性

        两个模型对α的估计值相似,但是负二项对数模型的α的标准误相对较高,用模型的偏差进行比较,也可以得出负二项对数模型的拟合效果更好。综上,泊松假设并不适合。

习题3.19

        表3.4给出了火车事故数据

 

表3.4 英国涉及火车的碰撞事故
年份火车里程火车碰撞火车-道路碰撞年份火车里程火车碰撞火车-道路碰撞
200351803198844324
200251613198739716
2001508041986414213
200050313198541805
199950512198438953
199848704198340127
199746311198237223
199643722198141722
199542312198043022
199441524197942633
199342504197843024
199243014197742518
1991439261976426212
199043112197543652
198943644

a小题

比较只有截距项的撞车比率的泊松GLM和具有时间趋势项的GLM,这两个模型的偏差分别是35.1和23.5。通过上述结果,能将这29年里每年的撞车事件数看作具有相同参数的独立泊松变量吗?

        题解:

        不带时间效应的模型偏差为35.1,加入时间效应的模型偏差为23.5,这其实已经说明带时间效应的模型拟合效果更好

        另外我们可以通过对两个模型的偏差做差,得到的值近似服从卡方分布,自由度是两个模型的参数数量差,对该题来说,这正是β=0的似然比检验,自由度df=1

        用R辅助计算P值

> Dev1=35.1;Dev2=23.5
> p.value=1-pchisq(Dev1-Dev2,df=1);p.value 
###
[1] 0.0006595182
###

        β显著性的似然比检验P值很小,说明时间对撞击次数的影响还是存在的,即使模型的偏差并没有减少很多。这样来看这29年的撞车事件数并不能看作具有相同参数的独立泊松变量。

b小题

3.3.6节拟合了负二项模型。1975年之后第x年撞车比率的估计值为e^{-4.20}\cdot (e^{-0.0337})^{x}=(0.015)(0.967)^{x}. ML估计\hat{\beta }=-0.0337的SE=0.0130。建立H_{0}:\beta =0H_{a}:\beta \neq 0的Wald检验.

        题解:

        题目要求的检验便是参数β的显著性Wald检验

        β的估计值除以其标准误便是显著性检验的Wald统计量,其近似服从标准正态分布

        我们可以在R中进行相同的拟合,3.3.6节中给出散布参数D=0.099

> data3.19=read.csv('table3.4.csv')    #数据只取了年份、火车里程、火车-道路碰撞次数
> data3.19[,1]=data3.19[,1]-1975
> head(data3.19)
###年份 里程 碰撞
1   28  518    3
2   27  516    3
3   26  508    4
4   25  503    3
5   24  505    2
6   23  487    4
###
> model3.19_3=glm(碰撞~年份+offset(log(里程)),data=data3.19,family=negative.binomial(theta=1/0.099,link='log'))
> summary(model3.19_3)$coe        #获取模型的参数估计和检验
###Estimate Std. Error    t value     Pr(>|t|)
(Intercept) -4.19997478 0.20170528 -20.822334 3.658918e-18
年份        -0.03366993 0.01326265  -2.538703 1.720186e-02
###

        R中得到的参数估计和标准误SE与书中一致,这里进行的显著性检验就是Wald检验,可见P值约为0.0172,并没有比0.05小很多,但是依然能够作为拒绝原假设的依据。

c小题

β的似然比95%置信区间为(-0.060,-0.008).求出事故率的年乘积效应的区间,解释结果。

        题解:

        变换模型的表达形式,有

        于是事故率的年乘积效应就是,β的似然比95%置信区间题目给出为(-0.060,-0.008),通过指数变换可以得到的95%置信区间

        用R辅助计算

> c(exp(-0.06),exp(-0.008))
###
[1] 0.9417645 0.9920319
###

        计算出的95%置信区间约为(0.942,0.992),说明每到下一年,有95%的把握估计该年的事故率相比上一年事故率减少0.8%至5.8%

第四章  Logistic回归

习题4.1

        一项研究利用logistic回归确定与Y=癌症是否缓解(1=是)相关联的特征量。最重要的解释变量是通过对病人注射氚,标记胸苷后,测量细胞繁殖的标记指数(LI)。该研究给出被“标记”细胞的百分比。表4.8给出了分组数据,表4.9是以LI 预测\pi =P(Y=1)的logistic回归模型的结果。

表4.8 习题4.1关于癌症缓解的数据
LI案例数缓解数LI案例数缓解数
8202221
10202410
12302611
14302811
16303210
18113411
20323832

 表4.9  习题4.1的电脑输出结果


                                                Standard                Likelihood Ratio 95%                        Chi-

Parameter         Estimate               Error                    Confidence Limits                     Square

Intercept             -3.7771             1.3786                -6.9946        -1.4097                          7.51

li                           0.1449             0.0593                0.0425          0.2846                          5.96

Scale                   1.0000              0.0000                1.0000          1.0000 

LR Statistics For Type 3 Analysis

                                                                             Chi-

                Source                        DF                Square                Pr  >  Chisq

                li                                     1                    8.30                        0.0040

Obs        li        nc        nr                pi_hat                lower                upper

1            8          2         0             0.06797            0.01121            0.31925

2          10          2         0             0.08879            0.01809            0.34010

...


a小题

说明当LI=8时,软件如何得到\hat{\pi }=0.068.

        题解:

        由于表4.9已经给出了模型的拟合结果,接下来R只用于辅助计算,不再次拟合模型。

        根据表4.9得到的结果,模型可表示为

        将LI=8代入模型,可以得出的logit值,通过反解公式

       就可以得到当LI=8时的值,在R中可以进行如下计算得到

> T.logit=function(x){exp(x)/(1+exp(x))}
> T.logit(-3.7771+0.1449*8)
###
[1] 0.06799525
###

        于是得到

b小题

证明当LI=26.0时,\hat{\pi}=0.50.

        题解:

        当时,logit值为0

        令模型的线性部分为0,反解出LI的值即可

        即解方程

         解得

c小题

证明当LI=8时\hat{\pi}的变化率为0.009,当LI=26时为0.036

        题解:

        将模型表示为LI的函数,有

        求LI在各个取值时的变化率,可以对上式求导,有

        将LI=8和LI=26分别代入上式便可得到变化率,在R中可以进行如下计算得到

> g=expression(exp(-3.7771+0.1449*x)/(1+exp(-3.7771+0.1449*x)))
> D(g,'x')
###
exp(-3.7771 + 0.1449 * x) * 0.1449/(1 + exp(-3.7771 + 0.1449 * x)) - exp(-3.7771 + 0.1449 * x) * (exp(-3.7771 + 0.1449 * x) * 0.1449)/(1 + exp(-3.7771 + 0.1449 * x))^2
###
> x=8
> eval(D(g,'x'))
###
[1] 0.009182588
###
> x=26
> eval(D(g,'x'))
###
[1] 0.03622415
###

 计算得到LI=8时的变化率约为0.009;LI=26时的变化率约为0.036

d小题

LI的下四分位数和上四分位数分别为14和28。证明\pi在这两个值之间从0.15增加到0.57,增幅为0.42

        题解:

        依然通过将LI的取值代入模型函数 来计算

        在R中可以进行如下运算

> g=expression(exp(-3.7771+0.1449*x)/(1+exp(-3.7771+0.1449*x)))
> x=14;a=eval(g);a        #LI=14时的预测概率
###
[1] 0.1482365
###
> x=28;b=eval(g);b        #LI=28时的预测概率
###
[1] 0.5695707
###
> b-a                     #增幅
###
[1] 0.4213342
###

         可得到当LI=14时;当LI=28时,增幅为0.42

e小题

证明当LI增加1,缓解的优势的估计值扩大1.16倍

        题解:

        在logistic模型中,优势可以表示为

        x每增加1,优势便扩大e^{\beta}倍,于是该题我们要求的便是

        根据表4.9可知,则的计算为

> exp(0.1449)
###
[1] 1.155924
###

        得到当LI增加1,缓解的优势的估计值扩大约1.16倍

习题4.2

        续上题。利用表4.9的信息:

a小题

建立LI效应的Wald检验,并解释结果

        题解:

        根据表4.9中的信息,LI的效应估计值,标准误

        Wald统计量为 ,表4.9中已经给出了z^{2}的值为5.96

        在大样本下z近似服从标准正态分布,则z^{2}近似服从自由度df=1的卡方分布

        LI效应的Wald检验P值计算

> 1-pchisq(5.96,df=1)
###
[1] 0.01463404
###

        P值约等于0.015,小于0.05,可以认为LI的效应是有显著性意义的

b小题

建立相应于LI增加1个单位优势比的Wald置信区间,并解释结果

        题解:

        由上文可知,缓解的优势可以表示为

        那么LI增加1个单位的优势比就是

 

        求的95%Wald置信区间可以从求β的95%Wald置信区间开始,再通过指数变换得到

> beta=0.1449
> SE=0.0593
> a=c(beta-qnorm(1-0.05/2)*SE,beta+qnorm(1-0.05/2)*SE);a    #β的置信区间
###
[1] 0.02867414 0.26112586
###
> exp(a)        #exp(β)的置信区间
###
[1] 1.029089 1.298391
###

        得到LI增加1个单位的优势比即的95%Wald置信区间约为(1.029,1.299)

        这说明LI每增加1个单位,我们有95%的把握认为优势会变为原来的1.029到1.299倍,总的来说优势是随着LI上升的

c小题

建立LI效应的似然比检验,并解释结果

        题解:

        本题所给出的样本量并不大,Wald检验的功效和可信度不如似然比检验,表4.9已经给出了似然比检验的结果

                                                                             Chi-

                Source                        DF                Square                Pr  >  Chisq

                li                                     1                    8.30                        0.0040

        似然比统计量值为8.30,自由度为1,P值为0.004

        检验结果与Wald检验相同,可以认为LI的效应是有显著性意义的,不过似然比检验的结果给出了比Wald检验更强烈的证据(似然比检验的P值更小)

 d小题

建立优势比的似然比置信区间,并解释结果

        题解:

        本题依然是求的置信区间,依然是从β的置信区间入手,不过本次是用β的似然比置信区间

        表4.9已经给出了β的95%似然比置信区间为(0.0425,0.2846),对其进行指数变换即可得出的95%似然比置信区间

> exp(c(0.0425,0.2846))
###
[1] 1.043416 1.329230
###

        得的95%似然比置信区间约为(1.0434,1.3292),与Wald置信区间的结论相似,LI每增加1个单位,我们有95%的把握认为优势会变为原来的1.0434到1.3292倍

 小结

        以上是从广义线性模型和Logistic回归两章选的习题的练习结果。Logistic回归模型也算是广义线性模型中的一种,其应用比较广泛,所以书上总共用了两个章节讲解Logistic回归模型。本次关于Logistic回归模型的习题还是刚上手的,具体的知识还没仔细思考过,用的还都是在第三章广义线性模型中所了解的知识。

        再次声明本人只是一名小小的本科生,题目可能做错,欢迎批评指正和交流。希望能帮到大家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux下SVN搭建

在Linux系统中搭建svn服务所需要用到的软件叫做subversion&#xff0c;可以通过yum来进行安装&#xff0c;如图 安装好软件后第一件事就是创建一个仓库目录 [rootserver1 ~]# mkdir /svn 使用svn自带命令建立仓库 [rootserver1 ~]# svnadmin create /svn 进入该仓库&#xff0c…

可用于 线性判别、聚类分析 的R语言函数总结

一、判别分析 判别分析是一种分类技术&#xff0c;其通过一个已知类别的“训练样本”来建立判别准则&#xff0c;并通过预测变量来为未知类别的数据进行分类。根据判别的模型分为线性判别和非线性判别&#xff0c;线性判别中根据判别准则又分为Fisher判别&#xff0c;Bayes判别…

Android APK 打包过程 MD

Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱MyAndroidBlogsbaiqiantaobaiqiantaobqt20094baiqiantaosina.comAndroid APK 打包流程 MD 目录 目录APK 的打包流程整体流程资源的编译和打包资源ID资源索引概况具体打包过程aapt阶段aidl阶段Java Compiler阶段dex阶段a…

可用于 主成分分析、R型因子分析、简单相应分析 的R语言函数总结

一、主成分分析 主成分分析是多元统计分析的一种常用的降维方法&#xff0c;它以尽量少的信息损失&#xff0c;最大程度将变量个数减少&#xff0c;且彼此间互不相关。提取出来的新变量成为主成分&#xff0c;主成分是原始变量的线性组合。 1.1 KMO检验和Bartlett球形检验 在…

持续集成之Jenkins安装部署

安装JDKJenkins是Java编写的&#xff0c;所以需要先安装JDK&#xff0c;这里采用yum安装&#xff0c;如果对版本有需求&#xff0c;可以直接在Oracle官网下载JDK。 [rootlinux-node1 ~]# yum install -y java-1.8.0 安装Jekins [rootlinux-node1 ~]# cd /etc/yum.repos.d/ […

jenkins svn tomcat ant自动部署

Jenkins Jenkins是基于Java开发的一种持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;功能包括&#xff1a; 1、持续的软件版本发布/测试项目。 2、监控外部调用执行的工作。 跟其他持续集成相比&#xff0c;它的主要优点有&#xff1a; 开源&#xff0c;即免…

553 mail from must equal authorized user解决方法

在配置发送邮件通知&#xff0c;验证其正确性时&#xff0c;出现"553 mail from must equal authorized user"提示的错误&#xff1b; 原因在于没有在"系统管理&#xff08;Manage Jenkins&#xff09;"的"系统设置&#xff08;Configure system&…

[Apple开发者帐户帮助]八、管理档案(2)创建临时配置文件(iOS,tvOS,watchOS)...

创建临时配置文件以在设备上运行您的应用程序而无需Xcode。在开始之前&#xff0c;您需要一个App ID&#xff0c;一个分发证书和多个注册设备。 有关完整的临时配置文件工作流程&#xff0c;请转到Xcode帮助中的分发到已注册设备&#xff08;iOS&#xff0c;tvOS&#xff0c;wa…

解决做好一个机器学习项目的3个问题

机器学习是目前人工智能最令人激动的研究方向之一。我们可能更关注机器学习算法的实现细节&#xff0c;沉浸于机器学习所需要的数学功底&#xff0c;但对于机器学习从业者来说&#xff0c;如何更好更快速的实现一个机器学习项目更值得关注。 正如吴恩达在《机器学习》这门课中所…

[币严区块链]以太坊(ETH)Dapp开发入门教程之宠物商店领养游戏

阅读本文前&#xff0c;你应该对以太坊、智能合约有所了解&#xff0c;如果你还不了解&#xff0c;建议你先看以太坊是什么 除此之外&#xff0c;你最好还了解一些HTML及JavaScript知识。 本文通过实例教大家来开发去中心化应用&#xff0c;应用效果如图: 项目背景 Pete有一个…

怎么通俗易懂地解释贝叶斯网络和它的应用?

作者&#xff1a;小杰链接&#xff1a;https://www.zhihu.com/question/28006799/answer/38996563来源&#xff1a;知乎著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。英语原文&#xff1a;http://www.norsys.com/tutorials/netica/secA/tut…

SVM分类算法的基本理论问题

1.引言   随着网络技术的飞速发展和普及&#xff0c;进入了信息大爆炸的时代。信息无处不在&#xff0c;给我们的学习生活带来了诸多便捷&#xff0c;由于堪称海量的信息量&#xff0c;我们从中获取有用的信息变得困难&#xff0c;解决这一难题就是要对这些大量的信息进行分…

决策树案例理解

小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都來玩高尔夫&#xff0c;以至于所有员工都忙的团团转还是应付不过来&#xff0c;而有些天不知道什么原因却一个人也不来&#xff0c;俱乐部为雇员数量浪费了不少资金。 小王的目的是…

剑指offer-反转链表

反转链表 一、题目描述 输入一个链表&#xff0c;反转链表后&#xff0c;输出新链表的表头。 &#xff08;看过答案和测试之后&#xff0c;题目隐藏条件是要求链表是不带头结点的&#xff09; 二、题目思路 就是用三个指针&#xff0c;head、pre、next&#xff0c;head之前都是…

从决策树学习谈到贝叶斯分类算法、EM、HMM

引言 最近在面试中(点击查看&#xff1a;我的个人简历&#xff0c;求职意向&#xff0c;择司标准)&#xff0c;除了基础 & 算法 & 项目之外&#xff0c;经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然&#xff0c;这完全不代表你将来的面试中会遇…

计算机网络与协议

计算机网络&#xff1a; TCP/IP中只要是能够设定IP地址的计算机就成为主机 网络按其规模可分为&#xff1a; WAN&#xff08;广域网&#xff09;&#xff1a;覆盖多个远距离区域的远程网络 MAN&#xff08;城域网&#xff09;&#xff1a;比广域网小一级&#xff0c;连接整个城…

对线性回归、逻辑回归、各种回归的概念学习

回归问题的条件/前提&#xff1a; 1&#xff09; 收集的数据 2&#xff09; 假设的模型&#xff0c;即一个函数&#xff0c;这个函数里含有未知的参数&#xff0c;通过学习&#xff0c;可以估计出参数。然后利用这个模型去预测/分类新的数据。 1. 线性回归 假设 特征 和 结果 都…

XGBoost入门及实战

kaggle比赛必备算法XGBoost入门及实战 xgboost一直在kaggle竞赛江湖里被传为神器&#xff0c;它在对结构化数据的应用占据主导地位&#xff0c;是目前开源的最快最好的工具包&#xff0c;与常见的工具包算法相比速度提高了10倍以上&#xff01; XGBoost is an implementation o…

几个常用算法的适应场景及其优缺点

机器学习算法太多了&#xff0c;分类、回归、聚类、推荐、图像识别领域等等&#xff0c;要想找到一个合适算法真的不容易&#xff0c;所以在实际应用中&#xff0c;我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法&#xff0c;诸如SVM&#x…

EM算法 案例量则

例子一&#xff1a;理论&#xff1a; 简版&#xff1a;猜&#xff08;E-step&#xff09;,反思&#xff08;M-step&#xff09;,重复&#xff1b; 啰嗦版&#xff1a; 你知道一些东西&#xff08;观察的到的数据&#xff09;&#xff0c; 你不知道一些东西&#xff08;观察不到…