高级统计方法 第2次作业

概念

1.

(a)

光滑度高的好,样本足够多光滑度越高就越能表征真实情况,也能对预测变量更好的预测。

(b)

光滑度低的好,因为可能“过拟合”,一些误差大的数可能会较大的影响到预测变量数。

(c)

光滑度高的好,高光滑度使得拟合非线性关系更切合。

(d)

光滑度低的好,方差太大时使用光滑度高的进行拟合可能会导致“过拟合”。

2.问题(略)

(a)问题(略)

回归模型,推断。

美国500强公司的排名和利润、员工人数、产业类型和CEO的工资关系。

(b)问题(略)

分类,预测。

预测新产品会成功还是会失败。根据先前研发的20个产品的价格成本、市场预算、竞争价格和其它10个变量进行分类预测。

(c)问题(略)

回归模型,预测。

通过2012年每周美元的百分比变化、美国市场百分比变阿虎、英国市场百分比变化、德国市场百分比变化预测未来美元百分比随全球股市的变化规律。

3.问题(略)

(a)问题(略)

(b)问题(略)

  1. (平方)偏差-单调减少,因为增加了光滑度产生更接近的拟合。
  2. 方差-单调增加,因为增加光滑度增加过度,过拟合。
  3. 训练误差-单调减少,因为增加光滑度产生更接近样本的匹配。
  4. 测试误差-U形曲线,因为增加光滑度会使拟合从恰当到过头。
  5. 贝叶斯(不可约)误差,指在现有特征集上,任意可以基于特征输入进行随机输出的分类器所能达到的最小误差。贝叶斯误差又可以叫做最小误差。它是在训练集无限大且已经按真实分布穷举了所有可能的特征组合后,任何分类器所能达到的误差下限。产生贝叶斯误差的本质原因是特征集不足以推理出准确预测值,否则贝叶斯误差为0。

4.问题(略)

(a)问题(略)

预测新产品是成功还是失败。

响应变量:过去类似产品数据;预测变量:成功或失败。

推断来看病的人是否健康。

响应变量:心率,化验结果,身高体重等;预测变量:健康/疾病。

预测软件学院2024级新生男生是否比女生多。

响应变量:过去几年新生男女比例;预测变量:男生多/少。

(b)问题(略)

推理世界500强公司的排名和利润,员工人数,产业类型和CEO工资关系。

响应变量:利润,员工人数,产业类型和CEO工资;预测变量:世界500强公司的排名。

预测未来大连天气变化。

响应变量:过去几年天气;预测变量:未来天气变化。

预测美元百分比变化率和全球股市周变动的变化规律。

响应变量:美元百分比变化,美国市场百分比变化,英国市场百分比变化,德国市场百分比变化;预测变量:美元百分比变化和全球股市的变化规律。

(c)问题(略)

癌症类型聚类。更准确地诊断癌症类型。

电影推荐。推荐电影的用户谁有观看和评价类似的电影。

市场调查。产品的人口统计数据的聚类,成群的消费者购买哪些产品。

5.问题(略)

(a)问题(略)

优点:更好的拟合非线性模型,减少偏差。

缺点:需要大量的样本,并且可能产生“过拟合”。

(b)问题(略)

需要更好的准确度,光滑度高通常意味着更好的拟合数据,预测的准确性和可信度更好。

(c)问题(略)

数据有很多噪声和异常值,光滑度低一些会好。

6.问题(略)

(a)问题(略)

参数方法将问题简化,它假定函数的形式。

而非参数方法不假定形式,采用大量的观测数据来估计函数。

参数回归或者分类模型的优点是将模型简化,不需要太多的观测数据,但是如果假设出错会使模型的效果下降,也有“过拟合”的风险。

7.问题(略)

(a)问题(略)

从1到6的距离分别是:3,2,sqrt(10),sqrt(5),sqrt(2),sqrt(3)

(b)问题(略)

Green,观测值5是 K = 1的最近邻。

(c)问题(略)

Red,观测值2,5,6是K=3的近邻。

(d)

小k。小k对于非线性边界更灵活,而大K可能会更偏向于线性的边界。

、、、、、、

应用

在如下网址下载所需的College.csv文件

Resources - ISL with R, 1st Edition — An Introduction to Statistical Learning (statlearning.com)

8.问题(略)

(a)问题(略)

(b)问题(略)

fix(college)

rownames(college) = college[,1]

college = college[,-1]

fix(college)

(c)问题(略)

summary(college)

college[,1] = as.numeric(factor(college[,1]))

pairs(college[,1:10])

plot(college$Private, college$Outstate)

Elite = rep("No", nrow(college))
Elite[college$Top10perc>50] = "Yes"
Elite = as.factor(Elite)
college = data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate)

par(mfrow=c(2,2))
hist(college$Apps)
hist(college$perc.alumni, col=2)
hist(college$S.F.Ratio, col=3, breaks=10)
hist(college$Expend, breaks=100)

plot(college$Top10perc, college$Grad.Rate)

很明显的错误:超过100%的毕业率。

9.问题(略)

Auto = read.csv("./Auto.csv", header=T, na.strings="?")

  1. header=T 表示CSV文件的第一行是列名,即header。如果设置为F,那么第一行将被视为普通数据行。
  2. na.strings="?" 表示将问号("?")识别为缺失值(NA)。在读取数据时,所有问号将被替换为NA。

Auto = na.omit(Auto)

删除数据框Auto中包含NA值的所有行。na.omit()函数会返回输入数据的一个副本,删除了包含缺失值的行。

dim(Auto)

summary(Auto)

(a)问题(略)

定量:mpg, cylinders, displacement, horsepower, weight, acceleration, year

定性:name, origin

(b)问题(略)

sapply(Auto[, 1:7], range)

sapply函数会对每个列应用指定的函数,这里应用的函数是range,它会返回每个列的最小值和最大值。

(c)问题(略)

sapply(Auto[, 1:7], mean)

mean会返回每个列的均值。

sapply(Auto[, 1:7], sd)

sd会返回每个列的标准差。

(d)问题(略)

rm10and85Auto = Auto[-(10:85),]

> dim(rm10and85Auto) == dim(Auto) - c(76,0)

rm10and85Auto[9,] == Auto[9,]

rm10and85Auto[10,] == Auto[86,]

sapply(rm10and85Auto[, 1:7], range)

sapply(rm10and85Auto[, 1:7], mean)

sapply(rm10and85Auto[, 1:7], sd)

(e)问题(略)

总体上加速度越大重量越轻。

同样的内容只不过设置了一些不一样的东西。

plot(Auto$acceleration, Auto$weight,type="l",main="加速度和重量的关系度",xlab="加速度",ylab="重量")

(f)问题(略)

没有提供足够的预测mpg的数据。

多数列都和mpg有一定的关联,可能会对预测造成困扰。

Pairs()用于可视化数据框中每对变量之间的关系。

pairs(Auto)

注:通常这里使用pairs(Auto)会报错“Error in pairs.default(Auto) : 非数值参数不能适用于'pairs”,使用str(Auto)查看数据类型,大概率会发现字符(非数字)类型的数据列,pairs是不能处理非数字的。

解决方法可以使用Auto[,9] = as.numeric(factor(Auto[,9]))转化数字

就可以解决。只是这显然不是最优解,造成了数据丢失哦。
 
 

10.问题(略)

(a)
library(MASS)
?Boston
dim(Boston)

506行 14列
自动打开了一个网址R: Housing Values in Suburbs of Boston,详细说明了所有列的介绍,包括城市犯罪率等等。
 
(b)
pairs(Boston)
 

 
(c)
随着房子年限增大,犯罪率增大。
plot(Boston$age, Boston$crim)
 

plot(Boston$tax, Boston$crim)
高税率对犯罪率影响比较显著。尤其是在接近700税的时候。

 
(d)
 
par(mfrow=c(1,3))
hist(Boston$crim[Boston$crim>1], breaks=25)
hist(Boston$tax, breaks=25)
 

 
总体犯罪率较低,但是也有特别高的。
税率200到400与600+的有较大差距。
总体都在40的左右,但是也有极高和极低的。
 
(e)
dim(subset(Boston, chas == 1))

35
 
(f)
median(Boston$ptratio)

中位数是19.05
 
(g)
 
t(subset(Boston, medv == min(Boston$medv)))
t()转置

 
summary(Boston)

 
该郊区其他自用房取值详见上图,总体上是房屋情况都不是很好。
 
(h)
dim(subset(Boston, rm > 7))
 

64个郊区居民平均居住房间数量超过7。
 
dim(subset(Boston, rm > 8))

13个郊区居民平均居住房间数量超过8。
summary(subset(Boston, rm > 8))

summary(Boston)

 
房间数超过8个的犯罪率较高,人口地位也较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693297.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Code-Audit(代码审计)习题记录

介绍: 自己懒得搭建靶场了,靶场地址是 GitHub - CHYbeta/Code-Audit-Challenges: Code-Audit-Challenges为了方便在公网练习,可以随地访问,本文所有的题目均来源于网站HSCSEC-Code Audit 1、习题一 题目内容如下: 1…

FX110网:easyMarkets易信被评为2023最佳外汇经纪商

easyMarkets 易信目前正在庆祝其进入行业第 23 周年,很高兴地宣布其在 2023 年 TradingView 经纪商奖中被授予“最佳外汇经纪商”称号,这是其第 51 次荣获殊荣奖项。 “我们的共同使命是为交易者提供最好的交易环境和交易工具。 得益于我们全球社区的广泛…

手把手将 VSCode 快捷键修改为 Eclipse 的快捷键

1.在 vscode 上方搜索栏输入 >keyboard 2. 选择图中红框的内容 3.将Eclipse的常用快捷键复制进去 { "key": "ctrld", "command": "-editor.action.addSelectionToNextFindMatch", "when": "editorFocus" }, {…

微信小程序video 点击自动全屏播放

//因为这个地址可能是图片也可能是视频 点击 图片可以预览&#xff0c;点击视频可放大全屏自动播放。 代码如下 <view v-else :class{contentImg: x.picture.length0} style"margin-top: 10px;"v-for"(x1, y1) in x.picture" :key"y"><…

说一下 JVM 运行时数据区 ?

目录 一、程序计数器&#xff08;Program Counter Register&#xff09; 二、Java 虚拟机栈&#xff08;Java Virtual Machine Stacks&#xff09; 三、本地方法栈&#xff08;Native Method Stack&#xff09; 四、Java 堆&#xff08;Java Heap&#xff09; 五、方法区&…

我是怎么用静态IP代理为Google账号保驾护航的

我为何要使用到静态IP代理服务 我是一名IT从业者&#xff0c;在很多年前就加入了一家跨国软件公司&#xff0c;日常需要在全世界各地跟甲方沟通&#xff0c;负责的工作中重要的一块就是Google广告&#xff0c;为此公司还特意给配置了一台笔记本电脑。 目录 我为何要使用到静态…

【大厂AI课学习笔记】【2.2机器学习开发任务实例】(9)模型优化

模型训练后&#xff0c;就要进行模型优化了。 一般来讲&#xff0c;很简单&#xff0c;优化就是不换模型换参数&#xff0c;或者直接换模型。 换了之后来对比&#xff0c;最后选个最好的。 比如在本案例中&#xff0c;选择LinearRegression后&#xff0c;MSE从22下降到12&am…

ubuntu分辨率更改、开机被重置、ubuntu屏幕小

ubuntu分辨率更改 分辨率改成&#xff1a;1920x1200 xrandr --size 1920x1200 在此之前可以先输入 xrandr 看支持哪些分辨率 开机被重置 我已经设置成这样了&#xff0c; 一开机变回这个 ubuntu屏幕小 输入命令行 xrandr --size 1920x1200 这个下次重启ubuntu又会重置…

防御保护第五次作业

​​​​​​​ 1,FW1和FW3组成主备模式的双机热备 2,办公区设备可以通过电信链路和移动链路上网(多对多的NAT,并且需要保留一个公网IP不能用来转换) 3,分公司设备可以通过总公司的移动链路和电信链路访问到DMz区的http服务器 4,分公司内部的客户端可以通过公网地址访问到内部的…

【笔记】【算法设计与分析 - 北航童咏昕教授】绪论

算法设计与分析 - 北航童咏昕教授 文章目录 算法的定义定义性质 算法的表示自然语言编程语言伪代码 算法的分析算法分析的原则渐近分析 算法的定义 定义 给定计算问题&#xff0c;算法是一系列良定义的计算步骤&#xff0c;逐一执行计算步骤即可得预期的输出。 性质 有穷性确…

使用RK3588开发板使用scp指令互传-windows与开发板互传

MobaXterm 软件网盘下载路径&#xff1a;“iTOP-3588 开发板\02_【iTOP-RK3588 开发板】开发资 料\04_iTOP-3588 开发板所需 PC 软件&#xff08;工具&#xff09;\02-MobaXterm”。 打开 MobaXterm 创建一个 Shell 会话&#xff0c;如下图所示&#xff1a; 设置完成进入终端…

5G——物理层仿真

1.前置条件 2.仿真流程 1.填写搜索过程 解&#xff1a; 2.填写每一步细节 2.2.1 准备 解&#xff1a; &#xff08;1&#xff09;BCH &#xff08;2&#xff09;BCCH 解析&#xff1a;因为PBCH是物理广播信道&#xff0c;BCCH是用于广播系统控制信息的下行信道&#…

Facebook元宇宙探索:虚拟社交的新时代

在数字化时代的浪潮中&#xff0c;人类社交的模式和形式正在经历着翻天覆地的变化。而当下&#xff0c;Facebook作为全球最大的社交媒体平台之一&#xff0c;正积极探索着元宇宙的未来。元宇宙被认为是虚拟世界的下一步进化&#xff0c;它将重新定义人们的社交方式、娱乐体验以…

【Python】OpenCV-图片添加水印处理

图片添加水印处理 1. 引言 图像处理中的水印添加是一种常见的操作&#xff0c;用于在图片上叠加一些信息或标识。本文将介绍如何使用OpenCV库在图片上添加水印&#xff0c;并通过详细的代码注释来解释每一步的操作。 2. 代码示例 以下是一个使用OpenCV库的简单代码示例&…

Spring6学习技术|IoC+基于xml管理bean

学习材料 尚硅谷Spring零基础入门到进阶&#xff0c;一套搞定spring6全套视频教程&#xff08;源码级讲解&#xff09; IoC 控制反转。是一种设计思想。 1.获取bean对象的方法 通过id&#xff0c;通过class&#xff0c;和双重方式。 ApplicationContext context new Cla…

Unity2023.1.19_ShaderGraph节点说明以及使用技巧

Unity2023.1.19_ShaderGraph节点说明以及使用技巧 目录 Unity2023.1.19_ShaderGraph节点说明以及使用技巧 1. 快捷键CtrlG完成和UE蓝图使用快捷键C一样的蓝图分组注释效果&#xff1a; 2. Tiling And Offset&#xff1a; 3. 以下是两组URP材质渲染的效果对比&#xff1a; 4…

Vue 全组件 局部组件

一、组件定义和使用 1、全局组件 定义 <template> <div> <h1>This is a global component</h1> </div> </template> <script lang"ts"> </script> <style></style> 导入 全局组件在main.ts&#xff…

【C语言必刷题】5.判断闰年

&#x1f4da;博客主页&#xff1a;爱敲代码的小杨. ✨专栏&#xff1a;《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 ❤️感谢大家点赞&#x1f44d;&#x1f3fb;收藏⭐评论✍&#x1f3fb;&#xff0c;您的三连就是我持续更新的动力❤️ &#x1f64f;小杨水平有…

智慧公厕是什么?智慧公厕对智慧城市的意义

城市的信息化发展需要催化了智慧城市&#xff0c;公共厕所作为城市的重要民生设施&#xff0c;如何实现更高阶的信息化建设&#xff0c;成为一个重要课题。那么&#xff0c;智慧公厕是什么&#xff1f;为什么它对智慧城市的建设如此重要&#xff1f;本文以智慧公厕源头厂家广州…

QT编写工具基本流程(自用)

以后有人让你写工具的时候&#xff0c;可以方便用这个模版及时提高工作效率&#xff0c;可以争取早点下班。包含库目录&#xff0c;头文件目录&#xff0c;输出目录以及翻译和部署&#xff0c;基本上都全了&#xff0c;也可以做收藏用用。 文章目录 1、创建项目Dialog Widget都…