概念
1.
(a)
光滑度高的好,样本足够多光滑度越高就越能表征真实情况,也能对预测变量更好的预测。
(b)
光滑度低的好,因为可能“过拟合”,一些误差大的数可能会较大的影响到预测变量数。
(c)
光滑度高的好,高光滑度使得拟合非线性关系更切合。
(d)
光滑度低的好,方差太大时使用光滑度高的进行拟合可能会导致“过拟合”。
2.问题(略)
(a)问题(略)
回归模型,推断。
美国500强公司的排名和利润、员工人数、产业类型和CEO的工资关系。
(b)问题(略)
分类,预测。
预测新产品会成功还是会失败。根据先前研发的20个产品的价格成本、市场预算、竞争价格和其它10个变量进行分类预测。
(c)问题(略)
回归模型,预测。
通过2012年每周美元的百分比变化、美国市场百分比变阿虎、英国市场百分比变化、德国市场百分比变化预测未来美元百分比随全球股市的变化规律。
3.问题(略)
(a)问题(略)
(b)问题(略)
- (平方)偏差-单调减少,因为增加了光滑度产生更接近的拟合。
- 方差-单调增加,因为增加光滑度增加过度,过拟合。
- 训练误差-单调减少,因为增加光滑度产生更接近样本的匹配。
- 测试误差-U形曲线,因为增加光滑度会使拟合从恰当到过头。
- 贝叶斯(不可约)误差,指在现有特征集上,任意可以基于特征输入进行随机输出的分类器所能达到的最小误差。贝叶斯误差又可以叫做最小误差。它是在训练集无限大且已经按真实分布穷举了所有可能的特征组合后,任何分类器所能达到的误差下限。产生贝叶斯误差的本质原因是特征集不足以推理出准确预测值,否则贝叶斯误差为0。
4.问题(略)
(a)问题(略)
预测新产品是成功还是失败。
响应变量:过去类似产品数据;预测变量:成功或失败。
推断来看病的人是否健康。
响应变量:心率,化验结果,身高体重等;预测变量:健康/疾病。
预测软件学院2024级新生男生是否比女生多。
响应变量:过去几年新生男女比例;预测变量:男生多/少。
(b)问题(略)
推理世界500强公司的排名和利润,员工人数,产业类型和CEO工资关系。
响应变量:利润,员工人数,产业类型和CEO工资;预测变量:世界500强公司的排名。
预测未来大连天气变化。
响应变量:过去几年天气;预测变量:未来天气变化。
预测美元百分比变化率和全球股市周变动的变化规律。
响应变量:美元百分比变化,美国市场百分比变化,英国市场百分比变化,德国市场百分比变化;预测变量:美元百分比变化和全球股市的变化规律。
(c)问题(略)
癌症类型聚类。更准确地诊断癌症类型。
电影推荐。推荐电影的用户谁有观看和评价类似的电影。
市场调查。产品的人口统计数据的聚类,成群的消费者购买哪些产品。
5.问题(略)
(a)问题(略)
优点:更好的拟合非线性模型,减少偏差。
缺点:需要大量的样本,并且可能产生“过拟合”。
(b)问题(略)
需要更好的准确度,光滑度高通常意味着更好的拟合数据,预测的准确性和可信度更好。
(c)问题(略)
数据有很多噪声和异常值,光滑度低一些会好。
6.问题(略)
(a)问题(略)
参数方法将问题简化,它假定函数的形式。
而非参数方法不假定形式,采用大量的观测数据来估计函数。
参数回归或者分类模型的优点是将模型简化,不需要太多的观测数据,但是如果假设出错会使模型的效果下降,也有“过拟合”的风险。
7.问题(略)
(a)问题(略)
从1到6的距离分别是:3,2,sqrt(10),sqrt(5),sqrt(2),sqrt(3)
(b)问题(略)
Green,观测值5是 K = 1的最近邻。
(c)问题(略)
Red,观测值2,5,6是K=3的近邻。
(d)
小k。小k对于非线性边界更灵活,而大K可能会更偏向于线性的边界。
、、、、、、
应用
在如下网址下载所需的College.csv文件
Resources - ISL with R, 1st Edition — An Introduction to Statistical Learning (statlearning.com)
8.问题(略)
(a)问题(略)
(b)问题(略)
fix(college)
rownames(college) = college[,1]
college = college[,-1]
fix(college)
(c)问题(略)
summary(college)
college[,1] = as.numeric(factor(college[,1]))
pairs(college[,1:10])
plot(college$Private, college$Outstate)
Elite = rep("No", nrow(college))
Elite[college$Top10perc>50] = "Yes"
Elite = as.factor(Elite)
college = data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate)
par(mfrow=c(2,2))
hist(college$Apps)
hist(college$perc.alumni, col=2)
hist(college$S.F.Ratio, col=3, breaks=10)
hist(college$Expend, breaks=100)
plot(college$Top10perc, college$Grad.Rate)
很明显的错误:超过100%的毕业率。
9.问题(略)
Auto = read.csv("./Auto.csv", header=T, na.strings="?")
- header=T 表示CSV文件的第一行是列名,即header。如果设置为F,那么第一行将被视为普通数据行。
- na.strings="?" 表示将问号("?")识别为缺失值(NA)。在读取数据时,所有问号将被替换为NA。
Auto = na.omit(Auto)
删除数据框Auto中包含NA值的所有行。na.omit()函数会返回输入数据的一个副本,删除了包含缺失值的行。
dim(Auto)
summary(Auto)
(a)问题(略)
定量:mpg, cylinders, displacement, horsepower, weight, acceleration, year
定性:name, origin
(b)问题(略)
sapply(Auto[, 1:7], range)
sapply函数会对每个列应用指定的函数,这里应用的函数是range,它会返回每个列的最小值和最大值。
(c)问题(略)
sapply(Auto[, 1:7], mean)
mean会返回每个列的均值。
sapply(Auto[, 1:7], sd)
sd会返回每个列的标准差。
(d)问题(略)
rm10and85Auto = Auto[-(10:85),]
> dim(rm10and85Auto) == dim(Auto) - c(76,0)
rm10and85Auto[9,] == Auto[9,]
rm10and85Auto[10,] == Auto[86,]
sapply(rm10and85Auto[, 1:7], range)
sapply(rm10and85Auto[, 1:7], mean)
sapply(rm10and85Auto[, 1:7], sd)
(e)问题(略)
总体上加速度越大重量越轻。
同样的内容只不过设置了一些不一样的东西。
plot(Auto$acceleration, Auto$weight,type="l",main="加速度和重量的关系度",xlab="加速度",ylab="重量")
(f)问题(略)
没有提供足够的预测mpg的数据。
多数列都和mpg有一定的关联,可能会对预测造成困扰。
Pairs()用于可视化数据框中每对变量之间的关系。
pairs(Auto)
注:通常这里使用pairs(Auto)会报错“Error in pairs.default(Auto) : 非数值参数不能适用于'pairs”,使用str(Auto)查看数据类型,大概率会发现字符(非数字)类型的数据列,pairs是不能处理非数字的。
解决方法可以使用Auto[,9] = as.numeric(factor(Auto[,9]))转化数字
就可以解决。只是这显然不是最优解,造成了数据丢失哦。
10.问题(略)
(a)
library(MASS)
?Boston
dim(Boston)
506行 14列
自动打开了一个网址R: Housing Values in Suburbs of Boston,详细说明了所有列的介绍,包括城市犯罪率等等。
(b)
pairs(Boston)
(c)
随着房子年限增大,犯罪率增大。
plot(Boston$age, Boston$crim)
plot(Boston$tax, Boston$crim)
高税率对犯罪率影响比较显著。尤其是在接近700税的时候。
(d)
par(mfrow=c(1,3))
hist(Boston$crim[Boston$crim>1], breaks=25)
hist(Boston$tax, breaks=25)
总体犯罪率较低,但是也有特别高的。
税率200到400与600+的有较大差距。
总体都在40的左右,但是也有极高和极低的。
(e)
dim(subset(Boston, chas == 1))
35个
(f)
median(Boston$ptratio)
中位数是19.05
(g)
t(subset(Boston, medv == min(Boston$medv)))
t()转置
summary(Boston)
该郊区其他自用房取值详见上图,总体上是房屋情况都不是很好。
(h)
dim(subset(Boston, rm > 7))
64个郊区居民平均居住房间数量超过7。
dim(subset(Boston, rm > 8))
13个郊区居民平均居住房间数量超过8。
summary(subset(Boston, rm > 8))
summary(Boston)
房间数超过8个的犯罪率较高,人口地位也较低。