ISLR—第二章 Statistical Learning

Statistical Learning

Y 和X的关系

why estimate f

  1. 用来预测 
    预测的时候可以将f^当成一个black box来用,目的主要是预测对应x时候的y而不关系它们之间的关系。
  2. 用来推断 
    推断的时候,f^不能是一个black box,因为我们想知道predictor和response之间的关系,用来做特征提取,关系分析等。     
根据目的是预测还是推断或者两者结合选择不同的模型,需要做一下trade off。

how estimate f

  1. 参数方法 
    它将确定了f的形式,将估计p维的f函数降为了对一些参数的估计 
    先构建参数表达式,然后用参数表达式去训练数据,例如linear regression。 
    优点是模型和计算简单,缺点是预先确定了f的形式,可能会和真实的f相差较大。     
  2. 非参数方法
    对f的形式并未做假设,它要求得到的结果与训练集越接近越好,但是保证模型不要太过复杂。 
    优点是适用于更多的f,能够得到更高的正确率,缺点是因为是无参数估计,所以需要的数据量是很大的。

The Trade-Off Between Prediction Accuracy and Model 

Interpretability

  • Subset Selction Lasso(最难理解)
  • Least Squares
  • Generallized Additive Models Trees
  • Bagging,Boosting
  • SVM(最灵活)
模型越复杂,对于模型的可解释度越小。
如果需要对模型进行高精度预测的话,比如股票市场,可以采用更flexible的方法。 
然而,在股票市场,高精度的方法有时候效果更差,原因是对训练数据产生了过拟合。

 

Supervised Versus Unsupervised Learning

Regression Versus Classification Problems

以上两部分的内容在Ng的ML课程中有详细的介绍


 

二  Assessing model Accuracy

1 Measuring quality of fit

 

均方误差 MSE
MSE越小越好

The Bias-Variance Trade-Off

(1) 公式中第一项是预测的方差(variance),表示了如果我们更换一个训练集,预测函数f(x)的变化程度,一般来说,自由度越高的方法具有越大的方差;
(2) 第二项是预测的偏差( bias),某种学习算法的平均估计结果所能逼近学习目标的程度一般来讲,自由度越高的方法具有越小的偏差; 独立于训练样本的误差,刻画了匹配的准确性和质量:一个高的偏差意味着一个坏的匹配
(3) 最后一项是不可消除偏差。
训练充足后,训练数据的轻微扰动都会导致学习器发生显著变化,发生过拟合。 
当方差和偏差加起来最优的点,就是我们最佳的模型复杂度。
红色的曲线代表了MSE,橘黄色曲线代表方差,蓝色的曲线代表偏差,水平虚线代表了不可消除偏差,竖直虚线代表了模型实际的自由度。

2 classification setting

    训练错误率

   (1)bayes classifier

条件概率

贝叶斯错误率

   (2)K-Nearest Neighbors(KNN)

理论上,我们偏爱贝叶斯分类器去得到最优的模型。 
但是实际上,我们并不知道特定点X对应的Y分布,因此不能够直接使用贝叶斯分类器。 
但是,有很多方法,可以人工地构造条件概率分布,然后接着使用贝叶斯分类器。
KNN虽然很简单,但是它的错误率却可以很逼近最低的错误率

R—exercise

转载于:https://www.cnblogs.com/doctorW/p/8205292.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/453737.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

提高编程思想

虚函数和抽象函数有什么区别 虚函数是有代码的并明确允许子类去覆盖,但子类也可不覆盖,就是说可以直接用,不用重写 抽象函数是没有代码,子类继承后一定要重写 ****************************************************************** 在一…

python特效代码_网页爱心特效弱爆了,我让你点击网页显示所有python模块!

点击网页特效上周写了一篇文章快速搭建个人博客的教程文章:其中说到了一个点击网页出现爱心特效的插件 click_heart.js ,当然大家可能也见过其他博客上面,有点击网页出现类似 富强、民主、文明、和谐等等,关于代码在这里不多赘述,…

Python 包管理之 poetry

poetry是一个Python虚拟环境和依赖管理的工具。poetry和pipenv类似,另外还提供了打包和发布的功能。 官方文档:python-poetry.org/docs/ python项目部署:poetry管理本地环境,上线用docker poetry 安装 poetry提供多种安装方式&#xff0c…

Windows数据库编程接口简介

数据库是计算机中一种专门管理数据资源的系统,目前几乎所有软件都需要与数据库打交道(包括操作系统,比如Windows上的注册表其实也是一种数据库),有些软件更是以数据库为核心因此掌握数据库系统的使用方法以及数据库系统…

映客都是互刷礼物吗_映客互刷礼物有什么用_映客守护有什么用

一起直播、互刷礼物、改ID发性感照,赵本山女375x332 - 122KB - PNG一起直播、互刷礼物、改ID发性感照,赵本山女600x893 - 247KB - JPEG一起直播、互刷礼物、改ID发性感照,赵本山女600x448 - 151KB - JPEG土豪互刷礼物吓坏男主播 即兴表演铁头功撞墙560x688 - 57KB - JPEG一起直…

Python 之打包工具 setup.py

1. 为什么需要对项目分发打包? 平常我们习惯了使用 pip 来安装一些第三方模块,这个安装过程之所以简单,是因为模块开发者为我们默默地为我们做了所有繁杂的工作,而这个过程就是 打包。 打包,就是将你的源代码进一步封…

周进度----06

周学习进度06 周学习进度06 第16周 所花时间: 60min60min100min100min100min100min90min60min60min 代码量(行) 500-800 博客量(篇) 4 了解到的知识 css样式表的一些知识 项目流程的初步了解 一周的学习心得…

八个实用的CMD命令及开始→运行→命令集锦

这篇文章是很久前收藏在自己笔记本内的,具体的来源地址不清楚,先谢一下原作者吧. 共享出来大家一起学习一下: 一,ping    它是用来检查网络是否通畅或者网络连接速度的命令。作为一个生活在网络上的管理员或者黑客来说,ping命令是第一个必须掌握的DO…

2019如何转换2010_9102年,你还不知道PPT怎么转换成视频吗?小心落伍了

你在刷抖音的时候有没有刷过这类视频:成为人生赢家必备的书单、5个让你看透人性的电影、6个让你升职加薪的APP...如果你细心观察的话,会发现这类视频的做法基本都是一个样的,像在翻相册一样,一页页过去,所以它们也叫做…

深度学习之RetinaNet

总述 Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重,也可理解为一种困难样本挖掘。 目标识别有两大经典结构: 第一类是以Faster RCNN为代表的两级识别方法,这种结构的第…

js生成图片

var image new Image(); var c document.getElementById("myCanvas"); var ctx c.getContext("2d"); var img document.getElementById("scream"); ctx.font "10px Arial";function createImg(name, zuowei, color) {// 姓名ctx…

浅谈如何学习linux

一.为什么要学linux? 当然最重要是爱好和兴趣!如果你这种必要学,或者根本不喜欢,请不要浪费时间,你学也学不好! 二.起步 你应该为自己创造一个学习linux的环境--在电脑上装一个linux或unix 问题1:版本…

python的datetime函数_Python连载8-datetime包函数介绍

一、datetime包(上接连载7内容)1.函数:datetime(1)用法:输入一个日期,来返回一个datetime类?(2)格式:datetime.datetime(年,月,日,hour,minute,second)其中hour,minute,…

深度学习之 soft-NMS

论文:《Improving Object DetectionWith One Line of Code》soft-NMS 英文论文链接:https://arxiv.org/pdf/1704.04503.pdfsoft-NMS github 链接:https://github.com/bharatsingh430/soft-nms 绝大部分目标检测方法,最后都要用到…

项目微管理 - 总结也是新的开始

时间都去哪了?听着这首耳熟能详的旋律,感叹着飞速流逝的年华,我渐渐的陷入到沉思之中。时间过的真的很快,从一名程序员到接手一个一线项目团队一晃已经2年多了。在这段时间里,我接触了各种各样的人,处理了各…

一维二维_Excel二维数据转一维,2种方法轻松搞定

今天是2020年1月1日,祝各位小伙伴们新年快乐,开心每一天~如下所示,左边是二维交叉数据表,我们希望快速转换成右边的一维数据表如果复制粘贴,效率太低了,今天分享两种方法,实现快速转换1、powerq…

数百种 Windows 软件的免费替代品列表

程序所执行任务的描述WindowsLinux1) 网络连接网页浏览器微软 IE,网景 Netscape / Mozilla, Opera [私有],Firebird,……1) Netscape/Mozilla 2) Galeon. 3) Konqueror. 4) Opera.[私有] 5) Firebird. 6) Nautilus 7) Epiphany 8)…

深度学习之 Cascade R-CNN

Zhaowei Cai, Nuno Vasconcelos. 《Cascade R-CNN: Delving into High Quality Object Detection》. CVPR 2018.论文链接:https://arxiv.org/abs/1712.00726代码链接:https://github.com/zhaoweicai/cascade-rcnn 前言 IOU阈值被用来定义正负例&#x…

转换文档参数_明明2秒可以搞定Word、Excel相互转换,你却用了半小时!真亏了...

我们在用office三件套工作的时候,经常都需要对文件的格式进行转换,像是Word文档和Excel表格的转换,很多小伙伴都要花上半个小时甚至以上的时间才能搞定,效率实在不行。别担心,今天小编将分享能快速完成Word、Excel转换…

深度学习之 DCN(Deformable Convolution)-可变形卷积

Paper link: http://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdfhttps://arxiv.org/pdf/1703.06211 Code link: https://github.com/msracver/Deformable-ConvNets Abstract 如何有效地对几何图形的变化进行…