模型评价 - 机器学习与建模中怎么克服过拟合问题?

上一篇博客链接: 机器学习与建模中 - 判断数据模型拟合效果的三种方法

在上一篇博客中,我们谈到了使用损失函数来判断模型的拟合效果。但是拟合效果比较好的模型不一定是最好的模型,建模的最终目的是为了预测,因此预测最精准的模型才是最好的模型。

提到预测,我们引入一个新的概念,叫作“泛化能力”(泛化能力是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出。)

比如在多项式回归的例子上(下图),对于同样的训练数据,8阶多项式的损失比1阶多项式小很多,但是对于未来的预测,8阶多项式显得非常糟糕(下右图)。由于8阶多项式的模型过于关注训练数据(过拟合),因此不能很好的泛化新数据。

 

 为了克服过拟合,能够更好的泛化,我们一般采取以下四种方法:

方法一:验证集

方法二:交叉验证

方法三:K折交叉验证的计算缩放

方法四:清洗噪点


 

方法一:验证集

克服过拟合问题的一般方法是使用第二个数据集,即验证集。用验证集来验证模型的泛化能力。验证集可以单独提供或者从原始数据中抽取一部分作为验证集。比如奥运会男子100米短跑数据,抽取1980年之后的数据作为验证集,1980年之前的数据用于训练模型。

在训练集上训练出 N 个模型,为了判断模型的泛化能力,我们计算他们在验证集上的损失函数,损失函数越小则泛化能力越好。下图表明,1阶多项式模型的泛化能力最好,8阶和6阶的泛化能力较差。

下图给出了 1 阶、4 阶、8 阶多项式模型的泛化能力图,可以很直观的看出来模型的好坏。

 


 

方法二:交叉验证

交叉验证与验证相差“交叉”两个字,所谓交叉验证就是把原始数据集分为大小尽可能相等的 K 块数据集,每一块数据集轮流作为验证集,剩余的 K-1 块作为训练集训练模型。在计算损失值得时候,将K个验证集上计算出的损失值的平均数作为最后的损失值。

特殊的,当 K = N 时,即把数量为 N 的原始数据集分成了 N 份,这就使得每一次的验证集都只有一条数据。K 折交叉验证的这种特殊情况称之为留一交叉验证(Leave-One-Out Cross Validation, LOOCV),LOOCV情况下的损失值一般是用平均损失函数计算。

                                                           L = \frac{1}{N}\Sigma \left ( t_{n} - \omega _{-n}^{T}x_{n}\right )^{2}

下图给出了奥运会男子100米短跑数据在LOOCV情况下的平均损失值,图中曲线表明 3 阶多项式模型才是损失值最小的。这个结论显然与方法一中取1980年后的数据作为验证集的结论不一样,这样的分歧并不是异常的。但是两种方法一致的结论就是,高于 3 阶的模型都是不合适的。


 

方法三:K折交叉验证的计算缩放

留一交叉验证似乎已经是评估模型好坏的一种好方法,他几乎可以评估各种可选择的模型。然而在工作中,我们往往要考虑成本问题,对于 LOOCV 的实现,需要训练模型 N 次,这比简单的模型选择方法要多耗费约 N 倍的时间。对于一些复杂度比较高的模型,比如高阶多项式、对数函数、三角函数等,或者对于数据量比较大的模型,这显然并不可行。

解决这个难题的方法就是限制 K 的值,令 K << N ,由此可以大大缩减训练模型的次数。

经历多年的尝试,业界习惯的令 K = 10,在 10 折交叉验证中,我们用数据集中的 10% 作为验证集,剩下的 90% 作为训练集,模型的训练只循环 10 次。特别是当数据条数 N 远远大于10 的情况下,这将会是很大的一笔节省。


 

方法四:清洗噪点

有时候,能影响模型泛化能力的可能是某几个噪点引起的过拟合,因此只要在数据清洗的过程中,删除噪点,或者用均值代替,或者用邻近值代替即可,数据清洗的方法请点击下面链接:

文章链接:Python数据预处理 - 数据清洗 - 洗什么?怎么洗?看完就明白了

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475534.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

因子分析模型

主成分分析和因子分析 #包载入 library(corrplot) library(psych) library(GPArotation) library(nFactors) library(gplots) library(RColorBrewer)1234567 主成分分析 主成分分析&#xff08;PCA&#xff09;是对针对大量相关变量提取获得很少的一组不相关的变量&#xff…

因子分析模型 - 案例按步骤详解 - (SPSS建模)

一、SPSS中的因子分析。 步骤: &#xff08;1&#xff09;定义变量&#xff1a;x1-财政用于农业的支出的比重,x2-第二、三产业从业人数占全社会从业人数的比重&#xff0c;x3-非农村人口比重&#xff0c;x4-乡村从业人员占农村人口的比重&#xff0c;x5-农业总产值占农林牧总…

神经网络 - 用单层感知器实现多个神经元的分类 - (Matlab建模)

训练样本矩阵&#xff1a; P [0.1 0.7 0.8 0.8 1.0 0.3 0.0 –0.3 –0.5 –1.5; 1.2 1.8 1.6 0.6 0.8 0.5 0.2 0.8 –1.5 –1.3]; 训练样本对应的分类&#xff1a; T [1 1 1 0 0 1 1 1 0 0 ;0 0 0 0 0 1 1 1 1 1]; 用MATLAB实现分类&…

缺失值处理 - 定位空值并用空值的上一个值填充 - (Excel)

今天小助理很烦恼&#xff0c;说要处理一批汇率的数据&#xff0c;用近邻日期的汇率填充汇率为空的日期的汇率&#xff0c;这句话比较拗口&#xff0c;我们用数据解释一下。 比如下表&#xff0c;10月6日和10月8日9日的汇率没有采集到&#xff0c;那么我们就用10月5日的汇率填…

C#开发基础类库

下载地址&#xff1a;http://files.cnblogs.com/dashi/Sxmobi.rar转载于:https://www.cnblogs.com/dashi/archive/2011/09/09/2172506.html

因子分析模型 - 因子分析法原理与代码实现 -(Python,R)

因子分析基本思想 和主成分分析相似&#xff0c;首先从原理上说&#xff0c;主成分分析是试图寻找原有自变量的一个线性组合&#xff0c;取出对线性关系影响较大的原始数据&#xff0c;作为主要成分。 因子分析&#xff0c;是假设所有的自变量可以通过若干个因子&#xff08;中…

ACDSee Photo Manager 12 中文绿色版

用WinRAR解压即玩&#xff0c;无需安装。可以拷贝到USB硬盘&#xff0c;便于携带 凭借易于使用且速度极快的特点&#xff0c;ACDSee 12提供了整理相片、优化拍摄以及与亲朋好友分享往事所需的全部功能。 幻灯片浏览 支持幻灯片浏览图片&#xff0c;并支持背景音乐和多种多样的图…

排序算法 - 6种 - 超炫的动画演示 - Python实现

1.冒泡排序 思路&#xff1a;遍历列表&#xff0c;每一轮每次比较相邻两项&#xff0c;将无序的两项交换&#xff0c;下一轮遍历比前一轮比较次数减1。 def bubble_sort(a_list):for passnum in range(len(a_list)-1, 0, -1):for i in range(passnum):if a_list[i] > a_list…

因子分析模型 - Python 做因子分析简直比 SPSS 还简单 - ( Python、SPSS)

为什么&#xff1f; SPSS 那么简单还免费&#xff0c;为什么还要用 Python 做因子分析&#xff08;factor analysis&#xff09;呢&#xff1f;工作狗表示&#xff0c;建模的目的是要卖钱的&#xff0c;也就是要嵌入到公司开发的产品上去&#xff0c;用 Python 写因子分析&…

缺失值处理 - 拉格朗日插值法 - Python代码

目录 缺失值处理 拉格朗日差值法的理论基础 拉格朗日插值法代码实现 其他数据预处理方法 缺失值处理 处理缺失值常用的办法可分为三类&#xff1a;删除记录、数据插补、不处理。 其中常见的数据插补法有&#xff1a; 如果通过删除小部分的数据就可以达到既定的目标&#…

做po_requisitions_interface_all接口开发问题

po_requisitions_interface_all这个接口表的字段charge_account_id来源于: 1、组织参数的Material Account 2、工单类型的Outside Processing Account 转载于:https://www.cnblogs.com/songdavid/archive/2011/09/19/2181757.html

[Hands On ML] 3. 分类(MNIST手写数字预测)

文章目录1. 数据预览2. 数据集拆分3. 二分类4. 性能评估4.1 交叉验证4.2 准确率、召回率4.3 受试者工作特征&#xff08;ROC&#xff09;曲线5. 多分类6. 误差分析6.1 检查混淆矩阵本文为《机器学习实战&#xff1a;基于Scikit-Learn和TensorFlow》的读书笔记。 中文翻译参考 …

支持向量机 - 从原理到算法的实现

思想&#xff1a;寻找能够成功分开两类样本并且具有最大分类间隔的最优超平面。 1.原理解析 空间中任何一个平面的方程都可以表示为wxb 0,如上图&#xff0c;设最优超平面方程H为wxb0,支持向量x-到H的距离为,要使分类间隔最大&#xff0c;即该距离最大&#xff0c;而该距离只与…

Struts2初始化过程代码分析

根据web.xml的配置 调用FilterDispatcher.init(FilterConfig filterConfig) 1. 创建org.apache.struts2.Dispatcher&#xff0c;并调用init()方法 1.1. 创建com.opensymphony.xwork2.config.ConfigurationManager,其中属性List<ContainerProvider> containerProviders存放…

LeetCode 1292. 元素和小于等于阈值的正方形的最大边长(DP)

1. 题目 给你一个大小为 m x n 的矩阵 mat 和一个整数阈值 threshold。 请你返回元素总和小于或等于阈值的正方形区域的最大边长&#xff1b; 如果没有这样的正方形区域&#xff0c;则返回 0 。 示例 1&#xff1a; 输入&#xff1a;mat [[1,1,3,2,4,3,2],[1,1,3,2,4,3,2],[…

从这十大算法开始学习机器学习与建模

本文介绍了机器学习新手需要了解的 10 大算法&#xff0c;包括线性回归、Logistic 回归、朴素贝叶斯、K 近邻算法等。 在机器学习中&#xff0c;有一种叫做「没有免费的午餐」的定理。简而言之&#xff0c;它指出没有任何一种算法对所有问题都有效&#xff0c;在监督学习&…

.NET 动态脚本语言Script.NET系列文章汇总 非常精彩的应用举例

对于Script.NET,我已经写了三篇文章来介绍它&#xff0c;文章汇总如下 .NET 动态脚本语言Script.NET 入门指南 Quick Start .NET 动态脚本语言Script.NET 开发指南 .NET 动态脚本语言Script.NET 应用举例 希望这三篇文章能帮助你了解Script.NET。 下面的例子&#xff0c;继续讲…

异常值处理 - iterrows()对 DataFrame 进行遍历,并修改遍历中的异常值 - Python代码

先要有一个很简单的被命名为 data 的表&#xff1a; 第三列是一个名曰周杰伦的人历年来每个月的月薪&#xff0c;其中2016年月薪10万&#xff0c;纵观他历年来的月薪基本不超过3万&#xff08;显然他不是我的偶像胖伦&#xff09;&#xff0c;因此对于这个人来说月薪10万是有些…

LeetCode 44. 通配符匹配(DP)

1. 题目 给定一个字符串 (s) 和一个字符模式 (p) &#xff0c;实现一个支持 ? 和 * 的通配符匹配。 ? 可以匹配任何单个字符。* 可以匹配任意字符串&#xff08;包括空字符串&#xff09;。 两个字符串完全匹配才算匹配成功。 说明: s 可能为空&#xff0c;且只包含从 a-…

HtmlAgilityPack/xpath

【转载】HTML解析利器HtmlAgilityPack在网上发现了一个.NET下的HTML解析类库HtmlAgilityPack。HtmlAgilityPack是一个支持用XPath来解析HTML的类库&#xff0c;在花了一点时间学习了解HtmlAgilityPack的API和XPath之后&#xff0c;周公就做了一个简单的工具完成了这个功能&…