机器学习——过拟合

一、过拟合得表现

模型在训练过程中,除了会出现过拟合现象,还有可能出现欠拟合的情况。相比而言,后者通常发生在建模前期,只要做好特征工程一般可以解决模型欠拟合问题。下图描述了模型在训练数据集上的三种情况:
在这里插入图片描述
其中曲线代表了模型的拟合结果,可以看出过拟合的曲线几乎对每个训练样本的拟合值都准确无误,展现了低偏差特点;另外过拟合的曲线形式上更复杂,波动性更大,预测的结果具有高方差特点。相反,欠拟合的曲线呈现低方差、高偏差的结果。

理论上模型的偏差和方差呈负相关性,既模型越复杂,偏差越小,方差越大。通常“鲁棒性”强的模型能在偏差和方差中学习到一个较好的平衡点。

二、过拟合的原因

1、数据特征的质量
这里的数据质量并非指数据缺失严重或数值失真,而是指训练集和测试集的特征分布不一致,或者说并非来源于同一分布。试想用数据集A训练得到的模型去预测差异很大的数据集B,结果肯定不尽人意。

其次在特征工程阶段,“暴力”构造的特征中会包含过多训练集的噪声信息,这类只适合于训练集的冗余特征会降低模型的泛化能力。

2、模型的问题
模型结构的超参数设置也有可能造成过拟合现象。以决策树模型为例,令树的深度越大、叶子节点数越少,模型就越复杂,对训练集的数据分类更精细,会更容易导致模型过拟合。

大部分ML模型的学习过程中都运用了类似梯度下降法的迭代优化算法,过多的迭代次数会出现过度训练(Overtraining),让模型最终的参数过度适应训练集,加重过拟合。

三、“缓解” 过拟合的措施

由于数据噪声的存在,过拟合问题无法彻底解决,但是可以通过以下方法来缓解模型过拟合。

1、特征选择
特征选择通过对大量特征作进一步筛选,排除无关特征和冗余特征。对于广义线性模型而言,模型复杂度随着特征特征维度的降低而降低,可以有效缓解过拟合问题。

通常有两种方式做特征选择:
(1)指标筛选:利用信息熵、Pearson相关系数、卡方检验统计量等指标计算特征不目标发量间的相关程度对所有特征进行筛选,但这种方式没有考虑到特征之间的关联作用,可能把有用的关联特征踢掉。
(2)正则化(Regularization):在模型损失函数中加入合适的惩罚项,常见的惩罚项有L1正则化和L2正则化(既L1和L2范数)。其中L1正则化有劣于生成一个稀疏权值矩阵,进而可以用于特征选择,可以参考Lasso模型。

2、模型融合
不同类型的模型具有不同的特点,所以结合各种模型的预测结果也能有效降低过拟合的风险,提升预测精度。一般对模型融合有两种方式:加权平均法和Stacking,其中加权平均法比较易于理解,就是根据各模型的线下得分赋予一个权重,最终根据各自权重对预测结果进行加权平均。

而Stacking号称各类数据比赛的冲分“杀器”,主要思想是训练模型来学习使用底层学习器的预测结果,下图是一个5折stacking中基模型在所有数据集上生成预测结果的过程,次学习器会基于模型的预测结果进行再训练,单个基模型生成预测结果的过程是:
在这里插入图片描述

但是当基模型较复杂时,Stacking的训练代价会很高,实际应用中需要根据情况而定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/3557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode:2095. 删除链表的中间节点 + 链表】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

go 环境安装

彻底清楚old version sudo apt-get remove golang-go sudoapt-get remove --auto-remove golang-go rm -rvf /usr/local/go/ 安装方法: 1.下载 Download and install - The Go Programming Language 2. 解压安装 rm -rf /usr/local/go && tar -C /usr/…

BGP的路径属性

路径属性 l每条BGP路由都拥有多个的路径属性,有些是必须携带的,有些是可选添加的 lBGP的路径属性将影响最优路由的选择 lBGP路径属性是描述路由的一组参数,BGP根据路由的属性选择最佳路由,可以人为置值,以便执行路由…

[Android]引导页

使用Kotlin Jetpack Compose创建一个左右滑动的引导页, 效果如图. 1.添加依赖项 androidx.compose.ui最新版本查询:https://maven.google.com/web/index.html com.google.accompanist:accompanist-pager最新版本查询:https://central.sonatype.com/ 确保在 build.gradle (M…

算法-KMP算法

时间复杂度&#xff1a; public int strStr(String haystack, String needle) {int[] next new int[needle.length()];//next数组的生成next[0] 0;int prefixLen 0;//共同前后缀长度int i 1, j 1;//i,j复用while (i < needle.length()) {if (needle.charAt(prefixLen)…

数据库工程师的工作职责(合集)

数据库工程师的工作职责1 职责&#xff1a; 1. 日常数据库的基本安装&#xff0c;维护&#xff0c;升级&#xff0c;监控的; 2. 配合研发部门进行数据库设计支持&#xff0c;协助开发、设计和进行SQL语言优化; 3. 配合相关部门数据库相关的任务&#xff0c;比如数据导入导出&am…

「屡教不改」又被罚,谁还在相信山姆?

值得信赖的品质」「全球进口品牌」……「更好的生活尽在山姆」。 作为全球最大的会员制商店&#xff0c;山姆这几年可以说在中国线下零售市场集体遇劫的背景下&#xff0c;逆势崛起&#xff0c;甚至可以说做到了独树一帜。‍‍‍‍‍‍ 背后的原因是什么&#xff1f;会员制这一…

c++ 中判断字符是 ASCII 编码还是 GBK 编码

在C中&#xff0c;一个字符是ASCII编码还是GBK编码&#xff0c;取决于其在ASCII范围内还是在GBK范围内。 ASCII编码的范围是0到127&#xff0c;而GBK编码是双字节编码&#xff0c;包含了更广泛的字符范围。 #include <iostream> #include <string> #include <…

Python爬虫要点和难点实例代码解析

学习Python爬虫是一个很好的选择,因为Python有很多强大的库可以帮助你进行网络数据的获取和处理。以下是一个简单的Python爬虫入门指南: 1. 了解HTTP协议:在开始编写爬虫之前,了解HTTP协议是很重要的,因为大多数爬虫都是通过HTTP来获取网页数据的。你需要了解HTTP请求和响…

迅雷不限速破解方法

背景&#xff1a;现在迅雷和百度云的下载速度真的太恶心了&#xff0c;所以总有大佬可以采用厉害的方法进行破解&#xff0c;在网上看了一圈&#xff0c;很多都是骗人或者是无效的&#xff0c;找了一个靠谱的方法&#xff0c;亲测速度能达到10M以上&#xff0c;非常给力。 以下…

MySQL数据库运维:运行监控及解决sql执行死锁问题

前言 在现代数据密集型应用程序的开发和部署中&#xff0c;MySQL数据库的运维是至关重要的环节之一。一个良好设计和维护的MySQL数据库系统可以确保数据的准确性、可靠性和高效的访问&#xff0c;从而支持业务的顺利运行。然而&#xff0c;随着业务规模的增长和复杂性增加&…

Spring源码深度解析:三级缓存机制探究

在Spring框架中&#xff0c;三级缓存机制是容器初始化Bean过程中的一个重要组成部分。它有效地解决了循环依赖的问题&#xff0c;特别是在单例Bean的初始化过程中。本文将深入探讨Spring的三级缓存机制&#xff0c;并通过代码片段来解析其工作原理。 一、三级缓存概述 Spring…

查看HDF5文件软件(HDFView)

HDFView&#xff1a;下载地址 note&#xff1a;我们需要下载 win10 、App软件&#xff08;win10在win11也能运行&#xff09;&#xff0c;因为App软件是轻量版&#xff0c;不需要安装就可以使用。 eg&#xff1a; 下载完后解压就可以使用。

MATLAB 2016计算NDVI

MATLAB 2016计算NDVI 之前大二的一段MATLAB代码&#xff0c;突然找到&#xff0c;记录一下当时初学MATLAB的程序&#xff0c;用于读取TIFF计算归一化植被指数&#xff08;NDVI&#xff09;并将其保存为TIFF文件。 文章目录 MATLAB 2016计算NDVI读取波段数据初始化NDVI矩阵和转…

配置SSL证书需要几步,有免费的吗

我们要明白什么是SSL证书。SSL&#xff08;Secure Sockets Layer&#xff09;是一种安全协议&#xff0c;用于在互联网上进行信息加密传输&#xff0c;保护数据不被第三方窃取或篡改。SSL证书就是用来执行这种加密的一种数字证书&#xff0c;它可以提供身份验证&#xff0c;防止…

这个合租室友真的没有一点公德心,还好他搬走了

这个合租室友真的没有一点公德心&#xff0c;还好他搬走了 这个出租屋有四个房间。 有三个卧室&#xff0c;和一个隔断。 我住三个卧室中的一个。下图中右边那个就是我住的。 2023年下半年&#xff0c;左边那个屋子来了一个新租户小白。 在住的过程中&#xff0c;隔断间的租…

30V-STM32设计项目

30V-STM32设计 一、项目描述 (已验证) 基于STM32c8t6芯片设计的开发板&#xff0c;支持4-30V宽电压输入&#xff0c;串口模式自动下载功能&#xff0c;支持串口和STlink&#xff0c;方式下载程序 二、原理图介绍 电源电路采用了DCDCLDO电路&#xff0c;如果是外接DC头供电的话&…

Spring Boot 3.2.5 集成 mysql

版本 Spring Boot 3.2.5 第一步&#xff0c;添加必要依赖 // mysql jdbc 及 驱动 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-jdbc</artifactId> </dependency> <dependency><gr…

什么是graphQL

文章目录 一、入门1.是什么&#xff1f;做什么2.如何做&#xff1f; 二、查询和变更1.字段&#xff08;Fields&#xff09;2.参数&#xff08;Arguments&#xff09;3.别名&#xff08;Aliases&#xff09;4.片段&#xff08;Fragments&#xff09;5.操作名称&#xff08;Opera…

你知道数据是如何为制造业精益生产KPI和供应链管理赋能的吗?

挖掘工业数据价值&#xff0c;形成新质生产力 随着工业4.0的逐步深入和国家对制造业高质量发展的大力扶持&#xff0c;工业数据的重要性愈发凸显&#xff0c;已然成为生产经营活动中不可或缺的核心要素。 工业数据不仅反映了生产流程中的各个环节&#xff0c;更蕴含了丰富的信…