【机器学习300问】43、回归模型预测效果明明很好,为什么均方根误差很大?

一、案例描述        

        假设我们正在构建一个房地产价格预测模型,目标是预测某个城市各类住宅的售价。模型基于大量房屋的各种特征(如面积、地段、房龄、楼层等)进行训练。 回归模型在大部分情况下对于住宅价格预测非常精准,用户反馈也非常好,模型的实际预测能力在业界得到了认可。但RMSE指标却依旧很高这是为什么?

二、原因分析

        均方根误差(Root Mean Square Error, RMSE)是机器学习中广泛使用的衡量预测模型准确度的标准之一。它通过计算预测值与真实值之间差异的平方平均值的平方根来量化模型预测的平均偏差。通常情况下,较低的RMSE意味着模型有更好的预测性能。下面是他的计算公式:

RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}

符号解释
n真实值的总数
y_ii个真实值
\hat{y}_ii个预测值
(y_i - \hat{y}_i)^2i个真实值与预测值之间的误差的平方,用来消除误差的正负号影响
\sum_{i=1}^{n} (y_i - \hat{y}_i)^2所有残差平方的总和

        案例原因:大多数房屋的价格都在一个合理的区间内变动,但如果有少数几个极其昂贵或极其便宜的离群点(例如,异常低价的房源或超级豪宅),模型很可能对这些点的预测误差极大。将这些误差平方后纳入总误差的计算中,会明显增大总的误差平方和,而开平方是在计算完平方和之后才进行的,所以这会显著提高均方根误差。

三、解决方案 

 (1)离群值检测与处理

        可以采用诸如Z-score、IQR(四分位数范围)等方法检测离群值,并根据具体情况选择删除、替换(如使用邻近值填充、插值等方法)离群点或者保留(如果离群值是有意义的真实信息)。

(2)选择更合适的评估指标

        对于存在大量离群点且其重要性不如其他大部分数据的情况,可考虑使用MAPE(平均绝对百分比误差)等对离群值不那么敏感的评价指标。

MAPE = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\%

符号解释
n真实值的总数
y_ii个真实值
\hat{y}_ii个预测值
|y_i - \hat{y}_i|i个真实值与预测值之间的误差的绝对值
\left| \frac{y_i - \hat{y}_i}{y_i} \right|计算每个点的百分比误差
\frac{1}{n} \sum计算所有百分比误差的平均值

【注】MAPE 的结果是一个百分比数值,它表示预测误差占实际值的比例平均值。MAPE 越小,说明预测精度越高。然而,需要注意的是,MAPE 对于真实值接近零的情况非常敏感,当有少量实际值接近或等于零时,会导致 MAPE 计算结果异常增大,引入一个小的常数以避免零分母的情况。

(3)分层建模

        根据数据特点,可以考虑为不同类型的房源(如普通住宅和豪华别墅)分别建立模型,或者在同一个模型中引入类别变量来调整对不同类型的响应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/763131.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java Flink(四十三)Flink Interval Join源码解析以及简单实例

背景 之前我们在一片文章里简单介绍过Flink的多流合并算子 java Flink(三十六)Flink多流合并算子UNION、CONNECT、CoGroup、Join 今天我们通过Flink 1.14的源码对Flink的Interval Join进行深入的理解。 Interval Join不是两个窗口做关联,…

阿里云通过脚本直接修改SSH配置来允许root登录并启用密码认证

看起来你想要通过脚本直接修改SSH配置来允许root登录并启用密码认证。然而,PermitRootLogin和PasswordAuthentication这两个指令是/etc/ssh/sshd_config文件中的配置选项,不能直接通过set命令在bash脚本中设置。set命令在shell脚本中用于设置或取消设置s…

2.Redis有五种主要的数据类型

Redis有五种主要的数据类型 String(字符串):String类型是最简单的数据类型,可以存储任意类型的数据,例如整数、浮点数、字符串等。String类型支持一些基本的操作,如设置值、获取值、增减值等。 Hash&#…

论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models

导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接:https://arxiv.org/abs/2307.09288 1 引言 大型语言模型(LLMs&#xff…

cesium Clock JulianDate 日照分析

cesium在初始化的时候会自动把Clock对象挂载到容器上Clock内部以JulianDate维护时间,比北京时间慢8个小时,想显示北京时间需要计算时差JulianDate的日期部分和秒数部分是分开的 julianDayNumber:指整数天,记录从公元前4713年正午以…

GO 语言基础学习记录

一:声明变量 在golang语言中声明变量的方式 package main import "fmt" func main() { var a int 3 //关键字 var 变量名 变量指定类型 变量值 var b int //关键字 var 变量名 变量指定类型(注意:当变量没赋值时是按照变量…

【蓝桥杯】第15届蓝桥杯青少组stema选拔赛C++中高级真题答案(20240310)

一、选择题 第 1 题 第 2 题 表达式1000/3的结果是( A )。 A.333 B.333.3 C.334 D.333.0 第 3 题 下列选项中,判断a等于1并且b等于1正确的表达式是( B )。 A.!((a!1)&&(b!1)) B.!((a!1)||(b!1)) C.!(a1)&&(b1) D.(a1)&&(b1) 【解析】 A…

面试(一)

一. 说一下进程和线程的区别? (1)进程是资源分配的最小单位,线程是CPU调度的最小单位。 (2)线程是进程的一部分,一个线程只能属于一个进程,一个进程可以有多个线程,但至少有一个线程。 (3)进程有自己独立地址空间&a…

我的春招求职面经

智能指针在面试时经常被问到,最近自己也在写,有一点思考,于是找到了这样一个题目,可以看看,上面这个代码有什么问题?留言区说出你的答案吧! 最后分享一下之前的实习->春招->秋招等文章汇总…

可以完成80%的数据分析工作的20个Pandas函数

Pandas 是数据科学社区中使用最广泛的库之一,它是一个强大的工具,可以进行数据操作、清理和分析。本文将提供最常用的 Pandas 函数以及如何实际使用它们的样例。我们将涵盖从基本数据操作到高级数据分析技术的所有内容,到本文结束时&#xff…

huggingface的transformers训练bert

目录 理论 实践 理论 https://arxiv.org/abs/1810.04805 BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言处理(NLP)模型,由Google在2018年提出。它是基于Transformer模型的预训练方法…

使el-table通过操控鼠标滚轮横向滚动

1.创建directive文件夹&#xff0c;里面创建directive.js文件 import Vue from vue;Vue.directive(scroll-x,{inserted:function(el){let domClass el.getAttribute(class)if(domClass.indexOf(el-table)<0){return false}const scrollDiv el;if(scrollDivnull){return fa…

OpenCV基于边缘的分割详解

OpenCV 中基于边缘的分割是一种常见的图像分割技术&#xff0c;它利用图像中的边缘信息来进行分割。边缘通常是图像中灰度值变化较大的区域&#xff0c;因此可以作为物体之间的分界线。以下是基于边缘的分割在 OpenCV 中的详细介绍&#xff1a; Canny 边缘检测&#xff08;Cann…

YOLOv9有效改进|CVPR2023即插即用的到残差注意力机制(轻量化注意力机制)Inverted Residual Mobile Block

专栏介绍&#xff1a;YOLOv9改进系列 | 包含深度学习最新创新&#xff0c;助力高效涨点&#xff01;&#xff01;&#xff01; 一、改进点介绍 在YOLOv9中加入CVPR2023即插即用的到残差注意力机制。 二、模块详解 2.1 模块简介 Inverted Residual Mobile Block结合了倒置残差块…

JavaEE企业开发新技术3

目录 2.11 Method的基本操作-1 文字性概念描述 代码&#xff1a; 2.12 Method的基本操作-2 2.13 Method的基本操作-3 2.14 数组的反射操作-1 文字性概念&#xff1a; 代码&#xff1a; 2.15 数组的反射操作-2 学习内容 2.11 Method的基本操作-1 文字性概念描述 Me…

SSM整合Springboot

1.0 概述 1.1 持久层&#xff1a; DAO层&#xff08;mapper&#xff09; DAO层&#xff1a;DAO层主要是做数据持久层的工作&#xff0c;负责与数据库进行联络的一些任务都封装在此 DAO层的设计首先是设计DAO的接口&#xff0c; 然后在spring-mapper.xml的配置文件中定义此接…

“低代码+平台”:驱动企业数字化转型与创新的新引擎

“低代码平台”作为一种新兴的软件开发范式&#xff0c;正逐渐成为企业快速响应市场变化、优化业务流程、提升数字化水平的重要手段。它的价值在于&#xff0c;将传统软件开发的复杂性大大降低&#xff0c;赋予了非技术人员或轻量级开发者快速构建应用的能力&#xff0c;并能灵…

【vue-小知识】var、let 和 const之间的区别

文章目录 结论1、重复定义变量名var&#xff1a;允许重复定义变量名let和const&#xff1a;不可以重复定义变量名 2、修改值var&#xff1a;允许修改值let&#xff1a;允许修改值const&#xff1a;不允许修改值&#xff0c;会报错 3、变量提升var : 支持变量提升let和const&…

【黑马程序员】Python多任务

文章目录 多进程多进程使用流程导入包Process进程类说明 获取进程编号目的常用操作 获取进程名进程注意点进程之间不共享全局变量主进程会等待子进程结束之后再结束设置守护主进程 多线程threading模块线程注意点线程之间执行是无序的主线程会等待所有的子线程执行结束在结束线…

Docker compose()

1.概述 是 Docker 官方提供的一款开源工具&#xff0c;主要用于简化在单个主机上定义和运行多容器 Docker 应用的过程。它的核心作用是容器编排&#xff0c;使得开发者能够在一个统一的环境中以声明式的方式管理多容器应用的服务及其依赖关系。 也就是说Docker Compose是一个用…