KNN 回归

K 近邻回归(K-Nearest Neighbors Regression)是一种基于实例的回归算法,用于预测连续数值型的输出变量。它的基本思想是通过找到与给定测试样本最近的 K 个训练样本,并使用它们的输出值来预测测试样本的输出。它与 K 最近邻分类类似,但是用于解决回归问题而不是分类问题。

K 近邻回归算法的基本步骤:

  1. 数据准备:首先,我们需要准备训练集和测试集的特征数据和对应的目标变量。特征数据可以包括数值型、分类型或二元型的特征。目标变量是我们要预测的连续数值。
  2. 选择 K 值和距离度量方法:K 值是指选择的最近邻居的数量,通常通过交叉验证等方法来选择最优的 K 值。距离度量方法用于计算样本之间的距离,常见的方法有欧氏距离、曼哈顿距离等。
  3. 计算距离:对于给定的测试样本,我们计算它与训练集中所有样本的距离。距离的计算方法取决于选择的距离度量方法。
  4. 选择最近的 K 个邻居:根据距离的计算结果,选择与测试样本最近的 K 个训练样本作为邻居。可以使用排序算法(如快速排序)来加快寻找最近邻居的过程。
  5. 预测输出:对于回归问题,根据这 K 个邻居的输出值,可以采用平均值或加权平均值作为预测输出。通常,距离较近的邻居会被赋予更高的权重。
  6. 模型评估:使用回归评估指标(如均方误差、平均绝对误差等)来评估模型的性能。可以使用交叉验证等方法来获取更准确的模型评估结果。

需要注意的是,K 值的选择对算法的性能有重要影响。较小的 K 值会导致模型过拟合,而较大的 K 值可能会导致模型欠拟合。因此,通常需要通过交叉验证等方法来选择最优的 K 值。

K 近邻回归算法的基本思想就是,在给定一个新的数据点,它的输出值由其 K 个最近邻数据点的输出值的平均值(或加权平均值)来预测。

简单地说,KNN 回归使用多个近邻(即 k > 1)时,预测结果为这些邻居的对应目标值的平均值。

KNN 回归也可以用 score 方法进行模型评估,返回的是 R 2 R^2 R2 分数。 R 2 R^2 R2(R-squared)分数也叫做决定系数,是用来评估模型拟合优度的指标,它表示因变量的方差能够被自变量解释的比例。 R 2 R^2 R2 的取值范围在 0 到 1 之间,越接近 1 表示模型对数据的拟合越好,即模型能够解释更多的因变量的方差。当 R 2 R^2 R2 接近 0 时,说明模型无法解释因变量的方差,拟合效果较差。简单地说, R 2 = 1 R^2 = 1 R2=1 对应完美预测, R 2 = 0 R^2 = 0 R2=0 对应常数模型,即总是预测训练集响应(y_train)的平均值。

R 2 = 1 − ( S S R / S S T ) = 1 − ∑ i = 1 n ( y i − y i ′ ) 2 ∑ i = 1 n ( y i − y m e a n ) 2 R^2 = 1 - (SSR / SST) = 1 - \frac{\displaystyle\sum_{i=1}^{n}(y_i - y'_i)^2}{\displaystyle\sum_{i=1}^{n}(y_i - y_{mean})^2} R2=1(SSR/SST)=1i=1n(yiymean)2i=1n(yiyi)2

其中, y y y 为实际观测值, y ′ y' y 为预测值, y m e a n y_{mean} ymean 为实际观测值的均值。

SSR 与 SST:

  • SSR(Sum of Squares Residual)为残差平方和,表示模型预测值与实际观测值之间的差异。
  • SST(Total Sum of Squares)为总平方和,表示实际观测值的方差。

一般来说,KNN 分类器有 2 个重要参数:邻居个数以及数据点之间距离的度量方法。在实践中,使用较小的邻居个数(比如 3 个或 5 个)往往可以得到较好的结果,但在不同问题中应根据具体情况调节这个参数。数据点之间的距离度量方法默认使用欧式距离,它在许多情况下的效果都很好。

如果训练集很大(特征数很多或样本数很大),KNN 模型的预测速度可能会比较慢。
使用 KNN 算法时,对数据进行预处理是很重要的。
这一算法对于有很多特征(几百或更多)的数据集往往效果不好,对于大多数特征的大多数取值都为 0 的数据集(所谓的稀疏数据集)来说,这一算法的效果尤其不好。

在 sklearn 中调用 KNN 回归模型:

from sklearn.neighbors import KNeighborsRegressorreg = KNeighborsRegressor(n_neighbors=3)
reg.fit(X_train, y_train)
y_pred = reg.predict(X_new)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/604029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机毕业设计----SSM场地预订管理系统

项目介绍 本项目分为前后台,前台为普通用户登录,后台为管理员登录; 用户角色包含以下功能: 按分类查看场地,用户登录,查看网站公告,按分类查看器材,查看商品详情,加入购物车,提交订单,查看订单,修改个人信息等功能。 管理员角…

java基于SSM的二手交易平台设计与开发论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本二手交易平台就是在这样的大环境下诞生,其可以帮助使用者在短时间内处理完毕庞大的数据信息&am…

基于SSM的基金投资交易管理网站的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

说反话-加强版

主要&#xff1a;使用strtok函数&#xff08;将字符串以空格分开&#xff09;&#xff08;若不了解strtok函数&#xff0c;我在其它文章已说明&#xff09; #include <stdio.h> #include <string.h> int main() { int i 0; int z 0; char* str[5000…

技术方向:比较与选择

针对未入行、刚入行、工作好几年依然不停切换择业方向、长期技术无法突破的人。 1 技术栈 一切的开始其实是对编程的兴趣&#xff0c;兴趣指引你跨过所有障碍。 编程语言是基础&#xff0c;编程语言之上&#xff0c;发展为两个主要方向&#xff0c;服务和大数据。 2 编程语言…

性能分析与调优: Linux 监测工具的数据来源

目录 一、实验 1.环境 2. proc目录 3. sys目录 4.netlink 5.tracepoint 6.kprobes 7. uprobes 二、问题 1.systemd如何查看启动时间 2.CentOS与Ubuntu如何安装bpftrace 3.snap有哪些常用的命令 4.snap如何安装store 5.如何列出使用bpftracede的OpenJDK USDT探针 …

清华大学生物信息学课件资料分享

清华大学鲁志老师实验室在网上分享了他们的生信课程学习资料&#xff0c;有电子书&#xff0c;PPT和视频&#xff0c;真是生信学习者的福音。 实验室网址是&#xff1a; https://www.ncrnalab.org/courses/#bioinfo2 可以看到&#xff0c;课程有针对本科生的&#xff0c;也有针…

(21)Linux的文件描述符输出重定向

一、文件描述符 1、文件描述符的底层理解 在上一章中&#xff0c;我们已经把 fd 的基本原理搞清楚了&#xff0c;知道了 fd 的值为什么是 0,1,2,3,4,5... 也知道了 fd 为什么默认从 3 开始&#xff0c;而不是从 0,1,2&#xff0c;因为其在内核中属于进程和文件的对应关系。 …

XSS(跨站脚本攻击)漏洞介绍

简介 XSS(跨站脚本攻击)是一种常见的计算机安全漏洞,也是Web应用中最主流的攻击方式之一。它利用网站接收用户提交数据时未进行足够的转义处理或过滤不足的缺点,将恶意代码嵌入到Web页面中。当其他用户访问该页面时,嵌入的代码会被执行,从而导致盗取用户资料、利用用户身…

《EnlightenGAN: Deep Light Enhancement withoutPaired Supervision》论文超详细解读(翻译+精读)

前言 最近学习低照度图像增强时读到这篇EnlightenGAN的论文觉得写得很有意思&#xff0c;讲故事的手法也很值得小白写论文时模仿&#xff0c;今天就来带大家读一下~ 目录 前言 ABSTRACT—摘要 翻译 精读 一、INTRODUCTION—简介 翻译 精读 二、RELATED WORKS—相关工…

【数据仓库与联机分析处理】多维数据模型

目录 一、数据立方体 二、数据模型 &#xff08;一&#xff09;星形模型 &#xff08;二&#xff09;雪花模式 &#xff08;三&#xff09;事实星座模式 三、多维数据模型中的OLAP操作 &#xff08;一&#xff09;下钻 &#xff08;二&#xff09;上卷 &#xff08;三…

oracle数据迁移到mysql

项目场景&#xff1a; 需要更换数据库 问题描述 导入导出脚本。不能满足需求 解决方案&#xff1a; 使用阿里巴巴的yugong 阿里巴巴去Oracle数据迁移同步工具(全量增量,目标支持MySQL/DRDS) GitHub - alibaba/yugong: 阿里巴巴去Oracle数据迁移同步工具(全量增量,目标支持MyS…

Leetcode 第 121 场双周赛 Problem D 统计强大整数的数目(Java + 记忆化搜索的数位 DP 模板 + 特判)

文章目录 题目思路Java 记忆化搜索的数位 DP 模板 特判第 1 步&#xff1a;第 2 步&#xff1a;第 3 步&#xff1a; 复杂度Code 题目 Problem: 100163. 统计强大整数的数目给你三个整数 start &#xff0c;finish 和 limit 。同时给你一个下标从 0 开始的字符串 s &#xf…

postman设置下载文件大小限制

问题 本地写了一个下载文件的接口&#xff0c;调用postman测试的时候&#xff0c;小文件可以&#xff0c;但时大文件就会报错&#xff0c;postman提示&#xff1a; 解决方案 点击postman的设置按钮&#xff0c;点击【Settings】&#xff0c;在打开的弹窗中选择【General】Tab…

三菱plc学习入门(二,三菱plc指令,触点比较,计数器,交替,四则运算,转换数据类型)

今天&#xff0c;进行总结对plc的学习&#xff0c;下面是对plc基础的学习&#xff0c;希望对读者有帮助&#xff0c;欢迎点赞&#xff0c;评论&#xff0c;收藏&#xff01;&#xff01;&#xff01; 目录 触点比较 当数据太大了的时候&#xff08;LDD32位&#xff09; CMP比…

1874_曲轴位置传感器

Grey 全部学习内容汇总&#xff1a; GitHub - GreyZhang/g_ECU_hacking: some learning notes about ECU(engine control unit) hacking. 1874_曲轴位置传感器 功能描述 综述 发动机控制处理中&#xff0c;曲轴位置传感器是非常关键的一个信息。这里先从基本的功能上&…

如何设计企业级业务流程?学习华为的流程六级分类经验

业务流程管理&#xff08;BPM&#xff09;是一种系统化的方法&#xff0c;用于分析、设计、执行、监控和优化组织的业务流程&#xff0c;以实现预期的目标和价值。业务流程管理中&#xff0c;流程的分级方法有多种&#xff0c;常见的有以下几种&#xff1a; APQC的流程分级方法…

【Verilog】基于Verilog的DDR控制器的简单实现(一)——初始化

在FPGA中&#xff0c;大规模数据的存储常常会用到DDR。为了方便用户使用&#xff0c;Xilinx提供了DDR MIG IP核&#xff0c;用户能够通过AXI接口进行DDR的读写访问&#xff0c;然而MIG内部自动实现了许多环节&#xff0c;不利于用户深入理解DDR的底层逻辑。 本文以美光(Micro…

(leetcode)Z字形变换 -- 模拟算法

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 题目链接 . - 力扣&#xff08;LeetCode&#xff09; 输入描述 string convert(string s, int numRows)&#xff0c;输入一个字符串s&#xff0c;以及一个行数numRows&#xff0c;将字符串按照这个行数进行Z字形排列&…

vue项目接入滑动验证码

前言 本文教你基于Node.js环境&#xff0c;在vue项目中如何接入KgCapctah。 准备工作 访问凯格行为验证码官网&#xff0c;注册账号后登录控制台&#xff0c;访问“无感验证”模块&#xff0c;申请开通后系统会分配给应用一个唯一的AppId、AppSecret。凯格提供后端SDK来校验…