数据挖掘——回归算法

数据挖掘——回归算法

  • 回归算法
    • 线性回归
    • 最小二乘法
    • 优化求解——梯度下降法
    • 逻辑回归
      • 逻辑回归函数
      • 逻辑回归参数估计
      • 逻辑回归正则化
    • 决策树回归
    • 小结

回归算法

回归分析

如果把其中的一些因素(房屋面积)作为自变量,而另一些随自变量的变化而变化的变量作为因变量(房价),研究他们之间的非确定映射关系,这种分析就称为回归分析

回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。

回归和分类的区别:

分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

线性回归

线性回归假设特征和响应满足线性关系

一元线性回归问题函数关系可表示
y = a + b x y=a+bx y=a+bx

  • 根据上式,在确定a、b的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据上式得到的y值与实际的y值存在一个误差
  • a、b为参数(parameters)、或称回归系数(regression coefficients)

线性回归例题:

关于线性回归的描述,以下正确的有:
A  基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B  基本假设包括随机干扰项是均值为0的同方差正态分布
C  在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D  在违背基本假设时,模型不再可以估计
E  可以用DW检验残差是否存在序列相关性
F  多重共线性会使得参数估计值方差减小

答案:BCE
解析:
一元线性回归的基本假设有

  1. 随机误差项是一个期望值或平均值为0的随机变量;
  2. 对于解释变量的所有观测值,随机误差项有相同的方差;
  3. 随机误差项彼此不相关;
  4. 解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
  5. 解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
  6. 随机误差项服从正态分布

当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶自相关最常用的方法。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响

  1. 完全共线性下参数估计量不存在
  2. 近似共线性下OLS估计量非有效,多重共线性使参数估计值的方差增大
  3. 参数估计量经济含义不合理
  4. 变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
  5. 模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

最小二乘法

采用什么样的线性关系误差刻画更好呢?

最小二乘法!

基本思想:保证直线与所有点接近
详细做法:
若有n个样本点: ( x 1 , y 1 ) , … , ( x n , y n ) (x_1,y_1),… ,(x_n,y_n) x1y1,,xnyn,可以用下面的表达式来刻画这些
点与直线y=a+bx的接近程度:
[ y 1 − ( a + b x 1 ) ] 2 + . . . + [ y n − ( a + b x n ) ] 2 [y_1-(a+bx_1)]^2+...+[y_n-(a+bx_n)]^2 [y1(a+bx1)]2+...+[yn(a+bxn)]2
使上式达到最小值的直线y=a+bx就是所求的直线,这种方法称为最小二乘法。

对a和b求偏导数,可以得到:
b = x 1 y 1 + . . . + x n y n − n x ˉ y ˉ x 1 2 + . . . + x n 2 − n x ˉ 2 , a = y ˉ − b x ˉ b=\frac{x_1y_1+...+x_ny_n-n\bar x\bar y}{x_1^2+...+x_n^2-n\bar x^2},a=\bar y-b\bar x b=x12+...+xn2nxˉ2x1y1+...+xnynnxˉyˉ,a=yˉbxˉ
在这里插入图片描述

优化求解——梯度下降法

基本思想

  • 向着梯度的反方向调整
  • 步长不能太大,也不能太小

在这里插入图片描述

逻辑回归

逻辑回归函数

f ( x ) = e x 1 + e x f(x)=\frac{e^x}{1+e^{x}} f(x)=1+exex,值域为[0,1]
在这里插入图片描述
在这里插入图片描述

逻辑回归参数估计

在这里插入图片描述
使用梯度下降方法,迭代求解参数

逻辑回归正则化

在这里插入图片描述
W在数值上越小越好,这样越能抵抗数据的扰动
在这里插入图片描述
L1倾向于使得w要么取1,要么取0稀疏编码
L2倾向于使得w整体偏小(岭回归)

L1适合挑选特征
L2也称为岭回归,有很强的概率意义
在这里插入图片描述

决策树回归

决策树是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二, 这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维feature的值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点),如下图所示。
在这里插入图片描述
既然是决策树,那么必然会存在以下两个核心问题:如何选择划分点?如何决定叶节点的输出值?——决策树分类选择划分点,使得信息增益最大,叶节点输出即类别
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中采用信息增益等方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法

小结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/891908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端如何从入门进阶到高级

在前端学习的道路上,我们将其划分为三个阶段:入门、实战和进阶。以下是各阶段的学习指南 一、入门阶段 在入门阶段,我们的目标是掌握前端的基本语法和知识,以便能够独立解决一些基础问题。这一阶段,我们建议通过视频…

Android14 CTS-R6和GTS-12-R2不能同时测试的解决方法

背景 Android14 CTS r6和GTS 12-r1之后,tf-console默认会带起OLC Server,看起来olc server可能是想适配ATS(android-test-station),一种网页版可视化、可配置的跑XTS的方式。这种网页版ATS对测试人员是比较友好的,网页上简单配置下…

Linux中的tcpdump抓包命令详解:抓取TCP和UDP数据包并按小时输出文件

Linux中的tcpdump抓包命令详解:抓取TCP和UDP数据包并按小时输出文件 一、tcpdump简介二、安装tcpdump三、抓取TCP和UDP数据包四、按小时输出文件五、tcpdump命令的常用选项和表达式六、总结在Linux系统中,tcpdump是一款强大的网络抓包工具,它基于libpcap库开发,可以捕获网络…

k8s基础(4)—Kubernetes-Service

Service概述 抽象层 ‌k8s的Service是一种抽象层,用于为一组具有相同功能的Pod提供一个统一的入口地址,并通过负载均衡将网络流量分发到这些Pod上。‌ Service解决了Pod动态变化的问题,例如Pod的IP地址和端口可能会发生变化,通过…

国内Ubuntu环境Docker部署CosyVoice

国内Ubuntu环境Docker部署CosyVoice 本文旨在记录在 国内 CosyVoice项目在 Ubuntu 环境下如何使用 dockermin-conda进行一键部署。 源项目地址: https://github.com/FunAudioLLM/CosyVoice 如果想要使用 dockerpython 进行部署,可以参考我另一篇博客中的…

基于 gitlab-runner 实现调度GPU的资源

本篇目录 1. 客户需求2. 需求调研3. 实践3.1 方案一:环境变量的方式3.2 方案二:k8s 自身的spec注入机制 4. 效果 该实践来自于客户的一个真实需求 1. 客户需求 客户的某些流水线需要使用GPU资源,但是对于GPU服务器而言,会有多张G…

计算机网络 —— 网络编程(TCP)

计算机网络 —— 网络编程(TCP) TCP和UDP的区别TCP (Transmission Control Protocol)UDP (User Datagram Protocol) 前期准备listen (服务端)函数原型返回值使用示例注意事项 accpect (服务端)函数原型返回…

模型 九屏幕分析法

系列文章 分享 模型,了解更多👉 模型_思维模型目录。九屏幕法:全方位分析问题的系统工具。 1 九屏幕分析法的应用 1.1 新产品研发的市场分析 一家科技公司计划开发一款新型智能手机,为了全面评估市场潜力和风险,他们…

Unity2D初级背包设计中篇 MVC分层撰写(万字详解)

本人能力有限,如有不足还请斧正,理论分析链接如下: Unity2D初级背包设计前篇 理论分析-CSDN博客 目录 1.M层:数据存储 物品 仓库容器 加载方式 2.M层:逻辑撰写 InventoryManager 仓库的管理 SlotData 物品的增…

深入理解 Linux 管道:创建与应用详解(匿名管道进程池)

在现代操作系统中,进程间通信(IPC)是实现多任务、多进程协作的关键技术之一。Linux 提供了多种 IPC 机制,本博客将帮助您详细的理解进程间通信的原理 首先,在学习管道之前,我们先理解一下管道的存在是为了什…

SWM221系列芯片之电机应用及控制

经过对SWM221系列的强大性能及外设资源,TFTLCD彩屏显示及控制进行了整体介绍后,新迎来我们的电控篇---SWM221系列芯片之电机应用及控制。在微控制器市场面临性能、集成度与成本挑战的当下,SWM221系列芯片以其卓越性能与创新设计,受…

Trimble天宝X9三维扫描仪为建筑外墙检测提供了全新的解决方案【沪敖3D】

随着城市化进程的快速推进,城市高层建筑不断增多,对建筑质量的要求也在不断提高。建筑外墙检测,如平整度和垂直度检测,是衡量建筑质量的重要指标之一。传统人工检测方法不仅操作繁琐、效率低下,还难以全面反映墙体的真…

机器人手眼标定

机器人手眼标定 一、机器人手眼标定1. 眼在手上标定基本原理2. 眼在手外标定基本原理 二、眼在手外标定实验三、标定精度分析 一、机器人手眼标定 要实现由图像目标点到实际物体上抓取点之间的坐标转换,就必须拥有准确的相机内外参信息。其中内参是相机内部的基本参…

unity中的UI系统---GUI

一、工作原理和主要作用 1.GUI是什么? 即即时模式游戏用户交互界面(IMGUI),在unity中一般简称为GUI,它是一个代码驱动的UI系统。 2.GUI的主要作用 2.1作为程序员的调试工具,创建游戏内调测试工具 2.2为…

Java开发 PDF文件生成方案

业务需求背景 业务端需要能够将考试答卷内容按指定格式呈现并导出为pdf格式进行存档,作为紧急需求插入。导出内容存在样式复杂性,包括特定的字体(中文)、字号、颜色,页面得有页眉、页码,数据需要进行表格聚…

SpringCloud微服务架构

文章目录 认识微服务:SpringCloud 服务拆分及远程调用实现夸远程服务调用使用RestTemplateEureka注册中心 搭建EruekaServer注册服务服务发现 Ribbon负载均衡 修改负载均衡规则解饿加载 Nacos注册中心(nacos一部分功能) 服务注册到nacosnacos…

【设计模式-02】23 种设计模式的分类和功能

在软件工程领域,设计模式是解决常见设计问题的经典方案。1994 年,Erich Gamma、Richard Helm、Ralph Johnson 和 John Vlissides(四人帮,GoF)在《设计模式:可复用面向对象软件的基础》一书中系统性地总结了…

简历_专业技能_熟悉分布式锁Redisson的原理以及使用

系列博客目录 文章目录 系列博客目录怎么样才能够在简历上写熟悉redisson的应用以及原理1. 清晰描述技能与经验示例: 2. 列举具体应用场景示例项目经验: 3. 展示你对原理的理解示例: 4. 用简历中的关键词突出你的能力示例段落: 5.…

分布式任务调度xxl-job入门案例

XXL-JOB是一个分布式任务调度平台,简单来说就是可以在你指定的时间内调用某个功能,就例如购物某个商品的限时抢购从什么时候开始以及结束抢购类似于这样的。 下面是它的一个仓库地址 http://gitee.com/xuxueli0323/xxl-job 下载之后将项目导入进idea中&…

瑞芯微rk3566刷机流程(黑豹X2)

文章目录 概要 刷机方式 卡刷流程 线刷流程 小结 概要 记录rk3566刷机的过程,纯纯的小白,艰难而有意义的一天。 刷机方式 1、卡刷(tf卡) 2、线刷(双公头usb线) 卡刷流程 1、下载armbian镜像 1、…