数据挖掘——回归算法

数据挖掘——回归算法

  • 回归算法
    • 线性回归
    • 最小二乘法
    • 优化求解——梯度下降法
    • 逻辑回归
      • 逻辑回归函数
      • 逻辑回归参数估计
      • 逻辑回归正则化
    • 决策树回归
    • 小结

回归算法

回归分析

如果把其中的一些因素(房屋面积)作为自变量,而另一些随自变量的变化而变化的变量作为因变量(房价),研究他们之间的非确定映射关系,这种分析就称为回归分析

回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。

回归和分类的区别:

分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

线性回归

线性回归假设特征和响应满足线性关系

一元线性回归问题函数关系可表示
y = a + b x y=a+bx y=a+bx

  • 根据上式,在确定a、b的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据上式得到的y值与实际的y值存在一个误差
  • a、b为参数(parameters)、或称回归系数(regression coefficients)

线性回归例题:

关于线性回归的描述,以下正确的有:
A  基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B  基本假设包括随机干扰项是均值为0的同方差正态分布
C  在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D  在违背基本假设时,模型不再可以估计
E  可以用DW检验残差是否存在序列相关性
F  多重共线性会使得参数估计值方差减小

答案:BCE
解析:
一元线性回归的基本假设有

  1. 随机误差项是一个期望值或平均值为0的随机变量;
  2. 对于解释变量的所有观测值,随机误差项有相同的方差;
  3. 随机误差项彼此不相关;
  4. 解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
  5. 解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
  6. 随机误差项服从正态分布

当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。

杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶自相关最常用的方法。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响

  1. 完全共线性下参数估计量不存在
  2. 近似共线性下OLS估计量非有效,多重共线性使参数估计值的方差增大
  3. 参数估计量经济含义不合理
  4. 变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
  5. 模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。

最小二乘法

采用什么样的线性关系误差刻画更好呢?

最小二乘法!

基本思想:保证直线与所有点接近
详细做法:
若有n个样本点: ( x 1 , y 1 ) , … , ( x n , y n ) (x_1,y_1),… ,(x_n,y_n) x1y1,,xnyn,可以用下面的表达式来刻画这些
点与直线y=a+bx的接近程度:
[ y 1 − ( a + b x 1 ) ] 2 + . . . + [ y n − ( a + b x n ) ] 2 [y_1-(a+bx_1)]^2+...+[y_n-(a+bx_n)]^2 [y1(a+bx1)]2+...+[yn(a+bxn)]2
使上式达到最小值的直线y=a+bx就是所求的直线,这种方法称为最小二乘法。

对a和b求偏导数,可以得到:
b = x 1 y 1 + . . . + x n y n − n x ˉ y ˉ x 1 2 + . . . + x n 2 − n x ˉ 2 , a = y ˉ − b x ˉ b=\frac{x_1y_1+...+x_ny_n-n\bar x\bar y}{x_1^2+...+x_n^2-n\bar x^2},a=\bar y-b\bar x b=x12+...+xn2nxˉ2x1y1+...+xnynnxˉyˉ,a=yˉbxˉ
在这里插入图片描述

优化求解——梯度下降法

基本思想

  • 向着梯度的反方向调整
  • 步长不能太大,也不能太小

在这里插入图片描述

逻辑回归

逻辑回归函数

f ( x ) = e x 1 + e x f(x)=\frac{e^x}{1+e^{x}} f(x)=1+exex,值域为[0,1]
在这里插入图片描述
在这里插入图片描述

逻辑回归参数估计

在这里插入图片描述
使用梯度下降方法,迭代求解参数

逻辑回归正则化

在这里插入图片描述
W在数值上越小越好,这样越能抵抗数据的扰动
在这里插入图片描述
L1倾向于使得w要么取1,要么取0稀疏编码
L2倾向于使得w整体偏小(岭回归)

L1适合挑选特征
L2也称为岭回归,有很强的概率意义
在这里插入图片描述

决策树回归

决策树是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二, 这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维feature的值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点),如下图所示。
在这里插入图片描述
既然是决策树,那么必然会存在以下两个核心问题:如何选择划分点?如何决定叶节点的输出值?——决策树分类选择划分点,使得信息增益最大,叶节点输出即类别
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中采用信息增益等方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法

小结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/891908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端如何从入门进阶到高级

在前端学习的道路上,我们将其划分为三个阶段:入门、实战和进阶。以下是各阶段的学习指南 一、入门阶段 在入门阶段,我们的目标是掌握前端的基本语法和知识,以便能够独立解决一些基础问题。这一阶段,我们建议通过视频…

Android14 CTS-R6和GTS-12-R2不能同时测试的解决方法

背景 Android14 CTS r6和GTS 12-r1之后,tf-console默认会带起OLC Server,看起来olc server可能是想适配ATS(android-test-station),一种网页版可视化、可配置的跑XTS的方式。这种网页版ATS对测试人员是比较友好的,网页上简单配置下…

Linux中的tcpdump抓包命令详解:抓取TCP和UDP数据包并按小时输出文件

Linux中的tcpdump抓包命令详解:抓取TCP和UDP数据包并按小时输出文件 一、tcpdump简介二、安装tcpdump三、抓取TCP和UDP数据包四、按小时输出文件五、tcpdump命令的常用选项和表达式六、总结在Linux系统中,tcpdump是一款强大的网络抓包工具,它基于libpcap库开发,可以捕获网络…

k8s基础(4)—Kubernetes-Service

Service概述 抽象层 ‌k8s的Service是一种抽象层,用于为一组具有相同功能的Pod提供一个统一的入口地址,并通过负载均衡将网络流量分发到这些Pod上。‌ Service解决了Pod动态变化的问题,例如Pod的IP地址和端口可能会发生变化,通过…

C++中批量线程启动容器中的对象函数

使用容器管理多个类对象&#xff0c;通过函数启动容器中所有类对象的函数。 #include <iostream> #include <thread> #include <vector> #include <chrono> #include <memory>class Apple { public:Apple(int num):workspaceNum(num) {}void st…

国内Ubuntu环境Docker部署CosyVoice

国内Ubuntu环境Docker部署CosyVoice 本文旨在记录在 国内 CosyVoice项目在 Ubuntu 环境下如何使用 dockermin-conda进行一键部署。 源项目地址&#xff1a; https://github.com/FunAudioLLM/CosyVoice 如果想要使用 dockerpython 进行部署&#xff0c;可以参考我另一篇博客中的…

基于 gitlab-runner 实现调度GPU的资源

本篇目录 1. 客户需求2. 需求调研3. 实践3.1 方案一&#xff1a;环境变量的方式3.2 方案二&#xff1a;k8s 自身的spec注入机制 4. 效果 该实践来自于客户的一个真实需求 1. 客户需求 客户的某些流水线需要使用GPU资源&#xff0c;但是对于GPU服务器而言&#xff0c;会有多张G…

人脑神经元的连接方式与视觉提取功能对深度学习的启发

1. 引言 人脑神经网络复杂的连接方式和高效的信息处理能力&#xff0c;为人工智能算法的设计提供了重要灵感。研究人脑神经元的连接特点&#xff0c;尤其是其反馈与递归结构&#xff0c;不仅能帮助理解大脑如何感知与认知&#xff0c;还能揭示深度学习模型&#xff08;如ResNe…

计算机网络 —— 网络编程(TCP)

计算机网络 —— 网络编程&#xff08;TCP&#xff09; TCP和UDP的区别TCP (Transmission Control Protocol)UDP (User Datagram Protocol) 前期准备listen &#xff08;服务端&#xff09;函数原型返回值使用示例注意事项 accpect &#xff08;服务端&#xff09;函数原型返回…

模型 九屏幕分析法

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_思维模型目录。九屏幕法&#xff1a;全方位分析问题的系统工具。 1 九屏幕分析法的应用 1.1 新产品研发的市场分析 一家科技公司计划开发一款新型智能手机&#xff0c;为了全面评估市场潜力和风险&#xff0c;他们…

Unity2D初级背包设计中篇 MVC分层撰写(万字详解)

本人能力有限&#xff0c;如有不足还请斧正&#xff0c;理论分析链接如下&#xff1a; Unity2D初级背包设计前篇 理论分析-CSDN博客 目录 1.M层&#xff1a;数据存储 物品 仓库容器 加载方式 2.M层&#xff1a;逻辑撰写 InventoryManager 仓库的管理 SlotData 物品的增…

深入理解 Linux 管道:创建与应用详解(匿名管道进程池)

在现代操作系统中&#xff0c;进程间通信&#xff08;IPC&#xff09;是实现多任务、多进程协作的关键技术之一。Linux 提供了多种 IPC 机制&#xff0c;本博客将帮助您详细的理解进程间通信的原理 首先&#xff0c;在学习管道之前&#xff0c;我们先理解一下管道的存在是为了什…

SWM221系列芯片之电机应用及控制

经过对SWM221系列的强大性能及外设资源&#xff0c;TFTLCD彩屏显示及控制进行了整体介绍后&#xff0c;新迎来我们的电控篇---SWM221系列芯片之电机应用及控制。在微控制器市场面临性能、集成度与成本挑战的当下&#xff0c;SWM221系列芯片以其卓越性能与创新设计&#xff0c;受…

qt qss文件的使用

qt样式的修改方式 一 通过ui界面的改变样式表来直接修改显示效果。 不推荐&#xff0c;其他人不好修改&#xff0c;不够直观&#xff0c;不易维护。 二 通过setStyleSheet接口修改。 一般&#xff0c;界面很少的时候可以使用。一旦界面多起来&#xff0c;代码部分就显得杂乱…

Centos文件已删除空间未释放

原创作者&#xff1a;运维工程师 谢晋 Centos文件已删除空间未释放 释放已删除空间 释放已删除空间 很多时候&#xff0c;你会发现&#xff0c;明明已经删除了文件或日志&#xff0c;但是系统空间就是未缩减&#xff0c;很明显&#xff0c;有空间被已删除文件占用&#xff…

reactor中的并发

1. reactor中的并发有两种方式 1.1 flatmap&#xff0c;底层是多线程并发处理。在reactor的演讲中&#xff0c;flatmap对于io类型的并发效果较好. flamap有两个参数: int concurrency, int prefetch。分别代表并发的线程数和缓存大小 注意凡是参数中有prefetch的&#xff0c;都…

深入 Redis:高级特性与最佳实践

引言 在分布式系统和高并发环境中&#xff0c;Redis 已经成为了一个不可或缺的工具。作为一个内存数据结构存储系统&#xff0c;Redis 不仅支持丰富的数据类型&#xff0c;还提供了高效的操作和极低的延迟&#xff0c;这使得它广泛应用于缓存、消息队列、计数器、排行榜等场景…

如何在 JavaScript 中实现日期格式化?

在 JavaScript 中&#xff0c;日期格式化的常见方法是通过使用内置的 Date 对象来进行处理。JavaScript 本身并没有直接提供一个强大的日期格式化函数&#xff0c;因此通常会使用一些流行的第三方库&#xff0c;比如 date-fns 或 moment.js&#xff0c;但如果我们不依赖外部库&…

Trimble天宝X9三维扫描仪为建筑外墙检测提供了全新的解决方案【沪敖3D】

随着城市化进程的快速推进&#xff0c;城市高层建筑不断增多&#xff0c;对建筑质量的要求也在不断提高。建筑外墙检测&#xff0c;如平整度和垂直度检测&#xff0c;是衡量建筑质量的重要指标之一。传统人工检测方法不仅操作繁琐、效率低下&#xff0c;还难以全面反映墙体的真…

浅谈棋牌游戏开发流程二:后端技术选型与基础环境搭建

一、前言&#xff1a;客户端只是台前&#xff0c;后端才是幕后“指挥中心” 在上一篇“客户端技术”中&#xff0c;我们聊到玩家看到的一切动作、动画、界面逻辑&#xff0c;都靠客户端去渲染和交互。但若没有后端的支撑&#xff0c;玩家点了“出牌”可能就像一拳打在空气里—…