回归分析——线性回归

     机器学习中,对于离散的数据可以做分类问题,那对于连续的数据就是做回归问题,这里对一元线性回归和多元线性回归做一个简介,帮组理解。

    回归分析:从一组样本数据出发,确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找到影响效果显著和不显著的变量,同时利用关系式,根据一个和多个变量来预测或控制另一个特定变量的取值,并给出预测的精准程度

变量之间的关系有两种:一种是确定性关系,能直接给出y = f(x),确定唯一的y,一种是相关关系,变量之间有关系,但是不能用函数表示。但是在平均意义下有一定的变量相关关系。


    (注:图是参考资料里边的)

    一元线性回归模型:描述因变量Y如何依赖自变量X的方程,这是自变量只有一个,称之为一元线性回归模型。

                                 y = w0+w1x

     多元线性回归模型 :描述因变量Y如何依赖自变量x1,x2,x3...的方程,此时自变量有多个,称之为多元线性回归模型。

                                y = w0 +w1x1 + w2x2 +w3x3 +...

                         w1,w2,w3...称为偏回归系数

    回归的目的是预测数值型的目标值。最直接的方法就是依据输入写出一个目标值的计算公式。这就是回归方程,公式为y=wX,其中w是回归系数,求这些回归系数的过程就是回归。这里的回归是多元线性回归,现在的问题是,手里有一些X和对应的y,怎么能找到w呢?一个常用的方法是找出使误差最小的w。这里的误差指的是预测值和真实值之间的差值,使用误差的简单累加使得该误差的简单累加将使得正差值和负差值相互抵消,所以我们采用平方误差。

                                                             其中,y是真实值,是预测值。

      求解线性回归分为两类:一类是正规方程的求解,一个是基于梯度下降的求解。这里给出的是正规方程的求解过程。

    对损失函数求解最小值计算化简为(这里推导过程参考正规方程计算,摘自博客chenlin41204050的博客(链接:https://blog.csdn.net/chenlin41204050/article/details/78220280)

  

    转换为矩阵运算,设有m个训练实例,每个实例有n个特征,则X为:                                                    

 其中表示第i个实例的第j个特征。

   特征参数(回归系数):                                   输出变量Y:

                               

    损失函数可以写为:

    

    求偏导:

    

    其中第一项结果为0,其他计算:

    

   

         该计算和上边过程类似。

       最后一项: 

      


故最后结果为:

                   


      这里用的是最小二乘法,也可以用梯度下降实现线性回归。最后的化简式子中,对矩阵的求逆不能为0,即行列式不能为0。如果没有检查行列式是否为0就试图计算矩阵的逆,将会出现错误。之前一直找资料想知道公式的推导过程,终于找到了,鄙人实在不太会用各种数学公式的工具使用,就盗用了他们的图,希望不影响浏览。

最小二乘法

     最小二乘法的用途是求未知数据,并使得这些数据与实际数据之间的误差达到最小。另一个方面可以进行曲线拟合。最小二乘法在估计的时候我们可以首先画出散点图看是否有线性关系,在做进一步的分析。

    高中我们所学的知道两点求直线就是用到了最小二乘法,方程为y=ax+b,已知有点(x1,y1),(x2,y2)两个点,利用误差最小可知:

                                                计算可得:   


   

局部加权线性回归

      线性回归的一个问题是有可能出现欠拟合的现象,因为它求的是具有最小均方差的无偏估计。显而易见,如果模型欠拟合将不能取得最好的预测效果。所以引入局部加权线性回归,在算法中,我们给预测点附近的每一个点赋予一定的权重,在此方法中,我们使用‘核’来对附近的点赋予更高的权重,常用的是高斯核。


岭回归

       如果特征比样本点还多,也就是说输入数据的矩阵x不是满秩矩阵,非满秩矩阵会在求逆时出现问题,所以引入岭回归,简单地说,就是在矩阵加一个常数和单位矩阵,该常数越大,方差越小,偏差越大,通过引入该惩罚项,能够减少不重要的参数,这个技术在统计学中叫做缩减。

        在进入岭回归和lsaao回归的时候引入了正则化的概念,其中岭回归用了L2正则化,lasso用了L1正则化,正则化将会在以后讲解。

这里重新引入了一个数据标准化的过程,和归一化是不一样的。目的有一定的相似性。                                      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/466876.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编译原理(五)自底向上分析之算符优先分析法

自底向上分析之算符优先分析法 说明:以老师PPT为标准,借鉴部分教材内容,AlvinZH学习笔记。 基本过程 1. 一般方法:采用自左向右地扫描和分析输入串,从输入符号串开始,通过反复查找当前句型的句柄&#xff0…

做Android开发,要清楚init.rc里面的东西

init.rc 复习看这个之前,先看看大神总结的文章这篇文章总结的非常到位,但是因为代码不是最新的Android版本,对我们最新的Android版本不适用。http://gityuan.com/2016/02/05/android-init/#init rc文件拷贝拷贝其实也就是把文件放到机器的某个…

宏比较值,坑的一B

昨晚上,我准备睡觉,连总给我发了一段代码#include "stdio.h"#define MAX_MACRO(a, b) ((a) > (b) ? (a) : (b)) int MAX_FUNC(int a, int b) {return ((a) > (b) ? (a) : (b)); }int main() {unsigned int a 1;int b -1;printf(&quo…

Linux下Samba服务器搭建

linux文件共享之samba服务器 ——ubuntu 宗旨:技术的学习是有限的,分享的精神是无限的。 关闭LINUX防火墙命令: #ufwdisable 然后就在windows下ping一下linux的IP,如果能ping通,就可以继续下面的内容,如果p…

搞懂C++为什么难学,看这篇就够了!

学C能干什么? 往细了说,后端、客户端、游戏引擎开发以及人工智能领域都需要它。往大了说,构成一个工程师核心能力的东西,都在C里。跟面向对象型的语言相比,C是一门非常考验技术想象力的编程语言,因此学习起…

看图学源码之FutureTask

RunnableFuture 源码学习: 成员变量 任务的运行状态的转化 package java.util.concurrent; import java.util.concurrent.locks.LockSupport;/**可取消的异步计算。该类提供了Future的基本实现,包括启动和取消计算的方法,查询计算是否完成以…

单片机的引脚,你都清楚吗?

第1课:单片机简叙1.单片机可以做什么?目前单片机渗透到我们生活的各个领域,几乎很难找到哪个领域没有单片机的踪迹。小到电话,玩具,手机,各类刷卡机,电脑键盘,彩电,冰箱&…

Graphviz的安装及纠错

在Anaconda Prompt里边输入conda install graphviz 安装成功之后输入pip install graphviz 它会提示成功安装。 启动 Jupyter Notebook ,在文件里边输入 import graphviz 测试,如果没有报错证明,模块安装成功,但是在运行程序…

sklearn——决策树

总结sklearn决策树的使用,方便以后查阅。1.分类决策树 (基于CART树) 原型:参数:2、回归分类树 原型:参数:3、export_graphviz 当训练完毕一颗决策树时,可以通过sklearn.tree.expor…

Linux下SVN服务器的搭建

Linux下SVN服务器的搭建 宗旨:技术的学习是有限的,分享的精神是无限的。 1、下载工具(下载地址:) subversion-1.6.1.tar.gz subversion-deps-1.6.1.tar.gz 2、解压两个包: a) tar -xzvf subvers…

记一次解决问题的掉坑过程

这两天在调试一个音频ADC 芯片,也是之前的项目,但是一直调不出来,我发现我总是在这样的问题上纠结很久,以前踩过的坑后面照样会踩,只不过踩完会迅速把脚拉出来继续前进,我经常听到有人说「做嵌入式真的太容…

sklearn——AdaBoost应用

选自《python大战机器学习》

面试常见的C语言字符串操作

#字符串倒序输出实现逻辑,通过strlen获取字符串长度,然后通过 len/2 进行交叉赋值,这里需要注意,不需要考虑len是奇数还是偶数的问题。如果len是奇数,最后一个字符就不需要倒序,如果是偶数,最后…

HttpHandler:给指定路径下的图片添加水印显示

圣诞节,25日,要交ACCP5.0认证的项目,其中有这样一个要求:书店的所有图书的封面放在了\images\convers\下面,要求所有引用这一路径下的图片都添加书店的店名水印图片。就是说拦截Http请求了,自然想到HttpHan…

Linux 下的复制命令,这几个比较靠谱

平时我们使用Linux复制命令的时候,一般使用 cp命令,但是cp 命令性能比较令人担忧使用tar 命令来拷贝大量文件通过对比下面的几个命令,在拷贝比较多而且比较大的文件的话,用git clone 比较靠谱,特别是复制代码库&#x…

Mendeley文献管理软件使用介绍

<!DOCTYPE html>New DocumentMendeley 是一款免费的跨平台文献管理软件&#xff0c;同时也是一个在线的学术社交网络平台。Mendeley 对 PDF、Bibtex 的支持非常好&#xff0c;可以直接导出 Bibtex 格式&#xff0c;还可以直接导入zotero数据库&#xff0c;决定了其兼容性…

过拟合问题——正则化方法

看了很多资料&#xff0c;本身想放一个正则化的概念的&#xff0c;实在不敢放&#xff0c;怕吓跑一堆人&#xff0c;所以&#xff0c;将就吧。首先&#xff0c;我们知道正则化&#xff08;Regularization&#xff09;是解决过拟合问题的&#xff0c;简单来说&#xff0c;过拟合…

CentOS 8明年正式停止维护,以后再也不会有免费的RHEL了!

CentOS 8 明年正式停止维护&#xff0c;以后再也不会有免费的 RHEL 了!CentOS 是 Community Enterprise Operating System&#xff08;社区企业操作系统&#xff09;的首字母缩写&#xff0c;是 100&#xff05; 重建的 RHEL&#xff08;红帽企业 Linux&#xff09;。尽管 RHEL…

Python sqlalchemy orm 多外键关联

多外键关联 注&#xff1a;在两个表之间进行多外键链接 如图&#xff1a; 案例&#xff1a; # 创建两张表并添加外键主键 # 调用Column创建字段 加类型 from sqlalchemy import Integer, ForeignKey, String, Column# 调用基类Base from sqlalchemy.ext.declarative import dec…

将DataFrame格式的数据存入到mysql数据库中

因为最近频繁操作数据库&#xff0c;特别是写入数据比较麻烦。在DataFrame格式或者是Series格式的数据处理之后&#xff0c;总是会面临写入数据&#xff0c;迫不得已只能进行格式转换&#xff0c;搜索过程中发现了to_sql&#xff08;&#xff09;函数&#xff0c;就百度了用法&…