回归的误差服从正态分布吗_盘点10大回归类型:总有一款深得你心

全文共2507字,预计学习时长5分钟

69ee509fdca9e799c405070739735e8c.png

除了统计模型和其他的一些算法,回归是机器学习成功运行的重要构成要素。回归的核心是寻找变量之间的关系,而机器学习需要根据这种关系来预测结果。

显然,任何称职的机器学习工程师都应重视回归,但回归也有很多种。线性回归和逻辑回归通常是人们最先学习的算法,然而还有许多回归类型。每种类型都有各自的重要性,并且有最适合应用的情境。那么,该用哪一种呢?

本文将用通俗易懂的方式介绍最常用的回归类型,遇到具体任务时你便知晓该使用哪一种。

1. 线性回归Linear regression

线性回归是最典型的回归类型,大约250年前就已出现,也被称为普通最小二乘法(OLS)和线性最小二乘法回归。可以使用它对小数据集进行计算,甚至可以手动计算。目前线性回归常用于插值,但不适合实际预测和主动分析。

另外,现代数据常常结构混乱,线性回归容易“滞后”:线性回归过于精确。如果模型对一组数据计算精确,对另一组数据却极不精确,而线性回归本应描述一般模式,过于精确会使其在几乎所有情况下变得不稳定。

0c5105bb28dddff1e2b89c4267935bc2.png

2. 岭回归Ridge regression

岭回归是线性回归的重要改进,增加了误差容忍度,对回归系数进行了限制,从而得到更加真实的结果,并且结果更容易解释。该方法用于解决自变量之间相互关联(多重共线性)时的数据冗余问题。

岭回归需要使用如下公式来评估参数:

a968966ac0b7554d5411cf9d9067c52f.png

3. 套索回归Lasso-regression

套索回归与岭回归类似,但回归系数可为0(模型中排除了一些符号)。

a5a86b154b8486c3f8a79be338ab5647.png

4. 偏最小二乘法回归Partial least squares(PLS)

与自变量数目相比,观察结果很少时,或者自变量高度相关时,PLS会很有用。PLS可将自变量减少,并使其不相关,类似于主成分分析。然后,对这些自变量而非原始数据进行线性回归。

PLS强调发展预测模型,不用于筛选变量。与OLS不同,PLS可以包含多个连续因变量。PLS利用相关结构识别较小的效应,并对因变量中的多元模式进行建模。

b1f78a7e41afff9982ca13a10698da71.png

来源:Pexels

5. 逻辑回归Logistic regression

逻辑回归广泛应用于临床试验、量化,或者欺诈分析——当测试药物或信用卡交易的信息可以二进制形式(是/否)获得时。线性回归固有的缺点它也有,如低误差容忍度、依赖数据集,但总的来说,逻辑回归更好,并且可以简化为线性回归类型来简化计算。有些版本如泊松回归得到了改进,以便有时需要得到非二进制答案,例如分类、年龄组、甚至回归树。

1e2c2d0d3a1b1637d3f366062b8e0fe1.png

6. 生态回归 Ecological Regression

生态回归用于将数据划分为相当大的层或组的情况(回归分别应用于每个层或组),例如,在政治学中生态回归用于根据汇总数据评估选民的群体行为。

然而,应该警惕“大数据的诅咒”:如果对数百万次回归进行统计,其中一些模型可能完全不准确,成功的模型将被高度(且人为)一致的嘈杂模型“击溃”。因此,这种类型的回归不适合预测极端事件(地震)和研究因果关系(全球变暖)。

d2c75a5c440935f37fdb7edf71646637.png

7.贝叶斯线性回归Bayesian linear regression

贝叶斯线性回归与岭回归类似,但它的前提是所有可能的误差都服从正态分布。因此,假设对数据结构有基本了解,就可能获得更精确的模型(特别是与线性回归相比)。

然而,在实际操作中,若处理大数据,对数据的初始了解并不能保证准确性,所以这种假设是基于共轭值的,即本质上是人为的,这是这种回归类型的一个显著缺陷。

观测变量的计算:

16488e9764edc0279cc75908a349816d.png

误差服从正态分布:

afbbdd4f059fc3020612494f6235bd4e.png

8. 分位数回归Quantile regression

分位数回归用于极端事件,包括故意在结果中引入偏差,从而提高模型的准确性。

f9928d976e3bfbdcfb3121d5b05ff142.png

9. 最小绝对偏差Least absolute deviations(LAD)

最小绝对偏差也称为最小绝对误差(LAE)、最小绝对值(LAV)、最小绝对残差(LAR)、绝对偏差之和或L1范数条件,是最小的模量方法。它用于从包含随机误差的测量值中评估未知值,以及估算给定函数的表示法(近似值)。最小绝对偏差看起来像线性回归,但使用的是绝对值而不是平方。因此,模型的准确性有所提高,且没有使计算复杂化。

3692aec72a81d5304f79ea31a5ad18da.png

10. 刀切法重采样Jackknife resampling(大折刀法)

刀切法重采样是一种用于聚类和数据细化的新型回归方法。这种方法不具有典型回归类型的缺点,能为回归问题提供近似但非常准确、抗误差的解决方案,自变量相关或不“服从”正态分布时都可使用。

这种类型的回归很适合黑盒类型预测算法,它非常接近线性回归,没有精度损失,即使传统回归假设(变量不相关、数据正态分布、条件方差恒定)由于数据性质不被接受,它依旧可以使用。

假设样本如下:

4a0fabc19ef2e1bb4a4f3e58dcad1314.png

在概率统计理论中,假设这是一组独立同分布的随机变量,且以下是要研究的数据:

f07a4c1b6407d66dae07a9cb08aa7ffd.png

约翰•图基(John Tukey)在1949年提出的观点(即“大折刀法”)是对一个样本做大量的研究,排除一个观察结果(并返回之前被排除的结果)。下面列出了从原始数据中获得的样本:

6c46cecb8ea3a3d3d7a3bf7440b2fa68.png

每一项都有n个新样本,样本容量为n-1,且都可用来计算计量经济学感兴趣的统计数据的价值(样本容量减1):

701b8008ae0a297b2d461aeef2b4534d.png

通过获得的统计值,可了解其分布和分布的特征,如期望、中值、分位数、散点和均方差。

那么,该使用哪一种回归?

c19ac87d573da3919a4fed6a7f512760.png

· 如果模型需要连续的因变量:

线性回归是最常见和最直接的使用类型。如果有一个连续的因变量,可能要首先考虑线性回归模型。然而,要注意线性回归的几个缺点,如对异常值和多重共线性很敏感。在这种情况下,最好使用更高级的线性回归变体,如岭回归、套索回归和偏最小二乘法回归(PLS)。

· 如果模型需要分类因变量:

应使用逻辑回归。这种模型最适合二元因变量。在进行更复杂的分类建模之前,最好先使用这种模型。分类变量的有些值可以根据特征放入可计数的不同组中。逻辑回归对因变量进行变换,然后使用最大似然估计法而非最小二乘法来估计参数。

· 如果模型需要计数因变量:

应使用泊松回归。计数数据往往遵循泊松分布,因此泊松回归很适合。使用泊松变量可以计算和评估发生率。

b8de87e448850b77b632a12da52ad95e.png

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513690.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

What‘s new in dubbo-go v1.5.6

简介: dubbogo 社区近期发布了 dubbogo v1.5.6。该版本和 dubbo 2.7.8 对齐,提供了命令行工具,并提供了多种加载配置的方式。 作者 | 铁城 dubbo-go 社区 committer 来源 | 阿里巴巴云原生公众号 dubbogo 社区近期发布了 dubbogo v1.5.6。该…

华为彭松:基于C.A.F模型构建联接竞争力,创造新增长

10月19日,第七届全球超宽带高峰论坛(Ultra-Broadband Forum 2021)在迪拜开幕。期间,华为运营商BG Marketing与解决方案销售部总裁彭松发表了题为“联接,新增长”的主题演讲,定义并深入探讨了C.A.F&#xff…

关于写文章的一点经验

简介: 过去的一年,借着《如何画好一张架构图?》、《2020总结(个人篇):关于个人成长的再认知》以及《2020 总结(团队篇):招之即来,来之即战,战之必…

倒计时 3 天!1024 程序员节全日程曝光,105 场深度演讲点燃数字经济新时代

湘江之滨,岳麓山下,一年前,我们于此完成了一场备受业界关注的硬核技术与开源文化深度融合的大型技术大会——长沙中国1024程序员节,国内顶尖技术专家学者齐聚千年书院,九大操作系统掌门人共话开源技术创新、操作系统新…

13新功能_新功能简介|MySQL8.0数据查询脱敏

数据库管理员会负责维护数据的隐私和完整性。针对数据的脱敏,通常的方案是:应用端实现或者引入加密机等。不过现在MySQL8.0实现了数据脱敏这个功能,可以减少应用的复杂性、减少开发的工作量,也能友好的保护了数据的隐私和完整性。…

贝壳基于 Flink 的实时计算演进之路

简介: 贝壳找房在实时计算之路上的平台建设以及实时数仓应用。 摘要:贝壳找房大数据平台实时计算负责人刘力云带来的分享内容是贝壳找房的实时计算演进之路,内容如下: 发展历程平台建设实时数仓及其应用场景事件驱动场景未来规划G…

python动态规划详解_python----动态规划

不能放弃治疗,每天都要进步!! 什么时候使用动态规划呢? 1. 求一个问题的最优解 2. 大问题可以分解为子问题,子问题还有重叠的更小的子问题 3. 整体问题最优解取决于子问题的最优解(状态转移方程) 4. 从上往…

Flink 在唯品会的实践

简介: Flink 在唯品会的容器化实践应用以及产品化经验。 唯品会自 2017 年开始基于 k8s 深入打造高性能、稳定、可靠、易用的实时计算平台,支持唯品会内部业务在平时以及大促的平稳运行。现平台支持 Flink、Spark、Storm 等主流框架。本文主要分享 Flink…

1024 程序员节专题论坛来袭,聚焦企业级开源数据库 openGauss

技术驱动下,现代企业快速发展,产生海量的数据。被称为基础软件三驾马车之一的数据库,一直处于 IT 系统的核心地位,并在技术发展中不断变化。基础数据是“十四五”的重点关注方向,中国数据库正在快速发展崛起&#xff0…

6 张图带你彻底搞懂分布式事务 XA 模式

简介: XA 协议是由 X/Open 组织提出的分布式事务处理规范,主要定义了事务管理器 TM 和局部资源管理器 RM 之间的接口。目前主流的数据库,比如 oracle、DB2 都是支持 XA 协议的。 作者 | 朱晋君 来源 | 阿里巴巴云原生公众号 XA 协议是由 X/O…

龙蜥降世,神龙升级,阿里云投入 20 亿发力操作系统

作者 | 贾凯强、伍杏玲 出品 | CSDN云计算(ID:CSDNcloud)10 月 20 日,阿里巴巴云栖大会继续在杭州进行,与开幕第一天的主论坛不同,第二天活动的主论坛更加聚焦与技术领域和技术实践。20 日上午&#…

连续三年入围 Gartner 容器竞争格局,阿里云容器服务新布局首次公开

简介: 近日,国际知名信息技术咨询机构 Gartner 发布 2021 年容器竞争格局报告,阿里云成为国内唯一连续三年入选的中国企业,产品丰富度与成熟度持续保持全球领先水平。 来源 | 阿里巴巴云原生公众号 近日,国际知名信息…

双向可控硅触发电路图大全

双向可控硅触发电路图一: 为了提高效率,使触发脉冲与交流电压同步,要求每隔半个交流电的周期输出一个触发脉冲,且触发脉冲电压应大于4V,脉冲宽度应大于20us.图中BT为变压器,TPL521-2为光电耦合器&#xff…

视图计算背后的技术架构思考

简介: 5G时代海量视图计算场景,阿里云边缘计算节点聚焦视频上云和处理方向,阿里云高级技术专家为您解读海量视图计算背后的技术与架构能力。 作者:胡帆 数据载体、算力分布正在根本性变化 视频和图片因其强大的信息承载力&…

Graph + AI 2021全球峰会圆满落幕 TigerGraph企业版3.2发布

中国上海,2021年10月22日——由企业级可扩展图分析平台TigerGraph主办的“图创未来无界精彩”Graph AI 2021中国峰会于前日圆满落幕。本次峰会超3500人参与,较往届增长340%,与会者包括来自耐克、特斯拉、联合利华、西门子、通用电气等上百家…

重磅发布 | 阿里云视图计算,边缘计算的主“战”场

简介: 云计算情报局第10期,阿里云产品专家云觉对新产品——视图计算的产品设计背景、产品功能以及应用场景和价值进行了全面的在线揭秘,带领网友探索全新“视”界。 近日云计算情报局第10期,阿里云产品专家云觉对新产品——视图计…

两个对象数组交集_yiduobo的每日leetcode 349.两个数组的交集 amp;amp; 350.两个数组的交集II...

祖传的手艺不想丢了,所以按顺序写一个leetcode的题解。计划每日两题,争取不卡题吧349.两个数组的交集https://leetcode-cn.com/problems/intersection-of-two-arrays/350.两个数组的交集II https://leetcode-cn.com/problems/intersection-of-two-arrays…

flink sql设置并行度_Flink集成Hivestream模式用例

01背景基于前面的文章Flink集成hive bath模式用例knowfarhhy,公众号:大数据摘文Flink 集成Hive,我们继续介绍stream模式下的用例。02流模式读取HiveEnvironmentSettings bsSettings EnvironmentSettings.newInstance().useBlinkPlanner().in…

微软副总裁、Kubernetes 头号贡献者的他,给云原生带来奇迹!

我们做了一个街头采访,调查路人眼中的程序员到底是怎样的?提到程序员,大家似乎都有刻板印象:总是格子衬衫牛仔裤双肩包打扮,总是埋头敲代码,加班是常态……谁说程序员呆板木讷,只会埋头敲一行行…

云原生新边界——阿里云边缘计算云原生落地实践

简介: 日前,在由全球分布式云联盟主办的“Distributed Cloud | 2021 全球分布式云大会云原生论坛”上,阿里云高级技术专家黄玉奇发表了题为《云原生新边界:阿里云边缘计算云原生落地实践》的主题演讲。 作者 | 黄玉奇 来源 | 阿里…