一份关于如何为回归任务选择机器学习算法指南

摘要: 本文总结了一些针对于回归问题的机器学习方法,辩证地分析了其各自的优缺点,读者可以根据具体问题选择合适的机器学习算法以完成相应的任务。

 

01


       当遇到任何类型的机器学习(ML)问题时,可能会有许多不同的算法可供你选择。但是在机器学习中,有一个“没有免费午餐”的定理,该定理表明,基本上没有一种机器学习算法能够对所有问题而言是最合适的。不同机器学习算法的性能很大程度上取决于数据的大小和结构。因此,除非我们直接通过一次次实验和错误来测试我们采取的算法,否则,如何选择正确的算法通常仍然是不清楚的。
       事物总有两面性,每种机器算法也会有一些优点和缺点,我们可以根据其优点和缺点作为选择合适算法的一种指导。虽然一种具体的算法并不总是优于另外一种算法,但我们可以根据每种算法本身具有的一些属性作为快速选择正确算法和调整超参数的指南。本文将分析一些针对回归问题的典型机器算法,并根据其优势和劣势制定何时使用它们的规则。看完这篇文章,应该可以帮助你为回归问题选择出最佳的机器算法!

线性和多项式回归

 

02
线性回归


       从简单的情况开始讲解,单变量线性回归是一种技术,用于使用线性模型对单个输入自变量(特征变量)和输出因变量之间的关系进行建模。更一般的情况是多变量线性回归,其中为多个独立输入变量(特征变量)和输出因变量之间的关系构建模型。该模型保持线性,因为输出是输入变量的线性组合。
       存在第三种最常见的情况被称为多项式回归,其中模型变为特征变量的非线性组合,即等式中可以存在指数变量、正弦项和余弦项等。然而,这种情况需要知道数据如何与输出相关,可以使用随机梯度下降(SGD)算法训练回归模型。

优点

  • 能够快速建模,且当要建模的关系不是非常复杂并且没有大量数据时,该方法特别有用。
  • 线性回归很容易被理解,这对于业务决策而言显得非常有价值。

缺点

  • 对于非线性数据,多项式回归在设计时可能非常具有挑战性,因为必须具有关于数据结构和特征变量之间关系的一些信息。
  • 由于上述原因,当涉及高度复杂的数据时,这类模型不如其它模型好。

神经网络

 

03
神经网络


       神经网络由一组称为神经元的节点相互连接组成。来自数据的输入特征变量作为多变量线性组合传递给这些神经元,其中乘以每个特征变量的值称为权重。然后将非线性应用于该线性组合,这给予神经网络模拟复杂非线性关系的能力。神经网络可以具有多层结构,每一层的输出出以相同的方式传递给下一层。在最后的一层,即输出端,通常不应用非线性。一般使用随机梯度下降(SGD)和反向传播算法训练神经网络模型(如上图所示)。

优点

  • 由于神经网络可以有许多具有非线性的隐藏层,因此它们对于高度复杂的非线性关系建模方面非常有效。
  • 通常, 我们不必担心神经网络中的数据结构,该方法在对任何类型特征变量关系学习时都非常灵活。
           研究表明,简单地为网络提供更多的训练数据,无论是全新的数据,还是增加原始数据集,都有利于提升网络的性能。

缺点

  • 由于这类模型的复杂性,它们不易于解释和理解。
  • 它们在训练时可能具有一定的挑战性,且对计算性能有一定的要求,需要仔细的调整超参数和学习速率的设置。
  • 神经网络方法一般需要大量数据才能获得高的性能,并且在“小数据”情况下通常优于其他的机器算法。

回归树和随机森林

 

04
随机森林


       从基本情况开始说起,决策树是一种直观的模型,遍历树的分支,并根据节点的决定来选择下一个分支。树形导入是将一组训练实例作为输入,决定哪些属性是最佳分割,分割数据集以及在生成的分割数据集上重复操作,直到所有训练实例都被分类务。在构建决策树时,目标是分割创建最纯子节点的属性,这将使我们的数据集中的所有实例分类所需的分割数量保持最小。纯度是通过信息增益的概念来衡量的,信息增益的概念与先前看不见的实例需要了解多少以便对其进行适当分类有关。在实践中,一般是通过比较熵,或者如果要在给定属性上进一步对当前数据集分区进行分区,则对单个实例进行分类的信息量。
       随机森林只是决策树的集合,输入向量通过多个决策树运行。对于回归问题,所有树的输出值是取的平均值;对于分类问题,投票方案用于确定最终类别。

优点:

  • 擅长学习复杂、高度非线性的关系。通常可以实现相当高的性能,优于多项式回归,并且性能通常与神经网络相当。
  • 很容易被理解和理解。虽然最终训练的模型可以学习到复杂的关系,但是在训练期间建立的决策边界很容易理解。

缺点:

  • 由于在决策树训练时,可能很容易出现严重的过度拟合现象。完整的决策树模型可能过于复杂并且包含不必要的结构,这种情况下有时可以通过适当的树枝修剪和更大的随机森林集合来缓解。
  • 使用较大的随机森林集合来实现更高的性能,这会使得训练过程耗时长,且需要更多的内存。

结论

       本文总结了一些针对于回归问题的机器学习方法,辩证地分析了其各自的优缺点。可以根据具体问题选择合适的机器学习算法以完成相应的任务。

 原文链接

本文为云栖社区原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

博文强识|支付宝 App 是如何建设移动 DevOps 的?

作者 | 阿里云云栖社区转自 | CSDN企业博客责编 | 阿秃微软 MSDN 上的一篇文章有这样一段话:“移动应用的理想环境需要满足两个条件,一是可以确切知道客户脑海中立即浮现的需求,二是为了满足这些需求而编写的代码可以立即传递给这…

第一个将Palette Mode引入VVC(H.266),阿里云在JVET会议上引起关注

从应用需求出发,帮助标准组织制定出更贴近云端业务需求的标准 视频压缩标准是一个重要且深具挑战的研究方向。从过去的存储到当前的网络带宽,视频标准每一代的更新进步对科技应用都有很大的影响。但同时随着几十年来的发展,视频压缩标准的效…

kafka集群下载、启动、部署、测试

文章目录一、kafka基础操作1. kafka下载2. 解压3. 重命名4. 在kafka目录下创建 data 数据文件夹5. 修改配置文件6. 配置kafka环境变量7. 刷新环境变量,使之生效二、kafka集群操作2.1. 分发配置好的基础安装包2.2. 登录ly-02服务器,修改配置文件2.3. 登录…

零基础学python难_0基础学python有多难

相对于其他编程语言来说,Python并不是很难,入门简单,容易上手,对于零基础的人来说,入门Python是不难的,但是想要学精学通,则要花费一定的时间和精力。Python是主流的编程语言,应用性…

修改HBase的rowkey设计把应用的QPS从5W提升到50W

摘要: 正确设计Hbase的rowkey可以让你的应用飞起来,前提是你需要了解一些Hbase的存储机制。 UTT是Aliexpress的营销消息运营平台,运营希望促销活动时APP消息推送的QPS达到34W。 UTT刚接入APP消息推送时,QPS只能达到5W&#xff0…

BDTC 2019 | 15场分论坛,10分钟速览,5折票优惠,烧脑模式开启

2019中国大数据技术大会(BDTC)5折优惠票限时抢购啦,学生票仅售599元!扫描上图二维码或登录官网(https://t.csdnimg.cn/KSTh)了解更多最新大会详情。近日,在组委会公布大会部分重磅讲师和前沿议题…

我需要一个高并发的架构,我的系统要改造成微服务吗

摘要: 最近大家都在谈微服务,随着越来越多的在线业务需要提供更大并发的scale-up 和 scale out能力,微服务确实提供了比较好分布式服务的解决方案。 阿里云高级解决方案架构师 杨旭 世界最大混合云的总架构师,4年前,开…

python工作目录_Python目录的基本操作

一、任务描述 本实验任务主要对Python目录进行一些基本操作,通过完成本实验任务,要求学生熟练掌握Python目录的基本操作,并对Python目录的基本操作进行整理并填写工作任务报告。 二、任务目标 1、掌握Python目录的操作 三、任务环境 Ubuntu16…

【建议收藏】数据中心服务器基础知识大全

戳蓝字“CSDN云计算”关注我们哦!作者 | Hardy责编 | 阿秃服务器对每个从事IT工作的人来说并不陌生,但是服务器所涉及的各种知识细节,并非大家都十分清楚,为了让大家深入了解服务器的关键知识点,笔者特意抽时间总结了…

一文了解阿里云CDN HTTP2.0

摘要: 本文由阿里视频云高级技术专家空见撰写,主要介绍HTTP2.0的历史、特性、如何使用和使用之后的性能对比验证。 背景介绍 要了解HTTP2.0,先了解一下HTTP超文本传输协议的历史(HyperText Transfer Protocol)&#…

VMVare 虚拟机使用桥接模式

VMVare 虚拟机使用桥接模式,和物理机使用同一个物理网卡,和物理主机使用同一个段的ip。 文章目录1. VMware 编辑 > 虚拟网络编辑器2. 更改配置3. 编辑名称为VMnet0 的网络4. 编辑虚拟机的网络适配器5. 编辑虚拟机的网络适配器6. 再启动虚拟机1. VMwar…

阿里云基于NVM的持久化高性能Redis数据库

摘要: 背景 Redis作为一款简洁、高效的开源K/V数据库,可以被用于内存缓存、持久化存储等不同场景,大量服务于各类互联网应用。同时也提供了丰富的功能配置,客户可以根据各自业务需求,在读写性能、缓存容量、数据可靠性…

rgss加密文件解包器_Unity AssetBundle高效加密案例分享

这是侑虎科技第585篇文章,感谢作者江鱼供稿。欢迎转发分享,未经作者授权请勿转载。如果您有任何独到的见解或者发现也欢迎联系我们,一起探讨。(QQ群:793972859)作者主页:https://www.zhihu.com/…

阿里云DTS大幅降价,低至400元即可获得实现秒级延迟的数据传输服务

为了释放更多技术红利,进一步普惠广大客户和开发者,阿里云7月上旬宣布数据传输服务(Data Transmission Service,简称DTS) 数据同步功能降价,最高降价幅度高达40%。中国大陆,最低单价低至400元/月,跨境专线同步&#xf…

【又是一波重点】深度解析服务器科普知识 | CSDN博文精选

戳蓝字“CSDN云计算”关注我们哦!作者 | Hardy晗狄转自 | CSDN博客责编 | 阿秃服务器是网络数据的节点和枢纽,是一种高性能计算机,存储、处理网络上80%的数据、信息,负责为网络中的多个客户端用户同时提供信…

Linux下启动/关闭Oracle服务和 oracle监听启动/关闭/查看状态

文章目录一、Linux下启动Oracle 二步曲1)启动监听2)启动数据库实例二、Linux下启动Oracle 实战操作2.1. 登录服务器,切换到oracle用户,或者以oracle用户登录2.2. 打开监听服务2.3. 以SYS用户身份登录Oracle2.4. 通过startup命令启…

【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景

在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测。HDR-BD采用业界领先的数据双向实时复制技术&a…

linux CentOS7 最小化安装环境静默安装Oracle11GR2数据库(安装操作系统环境_01)

文章目录最小化安装 linux CentOS7我使用的镜像包:CentOS-7-x86_64-DVD-1810.iso虚拟机就创建好了 通过方向键选择:install centos 7 回车 直接点击:continue 这里采用自动分区,手动自定义分区请参考 网络设置方式有2种 第一种…

阿里云发布vSphere虚拟机备份服务 ,网络带宽有限条件下依然能有效保护数据

在6月上旬举行的云栖大会上海峰会上,阿里云发布了vSphere虚拟机备份上云服务(HBR for vSphere),并已经在7月份开始邀测。利用混合云备份服务可以将虚拟机镜像备份上云,避免了传统备份方案复杂的软件部署,存…

行!人工智能玩大了!程序员:太扯,阴谋!你怎么看?

人工智能真的玩大了吗?人工智能行业的人才真的“爆发了?”AI程序员究竟怎么样?A与B 薪酬与前景程序员与远方2017年~2018年,是人工智能大火的时候。你会发现,跟朋友聊天不谈人工智能,聊天的bigger都上不去。…