应用监督式学习

监督学习

定义:监督式学习算法接受已知的输入数据集合(训练集)和已知的对数据的响应(输出),然后训练一个模型,为新输入数据的响应生成合理的预测。监督学习技术可分成分类或者回归的形式。

  • 分类:技术预测离散的响应。例如,电子邮件是真正邮件还是垃圾邮件,肿瘤是小块、中等还是大块。分类模型经过训练后,将数据划分成类别。应用软件包括医学成像、语音识别和信用评分。分类问题分为:

    • 二元分类问题,单个训练或测试项目(实例)只能分成两类。例如,如果您想确定电子邮件是真正邮件,还是垃圾邮件。
    • 多类分类问题,可以分成多个类。例如,如果您想训练一个模型,将图像分类为狗、猫或其它动物。

      多类分类问题一般更具挑战性,因为需要比较复杂的模型。

  • 回归:预测连续的响应。例如,电力需求中温度或波动的变化。应用软件包括预测股价、笔迹识别和声信号处理。


分类算法

逻辑回归

  • 工作原理:适合可以预测属于一个类或另一个类的二元响应概率的模型。因为逻辑回归比较简单,所以常用作二分类问题的起点。

  • 适用场景

    • 当数据能由一个线性边界清晰划分时
    • 作为评估更复杂分类方法的基准
  • 示意图

    线性回归

k最近邻(kNN)

  • 工作原理:kNN 根据数据集内类的最近邻关系划分对象的类别。kNN预测假定相互靠近的对象是相似的。距离量度(如欧氏距离、绝对值距离、夹角余弦和 Chebychev 距离)用来查找最近邻。

  • 适用场景:当您需要简单算法来设立基准学习规则时

    • 当无需太关注 训练模型的内存使用时
    • 当无需太关注 训练模型的预测速度时

支持向量机 (SVM)

  • 工作原理:通过搜索能将全部数据点分割开的判别边界(超平面)对数据进行分类。当数据为线性可分离时,SVM 的最佳超平面是在两个类之间具有最大边距的超平面。如果数据不是线性可分离,则使用损失函数对处于超平面错误一边的点进行惩罚。SVM 有时使用核变换,将非线性可分离的数据变换为可找到线性判定边界的更高维度。

  • 适用场景

    • 适用于正好有两个类的数据(借助所谓的纠错输出码技术,也可以将其用于多类分类)
    • 适用于高维、非线性可分离的数据
    • 当您需要一个简单、易于解释、准确的分类器时

神经网络

  • 工作原理:受人脑的启发,神经网络由高度互连的神经元网络组成,这些神经元将输入与所需输出相关联。通过反复修改联系的强度,对网络进行训练,使给定的输入映射到正确的响应。

  • 适用场景

    • 适用于高度非线性系统建模
    • 当数据逐渐增多,而您希望不断更新模型时
    • 当您的输入数据可能有意外变动时
    • 当模型可解释性不是主要考虑因素时

朴素贝叶斯

  • 工作原理:朴素贝叶斯分类器假设类中某一具体特征的存在与任何其他特征的存在不相关。根据数据属于某个特定类的最高概率对新数据进行分类。

  • 适用场景

    • 适用于包含许多参数的小数据集
    • 当您需要易于解释的分类器时
    • 当模型会遇到不在训练数据中的情形时,许多金融和医学应用就属于这种情况
  • 示意图

判别分析

  • 工作原理:判别分析通过发现特征的线性组合来对数据分类。判别分析假定不同的类根据高斯分布生成数据。训练判别分析模型涉及查找每个类的高斯分布的参数。分布参数用来计算边界,边界可能为线性函数或二次函数。这些边界用来确定新数据的类。

  • 适用场景

    • 当需要易于解释的简单模型时
    • 当训练过程中的内存使用是需要关注的问题时
    • 当您需要快速预测的模型时

决策树

  • 工作原理:利用决策树预测对数据响应的方法是,按照树中根节点(起始)到叶节点的顺序自上而下地决策。树由分支条件组成,在这些条件中,预测元的值与训练的权重进行比较。分支的数量和权重的值在训练过程中确定。附加修改或剪枝可用来简化模型。

  • 适用场景

    • 当需要易于解释和快速拟合的算法时
    • 最小化内存使用
    • 当不要求很高的预测准确性时

Bagged和Boosted决策树

  • 工作原理:在这些集成方法中,几个“较弱”的决策树组合成一个“较强”的整体。

    • 袋装决策树由根据从输入数据中自举的数据进行独立训练的树组成。
    • 促进决策树涉及创建一个强学习器,具体方法是,迭代地添加“弱”
      学习器并调节每个弱学习器的权重,从而将重点放在错误分类的
      样本
  • 适用场景

    • 当预测元为无序类别(离散)或表现非线性时
    • 当无需太关注训练一个模型所用时间时

回归算法

线性回归

  • 工作原理:线性回归是一项统计建模技术,用来描述作为一个或多个预测元变量的线性函数的连续应变量。因为线性回归模型解释简单,易于训练,所以通常是第一个要与新数据集拟合的模型。

  • 适用场景

    • 当需要易于解释和快速拟合的算法时
    • 作为评估其他更复杂回归模型的基准

非线性回归

  • 工作原理:非线性回归是一种有助于描述实验数据中非线性关系的统计建模技术。通常将非线性回归模型假设为参数模型,将该模型称为非线性方程。“非线性”是指一个拟合函数,它是多个参数的非线性函数。例如,如果拟合参数为b0、b1和b2:方程式y = b0+b1x+b2x2是拟合参数的线性函数,而 y = (b0xb1)/(x+b2) 是拟合参数的非线性函数。
  • 适用场景
    • 当数据有很强的非线性趋势,不容易转化成线性空间时
    • 适用于自定义模型与数据拟合

高斯过程回归模型

  • 工作原理:高斯过程回归 (GPR) 模型是非参数模型,用于预测连续应变量的值。这些模型广泛用于对存在不确定情况下的插值进行空间分析的领域。 GPR 也称为克里格法 (Kriging)。
  • 适用场景
    • 适用于对空间数据插值,如针对地下水分布水文地质学数据
    • 作为有助于优化汽车发动机等复杂设计的替代模型

SVM 回归

  • 工作原理:SVM 回归算法类似于 SVM 分类算法,但经过改良,能够预测连续响应。不同于查找一个分离数据的超平面, SVM 回归算法查找一个偏离测量数据的模型,偏离的值不大于一个小数额,采用尽可能小的参数值(使对误差的敏感度最小)。
  • 适用场景:适用于高维数据(将会有大量的预测元变量)

广义线性回归

  • 工作原理:广义线性模型是使用线性方法的非线性模型的一种特殊情况。它涉及输入的线性组合与输出的非线性函数(连接函数)拟合。
  • 适用场景:当应变量有非正态分布时,比如始终预期为正值的应变量

回归树

  • 工作原理:回归的决策树类似于分类的决策树,但经过改良,能够预测连续响应。
  • 适用场景:当预测元为无序类别(离散)或表现非线性时

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信用卡逾期成黑户,不良记录会背一辈子吗?

黑户不良记录是否会倍一辈子,关键在于你怎么选择。你可以选择背5年,也可以选择背一辈子!首先给大家一个安慰,信用卡逾期不等于黑名单,所谓黑名单只是银行的一种说法,一般连续逾期3个月以上才会被银行关进小…

傅里叶级数和傅里叶变换

傅里叶级数和傅里叶变换 傅里叶变换,表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。

信用卡逾期,违约金和利息忘还了会怎么样?

违约金和利息忘还了,那将面临两个问题:一个是继续面临罚息和违约金;另一个是征信会逾期,给你征信造成不良影响。先说下罚息和违约金。如果你逾期之后把本金还清了,但是忘了还违约金和罚息,那你的还款是有一…

Liveness 探测 - 每天5分钟玩转 Docker 容器技术(143)

Liveness 探测让用户可以自定义判断容器是否健康的条件。如果探测失败,Kubernetes 就会重启容器。 还是举例说明,创建如下 Pod: 启动进程首先创建文件 /tmp/healthy,30 秒后删除,在我们的设定中,如果 /tmp/…

MPC模型预测控制

MPC模型预测控制 模型预测控制(MPC)是一类特殊的控制。它的当前控制动作是在每一个采样瞬间通过求解一个有限时域开环最优控制问题而获得。过程的当前状态作为最优控制问题的初始状态,解得的最优控制序列只实施第一个控制作用。这是它与那些使用预先计算控制律的算…

数据不平衡分类问题

引言不平衡分类问题是指训练样本数量在类间分布不平衡的模式分类问题。在实际应用中,不平衡问题很常见。有些问题其原始数据的分布就存在不平衡,如通过卫星雷达图片检测海面石油油污、监测信用卡非法交易、发掘基因序列中编码信息以及医学数据分类等。 所…

蚂蚁金服上市后,借呗额度会大幅提升吗?

我个人觉得蚂蚁金服上市之后,部分用户的借呗额度会提升,被关闭的借呗用户,大部分人应该会重新放开。我们首先来了解一下,为什么蚂蚁金服之前为什么蚂蚁金服对部分用户进行降额或关闭处理。1、监管政策从去年开始,监管部…

富人为什么会富,穷人为什么穷?看完你就懂

说到富人为什么会富?可能很多人首先会想到的是继承家产,也就是大家所说的富二代,因为有家里的支持,所以很多人更容易取得成功。但是我们通过对2017年胡润财富榜进行分析发现,在大中华区上榜的819人当中,只有…

征信查询过多,小心变成贷款黑户!

关于贷款和征信之间的关系,这里有一件事情要郑重说明:征信硬查询次数过多,小心变成贷款黑户!为何征信硬查询会有如此大的影响?征信查询次数越多,表明了该人财务状况不佳,贷款机构每一次受理借款…

硬件入门设计

硬件入门设计 常见器件的选型 电阻器器件选型 电阻选型需要注意的参数:阻值、封装、功耗、精度。 电阻选型技巧: 确定电阻安装方式确定电阻阻值。:根据电路计算取值、根据电阻数据手册取值、根据积累经验取值。选择封装和功耗选择电阻精度…

信用卡逾期三个月以上不还?小心坐牢!

最近有个网友反映,他的信用卡逾期了三个多月,最近银行寄来了法院的传票,所以他担心自己是不是要坐牢了。用卡逾期三个月是否要坐牢,最关键的一点是你的信用卡透支是否构成信用卡诈骗罪。一、如何判定是否构成信用卡诈骗罪&#xf…

为什么余额宝要不断限制用户购买?

我们都知道余额宝收益高,也很安全,被盗了还有保险赔,深得老百姓的支持,可是为什么余额宝一再被压缩限制呢?我觉得主要有两个方面的原因。一是监管余额宝属于货币基金,近年来得到了迅速发展,目前…

注意!这些行为将会影响征信

最近,网上热帖列出多种影响个人征信的行为。比如多次查询征信,信用卡取现或是到电商小额贷款公司贷款等,那这些行为真的会影响个人征信呢?使用网络贷款产品有热帖爆料,使用蚂蚁“花呗”,微信“微粒贷”&…

古代的房价跟现在比怎么样?50万能在唐朝买个茅厕吗?

古代的房价跟现在比怎么样?50万能在唐朝买个茅厕吗?现在的房价高不可攀,很多人只能望房兴叹,甚至有的朋友想穿越回到古代,花几千块钱就能住上豪宅!那古代的房价真的有那么便宜吗?跟现代比怎么样…

BP网络详解

概述神经网络是由大量简单的处理单元来模拟真实人脑神经网络的机构和功能以及若干基本特性,是一个高度复杂的非线性自适应动态处理系统。按照连接模式,神经网络模型可分为前馈式神经网络和反馈式神经网络,BP网络属于前馈式。 BP算法的提出&am…

Readiness 探测 - 每天5分钟玩转 Docker 容器技术(144)

除了 Liveness 探测,Kubernetes Health Check 机制还包括 Readiness 探测。 用户通过 Liveness 探测可以告诉 Kubernetes 什么时候通过重启容器实现自愈;Readiness 探测则是告诉 Kubernetes 什么时候可以将容器加入到 Service 负载均衡池中,对…

波 特 图

波 特 图 伯德图是系统频率响应的一种图示方法。伯德图由幅值图和相角图组成,两者都按频率的对数分度绘制,故伯德图常也称为对数坐标图。 利用伯德图可以看出在不同频率下,系统增益的大小及相位,也可以看出增益大小及相位随频率变…

CNN相关知识总结

CNN简介卷积神经网络(Convolutional Neural Network,CNN)是一种深度的监督学习下的机器学习模型,具有极强的适应性,善于挖掘数据局部特征,提取全局训练特征和分类,它的权值共享结构网络使之更类…

被冻结的钱,银行可以私自处理吗?

被冻结的钱,具体要看是什么原因造成的,不同的原因被冻结的钱处理方式是不一样的。首先需要说明的是,银行是没权利私自冻结用户的银行账户,或者私自处理冻结账户的钱,只有被相关执法机构要求冻结并处理,或者…

银行员工会购买自己银行的理财产品吗?

大家去银行的时候是不是经常看到银行工作人员给你推销理财产品?为什么银行这么积极推销理财产品呢?他们会自己购买所推销的理财产品吗?银行工作人员之所以积极推销理财,最根本的原因是银行缺钱,而且银行每个员工几乎都…