如何在机器学习项目中使用统计方法的示例

摘要: 在本文中,将通过十个实例介绍在机器学习项目中起关键作用的统计学方法。

统计学和机器学习是两个密切相关的领域。两者的界限有时非常模糊,例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目中的问题。事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。

在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。这将证明,统计学的有效知识对解决预测建模问题是必不可少的。

10-Examples-of-Where-to-Use-Statistical- 

1、问题框架

 

在预测建模问题中,影响最大的可能就是问题框架了。它要对问题类型做不同的选择,例如选择回归或分类,以及问题的输入输出的结构和类型。

问题框架并不总是显而易见的。对于该领域的初入门者,需要对领域的观察发现结果进行深入研究。而对于那些总是从传统角度看待问题的领域专家来说,则需要从多角度考虑数据。

在构思问题框架时统计学方法能够帮助探索数据,包括:

·探索性数据分析:通过总结和可视化探索数据的ad hoc视图。

·数据挖掘:自动发现数据中的结构化关系和模式。

 

2、数据理解

 

数据理解意味着要对变量的分布和变量之间的关系有一个深入的了解。这些知识有些来自领域的专业知识,或者需要专业知识来解释。然而,不论是领域专家还是新手都是从这个领域的观察资料中获益。

统计方法的两大分支可用于帮助理解数据:

·汇总统计:该方法使用统计量总结变量之间的分布和关系。

·数据可视化:该方法使用可视化方法(如图解、散点图、曲线图)来总结变量之间的分布和关系。

 

3、数据清理

 

通过直接观察发现的成果,往往不能作为最原始的数据。因为尽管数据是数字化的,它还是会受到进程的影响损害数据保真度,并且反过来这些数据还会对下游进程或模型造成影响。

一些例子包括:

·数据损坏。

·数据错误。

·数据丢失。

识别和修复数据问题的过程被称为数据清理。

统计学中有些方法可用来进行数据清理,例如:

·异常点检测:识别分布中远离预期值的异常值。

·归责:修复或填充观察结果中的损坏值或缺失值。

 

4、数据选择

 

在建模时,并非所有的观察值或所有的变量都是相关的。

将数据范围不断缩小,直到剩余元素对预测结果最有效的过程称为数据选择。

用于数据选择的两种统计方法为:

·数据样本:系统地从较大数据集中创建小的具有代表性的样本。

·特征选择:自动识别与输出结果最相关的变量。

 

5、数据准备

 

通常数据是不能直接用于建模的。所以为了匹配已选好的问题框架或学习算法,要对数据进行一些转换来改变数据的形状或结构。

可使用以下统计方法进行数据准备:

·扩展:如标准化、规范化等方法。

·编码:类似整数编码和热编码的方法。

·变换:类似Box-Cox方法那样的功率转换方法。

 

6、模型评估

 

预测建模问题的关键是评估学习方法,当在训练模型中对没见过的数据进行预测时,需要对模型的技能进行评估。这种训练和评估预测模型的过程称为实验设计。

·实验设计:该方法能够通过设计系统实验来比较独立变量对输出结果的影响,如机器学习算法的选择对预测精度的影响。

有些实验设计的方法可以重新采样数据集,从而更经济的使用数据来预估模型技能。

·重采样方法:为了训练和评估预测模型,系统地将数据集分成子集的方法。

 

7、模型配置

 

一个给定的机器学习算法通常具有一套超参数,通过超参数实现对特定问题量身定制学习方法。超参数的配置本质上是经验性的而不是分析性的,所以需要大量实验来评估不同超参数值对模型技能的影响。

使用统计的两个子领域之一对不同超参数配置之间的结果进行解释和比较,即:

·统计假设检验:该方法能在给定结果的假设或预期的情况下,量化观察结果的可能性。

·估算统计:能够用置信区间量化结果的不确定性。

 

8、模型选择

 

众多机器学习算法中的某一个也许刚好适用于给定的预测建模问题。所以,选择一种方法作为解决方案的过程称为模型选择。这可能会涉及到一套标准,不仅要考虑项目利益相关方,还有对问题评估方法预测技巧的要求。

可以使用与模型配置一样的两类统计方法来解释不同模型的估算技能,即:统计假设检验和估算统计方法,从而实现模型选择。

 

9、模型表示

 

一旦最终模型得到训练,那它基于真实数据部署后就可以进行实际预测,并呈现出最终结果。

最终,模型表示的一部分包括展示模型的评估技能。

估计统计领域的一些方法可以通过使用容忍区间和置信区间,达到量化机器学习模型评估技能的不确定性。

·估计统计。该方法通过置信区间量化模型技能的不确定性。

 

10、模型的预测

 

最后,是时候使用最终模型对我们不知道的真实结果预测新数据了。预测中非常重要的一部分是量化预测的可信度。

我们可以使用与模型表示一样的估计统计方法来量化这种不确定性。

 

总结

 

通过本文,你应该了解到了统计方法在整个预测建模项目过程中的重要性。

 

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《10 Examples of How to Use Statistical Methods in a Machine Learning Project》

作者:Jason Brownlee

译者:奥特曼,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

 

原文链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云服务器 文件服务,云服务器文件服务

云服务器文件服务 内容精选换一换远程桌面协议(Remote Desktop Protocol,RDP),是微软提供的多通道的远程登录协议。本节为您介绍如何使用RDP文件远程登录Windows云服务器。从管理控制台下载的RDP文件对应唯一的云服务器,当前RDP文件命名规则为…

(需求实战_03) SpringBoot整合RabbitMQ 关键代码、策略、模式讲解

这篇主讲管控台和测试 文章目录一、管控台配置1. 创建交换机2. 创建队列3. 交换机绑定队列4. 交换机查看绑定关系5. 队列查看绑定关系二、项目准备2.1. 启动测试方法2.2. 清空控制台2.3.一、管控台配置 1. 创建交换机 2. 创建队列 3. 交换机绑定队列 4. 交换机查看绑定关系…

c++ vector 初始化_什么?还不懂c++vector的用法,你凭什么勇气来的!

作者:良知犹存转载授权以及围观:欢迎添加微信公众号:羽林君前言今天继续肝C,一入C深似海。越学越有意思。今天给大家带来一篇cvector的介绍,难以置信这篇文章写了我三天,不过总算整理完毕,现在分…

突发!Python再次卫冕,Java和C下降,你怎么看?

2019年转眼已经大半,在近几个月的榜单中,Python已经走上卫冕的道路,并且与Java的差距拉得更远了一些。以往与Java常呈现你追我赶之势,而这一次则是直接相差了近10%!Python的火,有目共睹。Python陆续登上了I…

NLP产品级系统设计模式

摘要: 在本文中,作者从六个方面描述了一些生产NLP系统的常见设计和部署模式。这些是团队为了使产品开发与技术、业务、战略和操作目标保持一致而必须做出的选择或权衡。 摘要:在本文中,作者从六个方面描述了一些生产NLP系统的常见…

2个vector如何合成一个_面试中如何做到不卑不亢,牢记2个要点

文│叨叨HR那点事(文章原创,版权归本作者所有,欢迎个人转发分享)面试的时候什么态度和面试官沟通?这个问题,就像一千个人眼里有一千个哈姆雷特一样,人人都有自己的意见和看法。有人说,面试嘛,当…

机器学习到底是什么?

摘要: 机器学习到底是什么东东?了解一下! 关于机器学习最简单的定义来自于Berkeley所表述的:机器学习是AI的一个分支,它探索了让计算机根据经验提高效率的方法。 为了更深刻的理解这一定义,接下来我们将对其进行拆分…

修改服务器时间报错,修改服务器时间linux

修改服务器时间linux 内容精选换一换IPv6的使用,可以有效弥补IPv4网络地址资源有限的问题。如果当前云服务器使用IPv4,那么启用IPv6后,云服务器可在双栈模式下运行,即云服务器可以拥有两个不同版本的IP地址:IPv4地址和…

windows 反弹shell_容器内反弹shell的51种姿势

什么是反弹shell?反弹shell(reverse shell),就是控制端监听在某TCP/UDP端口,被控端发起请求到该端口,并将其命令行的输入输出转到控制端。reverse shell与telnet,ssh等标准shell对应,本质上是网络概念的客户…

使用Vue.js开发微信小程序:开源框架mpvue解析

戳蓝字“CSDN云计算”关注我们哦!作者 | 成全责编 | 阿秃转自 | 美团技术团队企业博客前言mpvue是一款使用Vue.js开发微信小程序的前端框架。使用此框架,开发者将得到完整的 Vue.js 开发体验,同时为H5和小程序提供了代码复用的能力。如果想将…

高并发下Java多线程编程基础

摘要: Java线程同步与异步 线程池 无锁化的实现方案 分布锁的实现方案 分享的目的: 进一步掌握多线程编程和应用的技巧,希望对大家在平时的开发中应对高并发编程有所帮助 Java线程同步与异步 1. 同步相关的方法有 wait, notify, notifyAll 2.…

deebot扫地机器人怎么清洁_扫地机器人清洁力拼杀,科沃斯机器人DEEBOT N3与小米1S对比评测...

“偷懒是第一生产力”,这句看似玩笑的话细细品味起来似乎还是有点道理,扫地机器人产业的逐渐兴盛又一次验证科技改变人们的生活方式。我自己生活中很少有时间去清扫地面,而且我是个很容易制造垃圾的人,几天不扫家里就脏乱的无法直…

机票分享第一篇 机票由何而来

要: 遥想05年刚加入飞猪,有同学问我机票搜索是怎么做的,一时间不知如何回答。转眼三年过去,为了给自己一个交代,抽时间把所负责的业务、系统、心得加以总结,才有了这几篇机票分享的文章。由于所用的技术、架…

java 获取ip地址_老杜带你学Java【第二课】

上期链接:老杜带你学Java【第一课】01写在前面欢迎来到杜老师的「零基础学Java」课堂~今后,我们就是Java软件工程师了。(此处应该有掌声???)本专题为《零基础学Java》专题,将带你学习2020年全新Java零基础教程,由杜老师亲自录制…

【光说不练假把式】今天说一说Kubernetes 在有赞的实践

戳蓝字“CSDN云计算”关注我们哦!作者 | 木鱼 on基础保障责编 | 阿秃一、背景我们为什么选择 Kubernetes?因为 Kubernetes 几乎支持所有的容器业务类型,包括无状态应用、有状态应用、任务型和 Daemonset,Kubernetes 也逐渐成为容…

Apache旗下顶级开源盛会 HBasecon Asia 2018将于8月在京举行

摘要: 作为Apache基金会旗下HBase社区的顶级用户峰会,HBaseCon大会是Apache HBase™官方从2012年开始发起和延续至今的技术会议,先后在美国加州、日本东京和中国深圳等地举办,得到了Google、Facebook、雅虎和阿里巴巴等众多全球顶…

r语言查找是否存在空值_关于R包安装你知道多少?

在R语言的学习过程中离不了各种R包的安装与使用,要使用某个R包首先得学会如何安装该R包。对于R包的安装你知道的有多少?你知道如何指定安装路径吗?为何你每次重新打开R绘画都需要重新安装R包?今天小编带你详细理解install.package…

深入理解JAVA虚拟机学习笔记(一)JVM内存模型

摘要: 上周末搬家后,家里的宽带一直没弄好,跟电信客服反映了N遍了终于约了个师傅明天早上来迁移宽带,可以结束一个多星期没网的痛苦日子了。这段时间也是各种忙,都一个星期没更新博客了,再不写之前那种状…

oracle schema_了解Oracle备份恢复的知识

Oracle架构体系警报日志(alter log):一个文本日志文件,记录数据库的错误和状态信息,通常情况下,警报日志位于后台转存目标目录中,该目录有数据库参数DIAFNOSTIC_DEST定义的,其中警报日志的格式为alter.log。…