一份关于机器学习端到端学习指南

人工智能、机器学习已经火了有一阵了,很多程序员也想换到这方向,目前有关于深度学习基础介绍的材料很多,但很难找到一篇简洁的文章提供实施机器学习项目端到端的指南,从头到尾整个过程的相关指南介绍。因此,个人在网上搜集到了许多有关于实施机器学习项目过程的文章,深入介绍了如何实现机器学习/数据科学项目的各个部分,但更多时候,我们只需要一些概括性的经验指导。
        在我不熟悉机器学习和数据科学的时候,我曾经寻找一些指导性的文章,这些文章清楚地阐述了在项目的某些步骤时候我需要做什么才能很好地完成我的项目。本文将介绍一些文章,旨在为成功实现机器学习项目提供一份端到端的指南。
        基于此,闲话少叙,下面让我们开始吧
        简而言之,机器学习项目有三个主要部分:第一部分是数据理解、数据收集和清理,第二部分是模型的实现,第三部分是进行模型优化。一般而言,数据理解、收集和清理需要花费整个项目60-70%的时间。为此,我们需要该领域专家。

场景假设

        现在假设我们正在尝试一个机器学习项目。本文将为你提供实施项目可以遵循的步骤指南,确保项目成功。
        在项目开始时,我们的大脑中肯定会出现多个问题:


比如:

  • 如何开始这个项目?需要开发者或者统计学者?
  • 选择何种语言进行开发?数据集是否干净?
  • 各种依赖包是否安装齐全正确?项目问题是回归还是分类问题?
  • 应该采取何种机器学习方法?如何调参?

机器学习项目简单来讲是一种试错过程,整个研究过程和递归过程比较类似,是一种不断试错寻找更优解法的过程。该过程同时也是实践和理论的结合,对相关研究领域的专业知识有所要求,完成每个项目后也会提升个人的战略技能,从事该领域的研究人员需要掌握统计相关的知识以及具备一定的编程能力。最重要的是,机器项目会教会你保持耐心,每做完一次实验后,都会分析实验结果,进而寻找到更优的答案(调参)。

步骤

必须进行的两个步骤:

  • 1.确保你了解机器学习是什么以及它的三个关键领域。可以阅读下面这篇文章:
    8分钟了解机器学习

机器学习是现在,也是未来。所有的技术人员、数据科学家和金融专家可以从中受益,同时,如果上述这些人员在之后的日子不对该项技术有所涉猎的话,很可能会被时代所淘汰。

  • 2.选择合适的编程语言。需要熟练掌握Python,请点击阅读:
    从零开始学python

Python是数据分析和机器学习最流行的编程语言中的一种,并且有很多封装好的工具包可供我们调用,实现起来相对而言比较简单。

开始实施

1.选择合适的机器学习算法。如何选择合适的算法可以参考下面这篇文章:
机器学习算法大乱斗
        现实中,不管是工业界,亦或是学业界,都有大量的机器学习算法可供使用。上述文章中将分析典型的机器学习算法各自的优缺点,及针对的具体问题。
        到目前为止,你可能已经理解了你需要解决的项目问题是有监督问题还是无监督问题。
        然而,机器学习不像经典的程序设计一样(给定一个输入,其输出是固定), 机器学习总有可能找到另外一个正确的答案。比如,预测问题中通常有多个正确的答案。

2.如果这是一个有监督的机器学习问题,那么请确保你了解该项目是回归还是分类问题。想弄清楚这点可以阅读下面这篇文章:
有监督的机器学习:回归与分类
在上述文章中,将阐述有监督学习中回归问题和分类问题之间的关键差异。

3.如果是时间序列回归问题,则在预测时间之前使时间序列数据保持不变。具体做法参考下面这篇文章:
我是如何预测时间序列?
预测、建模和推导时间序列在许多领域越来越受欢迎。时间序列一般用于预测未来。

4.找出一种预先测量算法性能的方法。如何确定评测指标可以参考下面这篇文章:
每个数据科学家必须知道的数学度量方法
每个数据科学家都需要了解大量的数学度量方法,比如准确度、AUC。

5.测量时间序列回归模型的性能。可以参考下面这篇文章:
搭建的预测模型性能有多好——回归分析
预测是计量经济学和数据科学中的一个重要概念,它也广泛用于人工智能中。

6.调查是否需要使用ARIMA模型。详细内容请参考下面这篇文章:
了解差分整合移动平均自回归模型——ARIMA 
在文章“如何预测时间序列?”中,提供了关于时间序列分析的相关概述。这篇文章的核心是了解ARIMA模型。

7.如果是无监督的机器学习问题,那么需要了解群集是如何工作和实施的。详细内容请参考下面这篇文章:
无监督机器学习:聚类和K均值算法
上述文章解释了聚类在无监督机器学习中的工作原理。

8.探索神经网络和深度学习,看看它是否适用于你的问题。详细内容请参考下面这篇文章:
了解神经网络:从激活函数到反向传播
上述文章旨在阐述神经网络的基本概述,讲解基本概念,包含激活函数、反向传播算法。

9.丰富你的特征集合,对其进行缩放、标准化和归一化等。详细内容请参考下面这篇文章:
处理数据以提高机器学习模型的准确性
有时我们会建立一个机器学习模型,用我们的训练数据训练它,当我们训练好后进行预测时,效果并不是很理想,有部分原因是数据集存在脏数据或不够全面,因此需要对数据进行进一步的处理,比如数据清洗、增强等。

干净的数据=良好的结果。

10.减少特征尺寸空间。详细内容请参考下面这篇文章:
在数据科学中,什么是降维?
虽然现在是大数据时代,有很多的数据可供使用,大量数据可以促使我们创建一个预测模型,但数据量不是越大越好,而是越精越好。

如果在丰富特征并减小尺寸后,模型没有产生准确的结果,那么需要重新调整模型的参数。

11.微调机器学习模型参数。详细内容请参考下面这篇文章:
[如何微调机器学习模型以提高模型的预测准确性?]()
微调机器学习预测模型是提高预测结果准确性的关键步骤。这个过程有些枯燥,需要一些耐心和运气。

始终确保模型不会过拟合或欠拟合。

12.最后,重复这些步骤,直到获得准确的结果:

  1. 丰富模型特征;
  2. 微调模型参数;

 

始终对数据集进行分析,看看是否缺少任何的重要信息,在看到问题时解决问题,但在开始进行新的实验前,始终需要备份并保存你前一份的工作内容,这是一个好的习惯么,因为你可能需要返回上一步再一次进行其它的实验。

机器学习在本质上是回溯过程。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519946.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从NeurIPS 2018看AI发展路线!

去年9月份的时候,我发表过一份技术报告,阐述了我认为人工智能最重要的挑战,大概有以下四个方面: 可伸缩性(Scalability)计算或存储的成本不与神经元的数量成二次方或线性比例的神经网络; 持续…

2亿用户背后的Flutter应用框架Fish Redux

背景 在闲鱼深度使用 Flutter 开发过程中,我们遇到了业务代码耦合严重,代码可维护性糟糕,如入泥泞。对于闲鱼这样的负责业务场景,我们需要一个统一的应用框架来摆脱当下的开发困境,而这也是 Flutter 领域空缺的一块处…

打包上传web html,将webApp打包上传到App Store

将webApp打包上传到Appstore流程:先将html5写好的webApp通过html5编辑器Builder打包为ipa包,打包流程下图image发行为原生安装包后如图所示:image咋们发行的是iOS版本,所以最上面一栏选者iOS,支不支持iPad版本看自己需求&#xff…

国内首家!华为获5G核心网电信设备进网许可证;亚马逊或颠覆博通等芯片制造商?2020年5G总投资额达0.9万亿元……...

关注并标星星CSDN云计算 速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周两次,打卡即read更快、更全了解泛云圈精彩newsgo go goiPhone 12全系渲染图(图片来源网络&am…

老代码多=过度耦合=if else?阿里巴巴工程师这样捋直老代码

简介 在业务开发的过程中,往往存在平台代码和业务代码耦合严重难以分离、业务和业务之间代码交织缺少拆解的现象。平台和业务代码交织导致不易修改,不同业务的代码交织增加了不同负责团队之间的协同成本。因此不论从代码质量,还是从团队协作…

阿里高级技术专家:研发效能的追求永无止境

背景 大约在5年前,也就是2013年我刚加入阿里的时候,那个时候 DevOps 的风刚吹起来没多久,有家公司宣称能够一天发布几十上百次,这意味着相比传统软件公司几周一次的发布来说,他们响应商业需求的能力可以甩后者几条街&…

就因为一个笔记本,运营和产品吵得不可开交......

上班最讨厌的一件事情,莫过于开会,因为每次开会感觉就要吵架,这个今天开会又吵架了,吵架竟然是因为产品小姐姐的笔记本。产品小姐姐用了一本可擦笔记本记录会议内容,运营小姐姐竟然说这个本子有什么用,不就…

Spring Boot 配置SSL 实现HTTPS

文章目录1. 简介2. 证书生成3. 证书引入4. 创建测试index5. 配置6. 创建配置类7. 创建控制器测试8. 浏览器验证1. 简介 传输层安全性协议(英语:Transport Layer Security,缩写作 TLS),及其前身安全套接层 &#xff08…

一幅GAN网络创造的肖像图卖了40万美金,但那又怎样?

在2018年一场著名的拍卖会上,一部AI制作的肖像以432,500美元的价格成交!这篇新闻在科技媒体上被广泛讨论,有些人认为这一事件对人类艺术家构成了威胁。其实,这只是深度学习快速发展中众多不可思议的案例中的一个,这些故…

PyTorch可视化理解卷积神经网络

如今,机器已经能够在理解、识别图像中的特征和对象等领域实现99%级别的准确率。生活中,我们每天都会运用到这一点,比如,智能手机拍照的时候能够识别脸部、在类似于谷歌搜图中搜索特定照片、从条形码扫描文本或扫描书籍…

区块链工程师平均薪资 25~50k?6 个理由告诉你为什么要懂区块链!

作者 | Carol出品 | 区块链大本营(blockchain_camp)* 文末可参与抽奖活动!如果说有一个什么领域,能让中科院、华为、腾讯、京东、360、微众银行的大咖汇聚在一起,那一定是——区块链。悄咪咪地给大家剧透一下&#xff…

SpringBoot Controller接收参数的几种常用方式

第一类:请求路径参数 1、PathVariable 获取路径参数。即url/{id}这种形式。 2、RequestParam 获取查询参数。即url?name这种形式 例子 GET http://localhost:8080/demo/123?namesuki_rong 对应的java代码 GetMapping("/demo/{id}") public void demo…

NLP度量指标BELU真的完美么?

刚接触自然语言处理的朋友通常会问我:当系统的输出是文本,而非对输入文本进行某种分类,如何对该系统进行评估。当模型的输入是文本信息,输出也是文本信息时,我们称之为序列到序列问题,也可称为字符串转换问…

开放华为30年研发能力与实践 助力DevOps真正落地

戳蓝字“CSDN云计算”关注我们哦!作者 | 刘丹受访者 | 汪维敏出品 | CSDN云计算(ID:CSDNcloud)高速的中子撞击U235原子核,使其分裂成两个原子核,释放出巨大能量,同时产生的几个中子再去撞击其它…

Euler 今日问世!国内首个工业级的图深度学习开源框架,阿里妈妈造

千呼万唤始出来!阿里妈妈正式公布重磅开源项目——图深度学习框架Euler。这是国内首个在核心业务大规模应用后开源的图深度学习框架。此次开源,Euler内置了大量的算法供用户直接使用,相关代码已经可在GitHub上进行下载。 图学习和深度学习都…

天啦噜!在家和爱豆玩quot;剪刀石头布quot;,阿里工程师如何办到?

如今,90、00后一代成为消费主力,补贴、打折、优惠等“价格战”已很难建立起忠诚度,如何与年轻人建立更深层次的情感共鸣?互动就是一种很好的方式,它能让用户更深度的参与品牌/平台呈现的内容,提供更深层的参…

查看计算机或网络资源列表的命令,dos命令net view图文教程,显示网络计算机列表查看共享资源...

大家好,我是老盖,首先感谢观看本文,本篇文章做的有视频,视频讲述的比较详细,也可以看我发布的视频。今天我们学习net命令中的view,它这个命令可以查看网络计算机列表和共享的资源。直接输入net view可以看到…

使用Opencv构建一个简单的图像相似检测器(MSE、SSIM)

介绍 作为人类,我们通常非常善于发现图像中的差异。例如,常见的游戏——两张图像找不同。现在让我们玩下这个游戏吧,首先让我们看看上面的图像,三十秒内看看是否能够从中找出有什么不同的地方。 答案:水果、冰淇淋和…

云+X案例展 | 民生类:云途腾助力城建开启智慧城轨新征程

本案例是由云途腾投递并参与评选,CSDN云计算独家全网首发;更多关于【云X 案例征集】的相关信息,点击了解详情丨挖掘展现更多优秀案例,为不同行业领域带来启迪,推动整个“云行业”的健康发展。2019年7月,城建…

关于开源分布式事务中间件Fescar,我们总结了开发者关心的13个问题

开源分布式事务中间件 Fescar 自1月10日上线v0.1版本以来,受到了开发者们的极大关注(watch249,star3005,fork649,社区讨论的issue58,数据统计于1月17日14:00),可见,天下苦…