[转人工智能工程师学习路线及具备的5项基本技能

原文地址:http://blog.csdn.net/BaiHuaXiu123/article/details/52478853

 

摘要

学习路线

这里写图片描述

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光率和关注度。机器学习已经以一种高调姿态闯入广大民众的意识当中,无论是采用机器学习等相关技术的Google AlphaGo以5局4胜的战绩打败人类世界的围棋冠军,还是采用了机器学习技术的Twitter能够鉴定是否你在酩酊大醉的时候发布了推文,无论你通过怎样的方式发现并知道机器学习技术的存在,有一件事不言而喻:机器学习的时代已经到来。 
这里写图片描述

尽管机器学习技术看起来这般神器,但是对于机器学习技术的好奇心是一码事儿,而想要让该技术在相关产业当中发挥作用实际上又是另外一码事儿。这篇文章将会帮助你了解作为一名机器学习工程师具备怎样的思维方式以及需要什么样的专业技能才可以开展工作。 
如果你正在考虑投身机器学习工程师的职业生涯,那么在一开始的时候,你必须弄清楚两件非常重要的事情。首先,机器学习工程师的岗位并不是一个“纯粹的”学术角色,你不需要具备科学研究经验或者专业的学术教育背景。其次,如果你仅仅具备软件工程师的能力或者仅仅具备数据科学的经验还远无法成为一名合格的机器学习工程师,除非你同时掌握以上两方面的技术经验。

数据分析 Vs. 机器学习工程师

如果想成为一名机器学习工程师,那么你必须弄清楚前者和数据分析师之间的区别,而且这非常重要。简单来讲,两者之间最为关键的区别就是他们最终的目标大相径庭。作为一位数据分析师,你的主要职责就是分析数据,并从这些抽象的数据当中提炼出具体的能让大家明白的故事,并从中产生具有可行性的洞察。数据分析工作的重点就是向公众传播并展示图表、模型已经可视化效果。数据的分析和展示由人类执行,并且其他人会根据你展示的数据做出商业决策。尤其是这一点必须引起你足够的重视——你数据分析后产生的结果的“受众”是人。但是从机器学习工程师的角度来看的话,他们最终输出的结果是一种可以工作的软件(而不是你一路以来创建的分析结果或者可视化图形),并且你所输出结果的“受众”通常由其他软件插件组成,只需很少在少量人力劳动的监护下这些软件插件就可以自行运转。软件的智能性意味着可行性,但是在机器学习模型中,决策的制定由系统来决定,并且系统可以影响产品或者服务的行为方式。这就是软件工程技术为什么对机器学习工程师而言如此重要。 
  

Understanding The Ecosystem——弄懂软件的生态系统

在你开始着手学习具体技能之前,我还要再向大家阐明另外一个概念。成为一名机器学习工程师必须要求你自己能够清楚地了解你所设计的整个软件系统。 
  让我们打个比方,如果你正在为一个连锁店项目工作,并且公司需要根据客户以往的购买历史开始有针对性的发放优惠券,目的是想生成能够让消费者可以实际使用的优惠券。在数据分析模型当中,你可以收集消费者的采购数据,对这些数据分析之后可以观察出消费者的采购行为趋势,并据此提出响应的策略。机器学习的方法是编写一个可以自动生成优惠券的系统。但是学习采取什么方式才能编写出这样一种系统呢?这种方式奏效吗?你不得不去通盘了解项目开发所处的生态系统——包括商品库存、商品类目、价格、采购订单、销售点终端软件、CRM管理系统等等。 
  归根结底,项目的处理流程和机器学习算法的理解关系不大,或者和应用他们的方式和时间也没有太多关系,但是却需要你能够对系统的相互关联性有很深入的了解,并需要你可以成功编写一个具有高度集成和接口功能的软件。请切记,机器学习输出的结果实际上是一个可以有效运行的软件! 
  现在,就让我们开始了解成为一名机器学习工程师所需要注意的各种细节方面的事宜。我们会把这些信息分成两个基本点进行阐述:技能简介以及语言和库。首先我们将从技能介绍开始,在日后的内容中我们将介绍机器学习的语言和库。

技能简介

1. Computer Science Fundamentals and Programming

计算机科学基础和编程

对机器学习工程师而言,计算机科学基础的重要性包括数据结构(数据堆栈、队列、多位数组、树形以及图像等等)、算法(搜索、分类、优化、动态编程等)、科计算性与复杂性(P对NP、NP完全问题、大O符号以及近似算法等)和计算机架构(存储、缓存、带宽、死锁和分布式处理等等)。 
  当你在编程的时候必须能够对以上提到的这些基础知识进行应用、执行、修改或者处理。课后练习、编码竞赛还有黑客马拉松比赛都是你不可或缺的磨练技能的绝佳途径。 
  

2. Probability and Statistics

概率论和数理统计

概率的形式表征(条件概率、贝叶斯法则、可能性、独立性等)和从其中衍生出的技术(贝叶斯网、马尔科夫决策过程、隐藏式马可夫模型等)是机器学习算法的核心,这些理论可以用来处理现实世界中存在的不确定性问题。和这个领域密切相关的还有统计学,这个学科提供了很多种衡量指标(平均值、中间值、方差等)、分布(均匀分布、正态分布、二项式分布、泊松分布等)和分析方法(ANOVA、假设实验等),这些理论对于观测数据模型的建立和验证非常必要。很多机器学习算法的统计建模程序都是可以扩展的。

3. Data Modeling and Evaluation

数据建模及评估

数据建模就是对一个给定的数据库的基本结构进行评估的过程,目的就是发现其中所蕴含的有用模式(相互关系,聚合关系、特征矢量等)和/或者预测以前案例(分类,回归、异常检测等)的特征。评估过程的关键就是不断地对所给模型的优良性能进行评价。根据手中的任务,你需要选取一种恰当的精准/误差衡量指标(比如日志分类的损失、线性回归的误差平方和等等)和求值策略(培训测试、连续Vs. 随机交叉验证等)。通过对算法的反复学习,我们可以发现其中会存在很多误差,而我们可以根据这些误差对模型(比如神经网络的反相传播算法)进行细微的调整,因此即使你想能够运用最基本的标准算法,也需要你对这些测量指标有所了解。 
  

4. Applying Machine Learning Algorithms and Libraries

应用机器学习算法和库

尽管通过程式库/软件包/API(比如scikit-learn,Theano, Spark MLlib, H2O, TensorFlow等)可以广泛地实现机器学习算法的标准化执行,但是算法的应用还包括选取合适的模型(决策、树形结构、最近邻点、神经网络、支持向量机器、多模型集成等)、适用于数据的学习程序(线性回归、梯度下降法、基因遗传算法、袋翻法、模型特定性方法等),同时还需要你能够了解超参数对学习产生影响的方式。你也需要注意不同方式之间存在的优势和劣势,以及那些可能会让你受牵绊的大量陷阱(偏差和方差、高拟合度与低拟合度、数据缺失、数据丢失等)。对于数据科学和机器学习所带来的这些方面的挑战,大家可以去Kaggle网站获取很多学习参考,你可发现不同的问题当中存在的细微差别,从而可以让你更好的掌握机器学习的算法。

5. Software Engineering and System Design

软件工程和系统设计

在每天工作结束的时候,机器学习工程师通常产生的成果或者应交付的产品就是一种软件。这种软件其实也是一种小型插件,它可以适用于相对更大型的产品或者服务的生态系统。你需要很好地掌握如何才能让这些彼此不同的小插件协同工作,并与彼此进行流畅的沟通(使用库函数调用、数据接口、数据库查询等)的方法,为了让其他的插件可以依附你的插件进行很好的工作,你也得需要为你的差价建立合适的接口。精心设计的系统可以避免以后可能出现的瓶颈问题,并让你的算法系统满足数据量激增时候的扩展性能。软件工程的最佳的实践经验(需求分析、系统设计、模块化、版本控制、测试以及归档等)对于产能、协作、质量和可维护性而言是不可获取的无价之宝。

Machine Learning Job Roles——机器学习的工作角色

由于现在越来越多的公司开始尝试采用新兴技术为自己挖掘更多的利润,于是和机器学习相关的岗位需求也在不断的增加。下面这幅图片为大家展示了和数据分析师相比,对于一名典型的机器学习工程师而言,相对重要的核心技能包含以下内容: 
这里写图片描述

The Future of Machine Learning——机器学技术的发展展望

机器学习工程师最让人欲罢不能的特征或许就是这个岗位角色拥有看起来无所不能的广泛适应性。包括教育行业、计算机科学还有更多领域在内的很多行业已经受到了机器学习的积极影响。实际上你会发现没有哪个领域不会应用机器学习技术。对于某些行业案例而言,他们对机器学习技术有极其迫切的需求。健康医疗产业就是一个显而易见的例子。机器学习技术已经在健康医疗长夜中的很多重要领域得到了广泛的应用,无论是致力于减少护理差异,还是医学扫描分析,机器学习技术正在潜移默化地为这些领域带来改变。来自纽约大学的数学科学克朗学院和数据科学中心的助理教授David Sontag先生最近发表了关于机器学习技术和健康医疗系统的演讲,在演讲中他讨论了机器学习是如何通过自己的潜力改变了整个医疗产业。 
  毫无疑问,这个世界正在发生着快速和戏剧性的转变。对于机器学习工程师的需求正在呈现指数型的增长趋势。世间充满了复杂的挑战,并因此需要更加复杂的系统才可以将这些挑战迎刃而解。而机器学习工程师们就是可以建造这些系统的最佳人选。如果你的未来需要借助机器学习技术获得更好的发展,那么此时此刻就是你迈出脚步掌握相关技能并开发你思维的最佳时机! 

转载于:https://www.cnblogs.com/Crysaty/p/6160987.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489412.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python牛顿迭代公式_python计算牛顿迭代多项式实例分析

本文实例讲述了python计算牛顿迭代多项式的方法。分享给大家供大家参考。具体实现方法如下:p evalPoly(a,xData,x). Evaluates Newtons polynomial p at x. The coefficient vector a can be computed by the function coeffts. a coeffts(xData,yData). Computes…

“机器人迟钝一点,会更有人情味”,迪士尼提出新型人机交互系统

来源:机器人大讲堂导读打篮球时,当球向你飞来,你总会下意识地或者说有意识地伸手去接住球。生活中,有人递给你一个东西时,你也会伸手去接住,礼貌或者仓促地。那么在如今拟人机器人越发“聪明”的时代&#…

华为十大发明

来源:蓝海长青智库时代的车轮滚滚向前,推动时代前进的离不开那些改变人们生活的发明。就像爱迪生发明电灯,每一个时代都有一些创新的技术足以载入史册。这些技术或许在发明初期还不足以让人感受到它的价值,但是随着时代的进步&…

基于类的命令行notebook的实现

在看一本书《PYTHON3 面向对象编程》 内容丰富,作作记录。 notebook.py __author__ chengang882import datetime# Store the next available id for all new note last_id 0class Note(object):"""Represent a note in the notebook. Match agains…

2020年五大云计算预测

来源:信息安全与通信保密杂志社Forrester的新报告发现,超大规模云联盟、云原生创新和新的云安全要求将在2020年重塑云计算行业格局。Forrester近日发布了一份报告,对2020年的云计算行业发布了五大预测。这些预测表明争夺云计算霸主地位的竞争…

薛建儒:无人车的场景理解与自主运动

来源:人工智能前沿讲习一报告导读本文为西安交通大学人工智能与机器人研究所薛建儒教授,做的题为无人车场景计算与自主运动的研究进展的报告,主要从无人车概述、场景理解、自主运动、总结与展望四个方面介绍了其团队在无人驾驶领域的探索。在…

(转)HTTP 长连接和短连接

1. HTTP协议与TCP/IP协议的关系 HTTP的长连接和短连接本质上是TCP长连接和短连接。HTTP属于应用层协议,在传输层使用TCP协议,在网络层使用IP协议。IP协议主要解决网络路由和寻址问题,TCP协议主要解决如何在IP层之上可靠的传递数据包&#xff…

中美科技成果转化比较分析

来源:创新研究近年来随着国家在不断加大科技投入,以及专利成果数量的快速增长,全社会对科技创新关注程度不断提高,对我国科技成果转化率低的批评不断增加,有文章指出“我国科技成果的转化率仅有10%,比美国8…

商用计算机低温工作,突破量子计算机瓶颈!超低温芯片能在接近绝对零度的温度下工作...

如何克服量子计算机运转时产生的超高热量仍是量子计算机研究当中的一大难题。日前,科学家开发出一种新型的低温计算机芯片,能够在接近绝对零度的理论温度极限下工作。这种名为 Gooseberry 的低温系统为量子计算领域的革命奠定了基础——使新一代机器能够…

python自动化测试开发_基于python的selenium2自动化测试从基础到实战(Python3、selenium2、自动化测试、web测试)...

Selenium2是目前比较流行的一款针对web页面测试的自动化测试工具,他的前身是Selenium 。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。但是目前使用Selenium2做测试的基本是采用ja…

虚拟机安装CentOS6.4

1 概述 虚拟机(Virtual Machine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统,运行在主机上,完全独立,虚拟机里面的所有操作不会影响主机,即使虚拟机崩溃了&#x…

中国人工智能产业白皮书

来源:北京物联网智能技术应用协会未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测&#xff1…

python基础笔记_python基础学习笔记

一、Python四种类型的数据格式 整数----2、3、 长整数:指的是比较大一点的整数 浮点数----3.23、52.3EE:标记表示10的幂。 复数----(-54J)、(2.3-4.6J) 二、Python字符串 a 单引号:单引号输出字符串,字符串…

Nature好文:过去150年,科学与产业经历四段情缘!

来源:Nature 574, 481-485 (2019) doi: 10.1038/d41586-019-03172-5Nature(《自然》)创刊 150 周年之际,历史学家保罗卢西尔(Paul Lucier)特别撰写系列文章,回顾了这 150 年来科学体系的塑造。本…

python爬取网页有乱码怎么解决_Python爬取网页requests乱码

**之前有在裁判文书上爬取数据,这段时间重新运行爬虫后发现无法获取网页数据, 找了一下发现requests网页源码返回的是乱码** (如下截取一部分返回的数据:不知道是不是网站对网页内容进行了加密,请问如何解决这个问题&a…

北京联合大学计算机学院在哪个校区,北京联合大学各校区联系地址大全

出国留学网考研院校频道为大家提供北京联合大学各校区联系地址大全,希望能帮助到大家。北京联合大学下设14所学院:北京联合大学应用文理学院 地址:海淀区北土城西路197号 邮编:100191北京联合大学师范学院 地址:朝阳区…

Gartner 2019年超融合魔力象限:新增深信服,国内华为、华云在榜

来源:云头条近日,国际权威研究分析机构Gartner公布了2019全球《超融合基础设施魔力象限》。报告显示国内仅有三家云计算厂商进入2019超融合基础设施魔力象限,分别是深信服、华为、华云数据。深信服超融合(sangfor aCloud&#xff…

万维网之父公布拯救网络计划:保护互联网免遭滥用,惠及人类

来源:澎湃新闻万维网之父蒂姆伯纳斯-李爵士(Sir Tim Berners-Lee)公布了一项拯救网络的全球计划,呼吁政府和企业能够阻止对互联网的滥用,保护互联网免受政治操纵、假新闻、侵犯隐私等其他威胁。这项计划名为《互联网契…

mybatis insert 重复数据2条_Mybatis框架lt;增gt;:添加一条数据到数据库中,insert...

在以上框架中,前面所搭建好的框架全部固定好,接下来,我们在此基础上实现功能使用insert添加一条数据到数据库中(1)在UserMapper接口中添加对应方法,//在数据库表中增添一条数据,返回为int类型,参数传递Usee…

python语言程序设计基础嵩天答案第二章_python语言程序设计基础(嵩天版),第二章程序练习题...

python语言程序设计基础(嵩天版),第二章程序练习题 欢迎访问江南烧酒的博客 2.2汇率兑换程序。按照1美元6人民币汇率编写一个美元和人民币的双向兑换程序。 """ 2.2汇率兑换程序,美元和人民币 """ …