[转人工智能工程师学习路线及具备的5项基本技能

原文地址:http://blog.csdn.net/BaiHuaXiu123/article/details/52478853

 

摘要

学习路线

这里写图片描述

你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝光率和关注度。机器学习已经以一种高调姿态闯入广大民众的意识当中,无论是采用机器学习等相关技术的Google AlphaGo以5局4胜的战绩打败人类世界的围棋冠军,还是采用了机器学习技术的Twitter能够鉴定是否你在酩酊大醉的时候发布了推文,无论你通过怎样的方式发现并知道机器学习技术的存在,有一件事不言而喻:机器学习的时代已经到来。 
这里写图片描述

尽管机器学习技术看起来这般神器,但是对于机器学习技术的好奇心是一码事儿,而想要让该技术在相关产业当中发挥作用实际上又是另外一码事儿。这篇文章将会帮助你了解作为一名机器学习工程师具备怎样的思维方式以及需要什么样的专业技能才可以开展工作。 
如果你正在考虑投身机器学习工程师的职业生涯,那么在一开始的时候,你必须弄清楚两件非常重要的事情。首先,机器学习工程师的岗位并不是一个“纯粹的”学术角色,你不需要具备科学研究经验或者专业的学术教育背景。其次,如果你仅仅具备软件工程师的能力或者仅仅具备数据科学的经验还远无法成为一名合格的机器学习工程师,除非你同时掌握以上两方面的技术经验。

数据分析 Vs. 机器学习工程师

如果想成为一名机器学习工程师,那么你必须弄清楚前者和数据分析师之间的区别,而且这非常重要。简单来讲,两者之间最为关键的区别就是他们最终的目标大相径庭。作为一位数据分析师,你的主要职责就是分析数据,并从这些抽象的数据当中提炼出具体的能让大家明白的故事,并从中产生具有可行性的洞察。数据分析工作的重点就是向公众传播并展示图表、模型已经可视化效果。数据的分析和展示由人类执行,并且其他人会根据你展示的数据做出商业决策。尤其是这一点必须引起你足够的重视——你数据分析后产生的结果的“受众”是人。但是从机器学习工程师的角度来看的话,他们最终输出的结果是一种可以工作的软件(而不是你一路以来创建的分析结果或者可视化图形),并且你所输出结果的“受众”通常由其他软件插件组成,只需很少在少量人力劳动的监护下这些软件插件就可以自行运转。软件的智能性意味着可行性,但是在机器学习模型中,决策的制定由系统来决定,并且系统可以影响产品或者服务的行为方式。这就是软件工程技术为什么对机器学习工程师而言如此重要。 
  

Understanding The Ecosystem——弄懂软件的生态系统

在你开始着手学习具体技能之前,我还要再向大家阐明另外一个概念。成为一名机器学习工程师必须要求你自己能够清楚地了解你所设计的整个软件系统。 
  让我们打个比方,如果你正在为一个连锁店项目工作,并且公司需要根据客户以往的购买历史开始有针对性的发放优惠券,目的是想生成能够让消费者可以实际使用的优惠券。在数据分析模型当中,你可以收集消费者的采购数据,对这些数据分析之后可以观察出消费者的采购行为趋势,并据此提出响应的策略。机器学习的方法是编写一个可以自动生成优惠券的系统。但是学习采取什么方式才能编写出这样一种系统呢?这种方式奏效吗?你不得不去通盘了解项目开发所处的生态系统——包括商品库存、商品类目、价格、采购订单、销售点终端软件、CRM管理系统等等。 
  归根结底,项目的处理流程和机器学习算法的理解关系不大,或者和应用他们的方式和时间也没有太多关系,但是却需要你能够对系统的相互关联性有很深入的了解,并需要你可以成功编写一个具有高度集成和接口功能的软件。请切记,机器学习输出的结果实际上是一个可以有效运行的软件! 
  现在,就让我们开始了解成为一名机器学习工程师所需要注意的各种细节方面的事宜。我们会把这些信息分成两个基本点进行阐述:技能简介以及语言和库。首先我们将从技能介绍开始,在日后的内容中我们将介绍机器学习的语言和库。

技能简介

1. Computer Science Fundamentals and Programming

计算机科学基础和编程

对机器学习工程师而言,计算机科学基础的重要性包括数据结构(数据堆栈、队列、多位数组、树形以及图像等等)、算法(搜索、分类、优化、动态编程等)、科计算性与复杂性(P对NP、NP完全问题、大O符号以及近似算法等)和计算机架构(存储、缓存、带宽、死锁和分布式处理等等)。 
  当你在编程的时候必须能够对以上提到的这些基础知识进行应用、执行、修改或者处理。课后练习、编码竞赛还有黑客马拉松比赛都是你不可或缺的磨练技能的绝佳途径。 
  

2. Probability and Statistics

概率论和数理统计

概率的形式表征(条件概率、贝叶斯法则、可能性、独立性等)和从其中衍生出的技术(贝叶斯网、马尔科夫决策过程、隐藏式马可夫模型等)是机器学习算法的核心,这些理论可以用来处理现实世界中存在的不确定性问题。和这个领域密切相关的还有统计学,这个学科提供了很多种衡量指标(平均值、中间值、方差等)、分布(均匀分布、正态分布、二项式分布、泊松分布等)和分析方法(ANOVA、假设实验等),这些理论对于观测数据模型的建立和验证非常必要。很多机器学习算法的统计建模程序都是可以扩展的。

3. Data Modeling and Evaluation

数据建模及评估

数据建模就是对一个给定的数据库的基本结构进行评估的过程,目的就是发现其中所蕴含的有用模式(相互关系,聚合关系、特征矢量等)和/或者预测以前案例(分类,回归、异常检测等)的特征。评估过程的关键就是不断地对所给模型的优良性能进行评价。根据手中的任务,你需要选取一种恰当的精准/误差衡量指标(比如日志分类的损失、线性回归的误差平方和等等)和求值策略(培训测试、连续Vs. 随机交叉验证等)。通过对算法的反复学习,我们可以发现其中会存在很多误差,而我们可以根据这些误差对模型(比如神经网络的反相传播算法)进行细微的调整,因此即使你想能够运用最基本的标准算法,也需要你对这些测量指标有所了解。 
  

4. Applying Machine Learning Algorithms and Libraries

应用机器学习算法和库

尽管通过程式库/软件包/API(比如scikit-learn,Theano, Spark MLlib, H2O, TensorFlow等)可以广泛地实现机器学习算法的标准化执行,但是算法的应用还包括选取合适的模型(决策、树形结构、最近邻点、神经网络、支持向量机器、多模型集成等)、适用于数据的学习程序(线性回归、梯度下降法、基因遗传算法、袋翻法、模型特定性方法等),同时还需要你能够了解超参数对学习产生影响的方式。你也需要注意不同方式之间存在的优势和劣势,以及那些可能会让你受牵绊的大量陷阱(偏差和方差、高拟合度与低拟合度、数据缺失、数据丢失等)。对于数据科学和机器学习所带来的这些方面的挑战,大家可以去Kaggle网站获取很多学习参考,你可发现不同的问题当中存在的细微差别,从而可以让你更好的掌握机器学习的算法。

5. Software Engineering and System Design

软件工程和系统设计

在每天工作结束的时候,机器学习工程师通常产生的成果或者应交付的产品就是一种软件。这种软件其实也是一种小型插件,它可以适用于相对更大型的产品或者服务的生态系统。你需要很好地掌握如何才能让这些彼此不同的小插件协同工作,并与彼此进行流畅的沟通(使用库函数调用、数据接口、数据库查询等)的方法,为了让其他的插件可以依附你的插件进行很好的工作,你也得需要为你的差价建立合适的接口。精心设计的系统可以避免以后可能出现的瓶颈问题,并让你的算法系统满足数据量激增时候的扩展性能。软件工程的最佳的实践经验(需求分析、系统设计、模块化、版本控制、测试以及归档等)对于产能、协作、质量和可维护性而言是不可获取的无价之宝。

Machine Learning Job Roles——机器学习的工作角色

由于现在越来越多的公司开始尝试采用新兴技术为自己挖掘更多的利润,于是和机器学习相关的岗位需求也在不断的增加。下面这幅图片为大家展示了和数据分析师相比,对于一名典型的机器学习工程师而言,相对重要的核心技能包含以下内容: 
这里写图片描述

The Future of Machine Learning——机器学技术的发展展望

机器学习工程师最让人欲罢不能的特征或许就是这个岗位角色拥有看起来无所不能的广泛适应性。包括教育行业、计算机科学还有更多领域在内的很多行业已经受到了机器学习的积极影响。实际上你会发现没有哪个领域不会应用机器学习技术。对于某些行业案例而言,他们对机器学习技术有极其迫切的需求。健康医疗产业就是一个显而易见的例子。机器学习技术已经在健康医疗长夜中的很多重要领域得到了广泛的应用,无论是致力于减少护理差异,还是医学扫描分析,机器学习技术正在潜移默化地为这些领域带来改变。来自纽约大学的数学科学克朗学院和数据科学中心的助理教授David Sontag先生最近发表了关于机器学习技术和健康医疗系统的演讲,在演讲中他讨论了机器学习是如何通过自己的潜力改变了整个医疗产业。 
  毫无疑问,这个世界正在发生着快速和戏剧性的转变。对于机器学习工程师的需求正在呈现指数型的增长趋势。世间充满了复杂的挑战,并因此需要更加复杂的系统才可以将这些挑战迎刃而解。而机器学习工程师们就是可以建造这些系统的最佳人选。如果你的未来需要借助机器学习技术获得更好的发展,那么此时此刻就是你迈出脚步掌握相关技能并开发你思维的最佳时机! 

转载于:https://www.cnblogs.com/Crysaty/p/6160987.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489412.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mesh渲染到ui_在Unity中使用UGUI修改Mesh绘制几何图形

Used by Text, Image, and RawImage for example to generate vertices specific to their use case.说的是当该控件(例如Text,Image,RawImage)需要改变顶点的时候,就会自动调用。在传入的vh参数里修改顶点,三角形,UV等,同样可以达…

python牛顿迭代公式_python计算牛顿迭代多项式实例分析

本文实例讲述了python计算牛顿迭代多项式的方法。分享给大家供大家参考。具体实现方法如下:p evalPoly(a,xData,x). Evaluates Newtons polynomial p at x. The coefficient vector a can be computed by the function coeffts. a coeffts(xData,yData). Computes…

“机器人迟钝一点,会更有人情味”,迪士尼提出新型人机交互系统

来源:机器人大讲堂导读打篮球时,当球向你飞来,你总会下意识地或者说有意识地伸手去接住球。生活中,有人递给你一个东西时,你也会伸手去接住,礼貌或者仓促地。那么在如今拟人机器人越发“聪明”的时代&#…

黑龙江对口学计算机上机,2009年黑龙江省职高对口升学计算机应用专业技能试卷十.doc...

2009年黑龙江省职高对口升学计算机应用专业技能试卷十2009年黑龙江省职高对口升学计算机应用专业技能试卷十总分题号一二三四五核分人题分(本试卷满分150分,考试时间120分钟)一.填空题:(每空1分,共50分)1、Windows Xp中窗口排列方…

Linux 应用程序 网络通讯函数记录

创建一个套接口&#xff08;&#xff09;。#include <sys/socket.h>int socket( int af, int type, int protocol);af&#xff1a;一个地址描述。目前仅支持AF_INET格式&#xff0c;也就是说ARPA Internet地址格式。type&#xff1a;指定socket类型。新套接口的类型描述类…

台式计算机固定资产属于哪类,电脑属于固定资产的哪一类

台式计算机属于固定资产分类中的电子设备范畴。固定资产是指企业为生产产品、提供劳务、出租或者经营管理而持有的超过12个月并达到一定价值标准的非货币性资产&#xff0c;包括房屋、建筑物、机器、机械、交通工具和其他设备&#xff0c;与生产经营活动有关的器具、工具。固定…

华为十大发明

来源&#xff1a;蓝海长青智库时代的车轮滚滚向前&#xff0c;推动时代前进的离不开那些改变人们生活的发明。就像爱迪生发明电灯&#xff0c;每一个时代都有一些创新的技术足以载入史册。这些技术或许在发明初期还不足以让人感受到它的价值&#xff0c;但是随着时代的进步&…

python利用自动识别写模块_教你用Python 实现自动导入缺失的库

在写 Python 项目的时候&#xff0c;我们可能经常会遇到导入模块失败的错误&#xff1a;ImportError: No module named ‘xxx’ 或者 ModuleNotFoundError: No module named ‘xxx’ 。 导入失败问题&#xff0c;通常分为两种&#xff1a;一种是导入自己写的模块&#xff08;即…

基于类的命令行notebook的实现

在看一本书《PYTHON3 面向对象编程》 内容丰富&#xff0c;作作记录。 notebook.py __author__ chengang882import datetime# Store the next available id for all new note last_id 0class Note(object):"""Represent a note in the notebook. Match agains…

python中用socket检测端口_python基于socket函数实现端口扫描

本文实例为大家分享了python基于socket实现端口扫描的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下自学Python一段时间&#xff0c;写个端口扫描器练练手。有什么不足之处&#xff0c;请见谅这是基于socket函数对端口进行端口扫描所以&#xff0c;首先要导入socket…

php清理html table样式,Parse HTML Table - PHP [closed]

问题Closed. This question does not meet Stack Overflow guidelines. It is not currently accepting answers.Want to improve this question? Update the question so its on-topic for Stack Overflow.Closed 6 years ago.I have an HTML table that I would like to par…

2020年五大云计算预测

来源&#xff1a;信息安全与通信保密杂志社Forrester的新报告发现&#xff0c;超大规模云联盟、云原生创新和新的云安全要求将在2020年重塑云计算行业格局。Forrester近日发布了一份报告&#xff0c;对2020年的云计算行业发布了五大预测。这些预测表明争夺云计算霸主地位的竞争…

ResourceManager里面Trackingui需要手动该ip

C:\Windows\System32\drivers\etc这个路径下配置了ip和主机名&#xff0c;不过是大小写&#xff0c;ping不同&#xff0c;不论ping大小写还是全部小写都不行&#xff0c;我看地址栏是小写所以想着把hosts里CentOSMaster改成centosmaster&#xff0c;然后还是不行&#xff0c;备…

qt中的mysql能存入多少行数据_Qt中提高sqlite的读写速度(使用事务一次性写入100万条数据)...

SQLite数据库本质上来讲就是一个磁盘上的文件&#xff0c;所以一切的数据库操作其实都会转化为对文件的操作&#xff0c;而频繁的文件操作将会是一个很好时的过程&#xff0c;会极大地影响数据库存取的速度。例如&#xff1a;向数据库中插入100万条数据&#xff0c;在默认的情况…

计算机英语一级考试试题,全国计算机一级考试试题及答案

单选题1.( )是指连入网络的不同档次、不同型号的微机&#xff0c;它是网络中实际为用户操作的工作平台&#xff0c;它通过插在微机上的网卡和连接电缆与网络服务器相连。 答案:A 难:2A、网络工作站 B、网络服务器 C、传输介质 D、网络操作系统2.通过Internet发送或接收电子邮件…

薛建儒:无人车的场景理解与自主运动

来源&#xff1a;人工智能前沿讲习一报告导读本文为西安交通大学人工智能与机器人研究所薛建儒教授&#xff0c;做的题为无人车场景计算与自主运动的研究进展的报告&#xff0c;主要从无人车概述、场景理解、自主运动、总结与展望四个方面介绍了其团队在无人驾驶领域的探索。在…

(转)HTTP 长连接和短连接

1. HTTP协议与TCP/IP协议的关系 HTTP的长连接和短连接本质上是TCP长连接和短连接。HTTP属于应用层协议&#xff0c;在传输层使用TCP协议&#xff0c;在网络层使用IP协议。IP协议主要解决网络路由和寻址问题&#xff0c;TCP协议主要解决如何在IP层之上可靠的传递数据包&#xff…

ddr4服务器内存频率_金士顿DDR4-3200服务器内存通过完整测试

全面支持第二代AMD EPYC处理器2019年8月13日北京讯&#xff0c;全球存储领袖金士顿今天宣布旗下Server Premier系列DDR4-3200 Registered DIMMs内存将支持第二代AMD EPYC™服务器处理器。最新款金士顿Server Premier内存频率高达3200MT/s&#xff0c;提供8GB、16GB和32GB三种容…

html 链接section,HTML section 标签

HTML 标签是HTML5新增的语义化标签之一。关于语义化标签的概念与作用可以参阅HTML 语义化布局概述一章节。**一.标签作用&#xff1a;**此标签的功能与标签比较类似&#xff0c;两者联系与区别简单总结如下&#xff1a;(1).可以认为是特殊。(2).更加强调独立性&#xff0c;语义…