从事数据科学前必须知道的五件事儿

摘要: 本文讲解了从事数据科学前应该了解的五件事情,主要是关于学习数据科学时候应该注意的一些事项。

目前,人工智能行业非常火热,对应的数据科学分析岗位需求非常大。很多程序员纷纷转行从事人工智能相关岗位,那么对于那些想从事数据科学岗位的人来说,这里有五件重要的事是在转岗之前需要了解的。

1.高等数学是数据科学的基础

矩阵计算、导数、特征值、集合、函数、向量、线性变换等数学知识对统计方法和编程背后的理论而言十分重要。因此,在开始你的MOOC课程或机器学习教材之前,你应该先自己检查一下这些数学知识的掌握程度。大多数学校要求学生毕业时候能够精通这些知识,如果你之前没有完全掌握这些知识的话,也不要担心,毕竟学习这些知识也不需要花费太多的时间。

目前,网络上面有很多资源可供学习。但是,对我而言,最有效的是资源是线性代数漫画指南,该指南非常简单,生动形象,由浅入深的讲解相关线性代数知识。


我的建议是花费几个星期的时间将数学上的概念自查并弄明白可以采费曼技巧来解释每个概念。

注:费曼技巧很简单,首先拿张白纸,然后在白纸顶部写上你想理解的某想法或某过程,之后用自己的话解释它,就像你在教给别人这个想法。

2.最好的学习工具还是书籍

在试图进入某个新的领域时,类似于数据科学等领域,人们都会面临一个问题——信息过载。意思就是说有太多的资源可获取,但是不知道如何下手。比如各种公开课、专业讲座视频等,这些资源大多食之无味、弃之可惜。我认为最好的方法是选择一本好的教材,花时间将其啃透。从最基本的概念开始入手,逐渐全方位填充自己。


根据本人亲身经历,以下这种方法(以拼接玩具为例)对那些想从事数据科学的人来说是非常有用的,而且我也相信以下种学习方法对学习大多数新知识都是有一定作用的。

首先,你需要选择想要构建的玩具模型;

其次,打开所有装有零部件的塑料袋,并将装的玩具部件全部放在一个平面上,这样你就可以看到所有不同的部分;

之后,了解每个零部件如何使用,关注每个零部件的特征:尺寸、颜色、重量及形状等;

然后,等你掌握所有零部件的用途后,开始逐渐尝试构建玩具模型;

最后,在遵循说明书并建立想要的模型后,把所有部分拆开并重新开始新的实验;

数据科学的各个领域都应该采用同样的技术——了解所有的部分是什么、然后学习如何使用它们,之后当你想创造更复杂的东西时,去寻找那些你没有的部分。

3.计算机技能是必不可少的

计算机技能是不可或缺的,这不仅是在数据科学领域,而且未来的科技也需要具备这方面的能力

当我作为一名数据科学专业的硕士时,我才意识到有些东西一直在隐蔽地通过博客文章、书籍和新闻传递下面信息:

“计算机程序占据了我们日常生活的80%”

程序无处不在,我们日常生活中接触到的智能手机、网站、汽车、电视、医疗系统、公共交通、商品制造等领域中都存在程序控制。


几乎所有行业中的每一个工作/职业都受到程序的直接影响,程序可用实现信息的输入、转换和打印过程。学习编程以及编译原理不仅仅是制作软件、应用程序或创建网站所需要掌握的,将使你有机会了解科技是如何影响我们的生活。不要把计算机程序归咎于人们“不情愿工作”,而是系统地思考问题所在。

4.批判性和分析能力非常重要

我非常喜欢有关犯罪和破案的电视节目,其中一个电视节目是《天蝎》,主要讲述的是一帮天才利用技术和数学技巧解决各种问题的故事。除了所有动作打斗、搞笑等场景外,这类节目的最精彩部分正是主角们使用“批判性思维”为不同的问题找到解决的方法,这是大多数数据科学资源中没有提到的一件事。找到正确的角度来处理问题的能力将使你不仅能够判断使用哪些工具用来解决对应的问题,而且有时候会引导你找到最有效的解决方案。

5.选择合适的工具

有许多可视化软件包(seaborn、gbplot、matplotlib)和软件(tableau、excel)可以帮助创造绝妙的图表。数据分析的重点不在于挑选多么复杂的软件包,最重要的如何传递这些数据信息。因此需要在工作中避免过多的选项,有时候最简单的工具会产生清晰明了的结果。

作者信息

Pedro Lopez,数据科学家,专注于金融、智能商业。

文章原标题《5 Things to Know Before Rushing to Start in Data Science》,

作者:Pedro Lopez,译者:海棠,审阅:袁虎。

原文链接

干货好文,请关注扫描以下二维码:



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522375.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工作流实战_07_flowable 流程定义查看流程图和xml

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,我师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都…

这项技术:华为、BAT要力捧!程序员:我彻底慌了... ​

人工智能离我们还遥远吗?海底捞斥资1.5亿打造了中国首家火锅无人餐厅;阿里酝酿了两年之久的全球首家无人酒店也正式开始运营,百度无人车彻底量产。李彦宏称,这是中国第一款能够量产的无人驾驶乘用车。而阿里的这家无人酒店&#x…

手把手教你理解卷积神经网络

摘要: 卷积神经网络是一种识别和理解图像的神经网络。本文将从不同的层次来介绍卷积神经网络。手把手教你理解卷积神经网络(一)本文将继续为你介绍关于卷积神经网络的知识。为了保持文章的简洁性和全面性我将为你提供研究论文的链接&#xff…

工作流实战_09_flowable 流程实例挂起与激活

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,我师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都…

2018深圳云栖拉开帷幕,飞天技术汇五大专场邀你参加~

摘要: 感受万物互联的智能时代,洞察数字化转型的全新未来。云栖大会将情景化展示智能城市、智能生活、智能制造、智慧门店等阿里云IoT生态全景,20专场,覆盖AI、新零售等全行业数字化转型解决方案。 飞天技术汇作为阿里云的技术传播…

学了阿里中台,却依然做不好系统? 聊聊阿里的项目管理

戳蓝字“CSDN云计算”关注我们哦!作者 | 墨玖来源| 阿里技术导读:在技术公司、尤其是互联网公司,技术人员作为PM(项目经理)是非常常见的。有些同学得心应手,有条不紊,能得到清晰稳定的预期结果;有些同学则…

视频直播常见问题与解决办法汇总【系列三—直播推流】

摘要: 直播推流初始化设置 要进行直播推流,您必须开启直播加速 > 配置直播域名 > 直播推流,详情参考 快速开始。 如何获取推流地址 直播加速配置成功后,您可以通过以下方式获取对应的推流地址。 登录 视频直播控制台。 直播…

工作流实战_10_flowable 流程实例的删除

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://space.bilibili.com/485524575/channel/detail?cid94579 用户名密码0000001test0000002test0000003test0000004test文章目录1. 演示2. 代码2.1. 删除实例命令2.2. 执行删除动作1. 演示 …

深入了解机器学习

摘要: 了解机器学习发展史、机器学习是什么?机器学习有什么?看看本文就够了。如今机器学习已经成为了这个时代的热门话题。机器学习已经存在了几十年,但直到最近我们才得以利用这项技术。接下来,让我们一起回顾一下机器…

python程序设计的基本步骤_Python程序设计课程教与学(54、72、80学时教学大纲)...

原标题:Python程序设计课程教与学(54、72、80学时教学大纲)《算法与程序设计》课程教学大纲 Programming and Algorithm Fundamentals (Python-based) 一.基本信息 课程学分:4 ; 面向专业:计算机…

百分点10周年乔迁新址 数据智能服务更上一层楼

戳蓝字“CSDN云计算”关注我们哦!作者 | 刘丹2019年8月,是百分点值得纪念和庆祝的日子,随着百分点团队的迅速扩大与蓬勃发展,全国各地业务开展的有声有色,业绩快速增长,在企业成立十周年之际,更…

用Python及深度学习实现iPhone X的FaceID功能

摘要: 本文主要是展示FaceID解锁机器的基本工作机制,采用的方法是基于人脸映射和孪生卷积神经网络,Github上附详细代码。对于果粉们来说,对新出的iPhone X讨论最多的是其解锁方式,TouchID的继承者——FaceID。对于新一…

工作流实战_11_flowable 流程实例 跟踪流程

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://space.bilibili.com/485524575/channel/detail?cid94579 用户名密码0000001test0000002test0000003test0000004test文章目录1. 演示2. 代码分享1. 演示 2. 代码分享 public byte[] cre…

企业如何采用机器学习

摘要: 向机器学习专家学习如何理解机器学习开发生命周期,以及如何建立一个团队通过机器学习来解决他们的业务问题。毫无疑问,任何企业都可以利用机器学习的优势将机器学习应用到他们的业务过程中。而机器学习的意义将取决于它是如何被应用的&…

Spark精华问答 | spark的组件构成有哪些?

戳蓝字“CSDN云计算”关注我们哦!Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右,是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果&#xf…

binlog日志_mysql 重要日志文件总结

日志是所有应用的重要数据,MySQL 也有错误日志、查询日志、慢查询日志、事务日志等。本文简单总结下各种日志,以备查阅。二进制日志 binlog二进制日志 binlog 用于记录数据库执行的写入性操作(不包括查询)信息,以二进制的形式保存在磁盘中。使…

Python数据预处理:使用Dask和Numba并行化加速

摘要: 本文是针对Python设计一种并行处理数据的解决方案——使用Dask和Numba并行化加速运算速度。案例对比分析了几种不同方法的运算速度,非常直观,可供参考。如果你善于使用Pandas变换数据、创建特征以及清洗数据等,那么你就能够…

工作流实战_12_flowable 流程实例 终止流程

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://space.bilibili.com/485524575/channel/detail?cid94579 用户名密码0000001test0000002test0000003test0000004test文章目录1. 演示2. 代码分享1. 演示 2. 代码分享 public ReturnVo&l…

让运维更高效:关于ECS系统事件

摘要: 阿里云会针对ECS实例发布系统事件,当您收到阿里云计划维护的通知时,可以利用ECS系统计划事件了解与实例相关的计划维护操作,并根据您的业务特性选择合适的时间安排运维操作进行故障转移,减少对系统可靠性和业务连…

工作流实战_13_flowable 待办任务列表查询

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://space.bilibili.com/485524575/channel/detail?cid94579 用户名密码0000001test0000002test0000003test0000004test文章目录1. 演示2. 代码分享1. 演示 2. 代码分享 这里我使用的sql查…