对数据科学家来说最重要的算法和统计模型

摘要: 本文提供了工业中常用的关键算法和统计技术的概要,以及与这些技术相关的短缺资源。

作为一个在这个行业已经好几年的数据科学家,在LinkedInQuoLa上,我经常接触一些学生或者想转行的人,帮助他们进行机器学习的职业建议或指导方面相关的课程选择。一些问题围绕教育途径和程序的选择,但许多问题的焦点是今天在数据科学领域什么样的算法或模型是常见的。

由于可供选择的算法太多了,很难知道从哪里开始学起。课程可能包括在当今工业中使用的不是很典型的算法,而课程可能没有包含目前不是很流行的但特别有用的方法。基于软件的程序可以排除重要的统计概念,并且基于数学的程序可以跳过算法设计中的一些关键主题。

 

我为一些有追求的数据专家整理了一个简短的指南,特别是关注统计模型和机器学习模型(有监督学习和无监督学习);这些主题包括教科书、毕业生水平的统计学课程、数据科学训练营和其它培训资源。(其中有些包含在文章的参考部分)。由于机器学习是统计学的一个分支,机器学习算法在技术上归类于统计学知识,还有数据挖掘和更多的基于计算机科学的方法。然而,由于一些算法与计算机科学课程的内容相重叠,并且因为许多人把传统的统计方法从新方法中分离出来,所以我将把列表中的两个分支也分开了。

 

统计学的方法包括在bootcamps和证书程序中概述的一些更常见的方法,还有一些通常在研究生统计学程序中所教授的不太常见的方法(但在实践中可以有很大的优势)。所有建议的工具都是我经常使用的工具:

1)广义线性模型,它构成了大多数监督机器学习方法的基础(包括逻辑回归和Tweedie回归,它概括了在工业中遇到的大多数计数或连续结果……)

2) 时间序列方法(ARIMA, SSA, 基于机器学习的方法)

3) 结构方程建模 (模拟和测试介导途径)

4) 因子分析法(调查设计与验证的探索和验证)

5) 功率分析/试验设计 (特别是基于仿真的试验设计,以免分析过度)

6) 非参数检验(从零开始的推导, 尤其通过模拟)/MCMC

7) K均值聚类

8) 贝叶斯方法(Naïve Bayes, 贝叶斯模型求平均值, 贝叶斯自适应试验...)

9) 惩罚回归模型 (elastic net, LASSO, LARS...) ,通常给模型增加惩罚因素(SVM, XGBoost...), 这对于预测值超过观测值的数据集是有用的(常见于基因组学与社会科学研究)

10) 样条模型(MARS...) 用于灵活性建模过程

11)马尔可夫链和随机过程 (时间序列建模与预测建模的另一种方法)

12)缺失数据填补方案及其假设(missForest, MICE...)

13) 生存分析(非常有助于制造建模和消耗过程)

14) 混合建模

15) 统计推断与分组测试(A/B测试和在许多交易活动中实施更复杂的设计)

 

机器学习扩展了许多这样框架,特别是K均值聚类和广义线性建模。在许多行业中一些有用的常见技术(还有一些更模糊的算法,在bootcamps或证书程序中出人意料的有用,但学校里很少教) 包括:

1)回归/分类树(用于高精度、可解释性好、计算费用低的广义线性模型的早期推广)

2)维数约简(PCA和多样学习方法如MDS和tSNE)

3)经典前馈神经网络

4)装袋组合(构成了随机森林和KNN回归整合等算法的基础)

7)加速整合(这是梯度提升和XGBoost算法的基础)

8)参数优化或设计项目的优化算法(遗传算法,量子启发进化算法,模拟锻炼,粒子群优化)

9)拓扑数据分析工具,特别适合于小样本大小的无监督学习(持久同调, Morse-Smale聚类, Mapper...)

10)深度学习架构(一般的深度架构)

11) KNN局部建模方法(回归, 分类)

12)基于梯度的优化方法

13)网络度量与算法(中央度量法、中间性、多样性、熵、拉普拉斯算子、流行病扩散、谱聚类)

14)深度体系架构中的卷积和汇聚层(专门适用于计算机视觉和图像分类模型)

15)层次聚类 (聚类和拓扑数据分析工具相关)

16)贝叶斯网络(路径挖掘)

17)复杂性与动态系统(与微分方程有关,但通常用于模拟没有已知驱动程序的系统)

依靠所选择的行业,可能需要与自然语言处理(NLP)或计算机视觉相关的附加算法。然而,这些是数据科学和机器学习的专门领域,进入这些领域的人通常已经是那个特定领域的专家。

学术项目之外的一些学习这些方法的资源包括:

Christopher, M. B. (2016). 《模式识别与机器学习》,施普林格出版社,纽约。

Friedman, J., Hastie, T., & Tibshirani, R. (2001). 《统计学习的要素》(卷1, 337-387页). 纽约: 统计中的斯普林格级数。

本文由阿里云云栖社区组织翻译。
文章原标题《Key Algorithms and Statistical Models for Aspiring Data Scientists

原文链接

本文为云栖社区原创内容,未经允许不得转载。



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521751.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为愿出售5G技术渴望对手;苹果将向印度投资10亿美元;华为全联接大会首发计算战略;腾讯自研轻量级物联网操作系统正式开源……...

戳蓝字“CSDN云计算”关注我们哦!嗨,大家好,重磅君带来的【云重磅】特别栏目,如期而至,每周五第一时间为大家带来重磅新闻。把握技术风向标,了解行业应用与实践,就交给我重磅君吧!重…

数组元素反序

和前面的字符串逆向输出有异曲同工之妙 第一位和最后一位交换位置,然后用比大小循环 那么接下来修改一下这个程序,我们接下来解释一下p的概念 画图解释: 在最前面的 定义的时候,我们将p(0)定义在了1上&…

如何计算Java对象所占内存的大小

摘要: 本文以如何计算Java对象占用内存大小为切入点,在讨论计算Java对象占用堆内存大小的方法的基础上,详细讨论了Java对象头格式并结合JDK源码对对象头中的协议字段做了介绍,涉及内存模型、锁原理、分代GC、OOP-Klass模型等内容。…

hilbert谱 matlab,怎么在matlab中做信号hilbert边际谱分析

摘要:传统的数字滤波器的设计过程复杂,计算工作量大,滤波特性调整困难,影响了它的应用。本文介绍了一种利用MATLAB信号处理工具箱(Signal Processing Toolbox)快速有效的设计由软件组成的常规数字滤波器的设计方法。给出了使用MAT…

时间序列数据的处理

摘要: 随着云计算和IoT的发展,时间序列数据的数据量急剧膨胀,高效的分析时间序列数据,使之产生业务价值成为一个热门话题。阿里巴巴数据库事业部的HiTSDB团队为您分享时间序列数据的计算分析的一般方法以及优化手段。演讲嘉宾简介…

saas java框架_XMReport-提供web项目Java套打解决方案

简介XMReport是国内首款支持在线编辑,维护的控件式报表产品。XMReport报表产品分为设计器与引擎两个部分,其中报表设计器是完全基于HTML5技术,提供优秀跨平台的支持,用户无需安装客户端或者插件,仅使用浏览器即可进行报…

只有程序员才能读懂的西游记

戳蓝字“CSDN云计算”关注我们哦!这其实一个有关计算机网络协议的故事一、我佛造经传极乐话说我佛如来为度化天下苍生,有三藏真经,可劝人为善。就如图中所示,真经所藏之处,在于云端。佛祖所管辖之下,有四个…

Logtail从入门到精通(四):正则表达式Java日志采集实战

摘要: 为简化日志接入门槛,我们提供了极简模式的日志解析方式(如[开启日志采集之旅]()中的介绍)。为了更好的对日志进行分析,我们还提供了其他解析方式,例如:分隔符模式、完整正则模式、JSON模式…

Vue中的条件渲染

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Vue中的条件渲染</title><!--引入vue.js库--><script src"../vue.js"></script> </head><body> <d…

多隆:淘宝第一行代码撰写者的程序世界

他2000年加入阿里巴巴&#xff0c;是淘宝的创始人之一&#xff0c;是阿里内部公认的技术大牛&#xff0c;在阿里内网上他被贴得最多的标签就是“神”。在第二届研发效能嘉年华中他将在“向代码致敬&#xff0c;寻找83行代码”活动颁奖盛典中华丽现身&#xff0c;他就是“码神”…

通信工程到底要不要转专业?

戳蓝字“CSDN云计算”关注我们哦&#xff01;一年一度的大学新生报名季又开始了。各地高校陆陆续续迎来了新同学&#xff0c;有的甚至已经开始了军训。每年看到这些怀揣着梦想的年轻面孔&#xff0c;小枣君就非常感慨——时光飞逝&#xff0c;岁月无情&#xff0c;自己的青春&a…

真相!30K拿到互联网大厂offer,网友:我服了!

最近笔者在知乎刷到一个帖子&#xff0c;其中&#xff0c;这条回答让人印象深刻&#xff1a;其实&#xff0c;最近几年人工智能大火&#xff0c;其中深度学习岗位的薪酬爆增&#xff0c;BAT大厂高薪招聘AI人才&#xff0c;收到的简历却寥寥无几&#xff1f;究竟是大厂岗位要求高…

鸿蒙 OS 的到来,能为我们改变什么?| 程序员大本营9月刊

作者 | 屠敏出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;「鸿蒙初辟原无姓&#xff0c;打破顽空需悟空」&#xff0c;在国产自研操作系统短缺的窘境之下&#xff0c;天惊一声雷&#xff0c;「鸿蒙」踏风来。回首上个月的技术圈&#xff0c;最值得业界浮称流说的…

注释那些事儿:前端代码质量系列文章(一)

摘要&#xff1a; 好的注释可以提高代码的可读性和可维护性&#xff0c;从而提高代码质量。那么什么是好的注释&#xff1f;如何写出好的注释&#xff1f;“Comment or not comment, that is the question”好的注释可以提高代码的可读性和可维护性&#xff0c;从而提高代码质量…

linux 给普通用户赋予最高权限

文章目录一、创建新用户二、给新用户设置密码三、赋予sudoers文件写的权限四、编辑sudoers文件五、删除sudoers文件写的权限一、创建新用户 useradd know二、给新用户设置密码 passwd know三、赋予sudoers文件写的权限 chmod uw /etc/sudoers四、编辑sudoers文件 vim /etc/…

php裁剪图片并上传源码,改写jcrop插件+php的图片上传实现与裁剪一体化

1.图片上传后立刻判断图片的宽和高是否超过预设的最大高度与宽度&#xff0c;超过了则生成缩略图&#xff0c;2.图片裁剪使用的是jquery的裁剪插件Jcrop,可以实现裁剪的即时预览&#xff0c;代码没有优化&#xff0c;会生成很多垃圾图片&#xff0c;欢迎大家一起改进&#xff0…

人工智能和机器学习的前世今生

摘要&#xff1a; 阅读本文以了解更多关于人工智能、机器学习和深度学习方面的知识&#xff0c;以及它们对商业化意味着什么。如果正确的利用模式识别进行商业预测和决策&#xff0c;那么会为企业带来巨大的利益。机器学习&#xff08;ML&#xff09;研究这些模式&#xff0c;并…

30 岁程序员生活图鉴,怎样算是活成了理想的模样?

戳蓝字“CSDN云计算”关注我们哦&#xff01;文 | 年素清来源 | 程序人生第一批90后已近而立&#xff0c;相信他们中的每个人在年少的时候都曾经憧憬过长大后的图景&#xff1a;做医生当老师做大官&#xff0c;开飞机打怪兽赚大钱……程序员&#xff08;媛&#xff09;们自然也…

深度学习技巧与窍门

摘要&#xff1a; 本文是根据自身构建深度学习模型总结而来&#xff0c;适合有一定深度学习基础的读者阅读。本文是根据自身构建深度学习模型总结而来&#xff0c;可能读起来比较干巴&#xff0c;但干货确实不少。闲话少叙&#xff0c;直接进入相关内容。首先&#xff0c;为什么…

让我再撸一次HashMap

戳蓝字“CSDN云计算”关注我们哦&#xff01;对于JAVA求职者来说&#xff0c;HashMap可谓是集合类的重中之重&#xff0c;甚至你在复习的时候&#xff0c;其他集合类都不用看&#xff0c;专攻HashMap即可。然而&#xff0c;鉴于网上大部分的关于HashMap的面试方向文章&#xff…