学数据科学,为何不尝试这 9 个编程语言!

在256种编程语言中,了解数据科学的编程语言!

作者 | Rashi Desai 

译者 | Arvin,责编 | 屠敏

头图 | CSDN 下载自东方 IC

出品 | CSDN(ID:CSDNnews)

数据科学在相当长一段时间以来一直是一件大事。在当今飞速发展的技术世界中,当人类倾向于生成大量数据时,我们必须知道如何分析,处理和使用这些数据以获取更多可了解的业务见解。

关于数据科学中Python和 R的较量已经有足够多的论述了,但是我在这里不是谈论这个问题。两种语言我们都需要这就是我想说的全部。我已经创建了数据科学的十大编程语言列表,您可以在2020年学习这些语言,当然也可以尝试列表外的语言。

我选择语言列入榜单时,主要根据其受欢迎程度,Github被提及的次数,优缺点以及与2020年数据科学的相关性。

Python

第一个数据科学中所需要的就是Python。

我可以写几十篇关于Python为什么是数据科学首选语言的文章。

由于它的多功能性,数据科学家可以使用Python来解决几乎所有与数据科学相关的问题。

为什么是Python?

Python的面向对象特性使数据科学家能够以更高的稳定性,模块化和代码可读性来执行任务。尽管数据科学只是多样化Python生态系统的一小部分,但Python拥有专门的深度学习和其他机器学习库以及像scikit-learn,Keras和TensorFlow等流行工具。Python 使数据科学家能够开发复杂的数据模型,并将其直接应用到生产系统。

根据Python开发人员的调查结果,有84%的受访者使用Python作为主要语言,而有16%的受访者将其作为第二语言。

Python中的数据

对于数据收集,Python支持CSV,JSON,SQL表和使用beautiful soup工具获取的网络数据。

用于Python的数据分析库panda是您用于数据探索的最佳工具。通过组织成数据帧,panda可以轻松地过滤、排序和显示数据。

下面几个类库提供了对数据建模的支持:

  1. NumPy —数值模拟分析

  2. SciPy—科学计算与分析

  3. scikit-learn-访问众多强大的机器学习算法。它还提供了一个直观的界面,使数据科学家可以充分利用机器学习的所有功能,而不必考虑它的复杂性

对于数据可视化,matplotlib,plot.ly,nbconvert可以将Python文件转换为HTML文档,列出漂亮的图形和仪表板,帮助数据科学家既有力又美观地来展示研究结果。

 

R

R是一个开源工具,它允许数据科学家跨平台地使用诸多操作系统。统计是这一技术的核心优势。R不仅仅是一种语言,它本身就是一个进行统计计算的生态系统。它的内置函数有助于执行数据处理、数学建模、数据可视化操作等。

R中的数据

R支持Excel,CSV,文本文件,Minitab或SPSS文件格式,使用Rvest获取的网络数据以及其他常见的用于数据收集的文件格式。

R的建立是为了对大型数据集进行统计和数值分析,因此,可以对数据探索执行大量操作-对数据进行排序,转置表,创建图,生成频率表,采样数据,概率分布,合并数据,变量转换等。推荐去探索dplyr,tidyr,以获得更多的最佳结果。

R是一种适合于科学可视化的健壮环境,有许多专门用于数据可视化结果图形显示的软件包。我们可以使用图形模块获得基本图形,图表和绘图。可视化效果也可以保存为jpg.等图像格式或单独的PDF文件。ggplot2是高级图(例如带有回归线的复杂散点图)的福音。

R Vs Python

对于数据科学来说,关于Python与R的争论是永无止境的,但是作为数据科学家,我们需要明白,虽然两者都有优点,但也都有缺点。

大多数程序员将一种或另一种编程语言视为他们的“首选”。假设,R用户有时渴望Python语言中内置的面向对象的功能。类似地,一些Python用户梦想着R中内置的统计分布。这意味着很有可能在一个项目中结合这两种领先的技术来得到一组独特的互补函数。

Scala

      

Scala是一种结合面向对象和函数式编程的简洁的高级语言。这种语言最初是为Java虚拟机(JVM)构建的,Scala的强项之一是与Java代码交互非常容易。

为什么选择Scala?

选择Scala学习数据科学的主要原因之一可以归功于Apache Spark。结合Scala与Apache Spark一起来处理大数据(Big Data),这对于数据科学家来说是无价的。

许多基于Hadoop构建的高性能数据科学框架通常都是使用Scala或Java编写的。在这些环境中使用Scala的原因是由于它对并发性的顺滑支持。由于Scala是在JVM上运行,因此与Hadoop搭配起来简直无敌。

为什么不使用Scala?

Scala唯一的缺点是它的学习曲线。另外,它的社区不是很活跃,因此在出现错误的情况下自行寻找问题的答案就会变得很繁琐。

当数据量大到足以实现该技术的全部潜力时,Scala非常适合这类项目。

SAS

SAS —统计分析系统

与R一样,SAS是为高级数据分析和复杂的统计操作而开发的工具。它是一种封闭源代码的专有工具,提供了各种各样的统计功能来执行复杂的建模。SAS由于其高可靠性而被大型组织和专业人员广泛使用。

为什么选择SAS?

请注意,SAS不是最适合初学者和独立数据科学爱好者的工具,因为SAS是为满足不断发展的业务需求而量身定制的。但是,如果您希望将数据科学作为自己的职业,那么最好掌握SAS的操作知识,以获得清晰的认识。

SAS擅长通过SAS Base(运行SAS环境的主要编程语言)执行统计建模。

为什么不使用SAS?

尽管SAS一直是企业分析领域无可争议的市场领导者,但要与Python或R进行功能比较,SAS似乎很难对数据进行建模和可视化。学习曲线非常棘手,并且通常被拥有巨大预算的大型公司使用。

SAS为数据科学家提供了多种认证计划。包括以下几种:

1)SAS Academy for Data Science

The SAS Academy for Data Science 认证计划提供数据操作、高级分析、人工智能和机器学习等课程内容,详见www.sas.com

2)SAS Programmer Professional Certificate | Coursera

这是Coursera 提供的SAS® 认证,提供SAS® Base编程语言等内容,详见www.coursera.org

Julia

Julia语言处理数据的速度比Python,JavaScript,Matlab,R要快,在性能上略逊于Go,Lua,Fortran和C。数值分析是该技术的优势,但是Julia也能很好地应对通用编程。

为什么选择Julia?

Julia比其他脚本语言更快,这使得数据科学家可以在快速开发Python / MATLAB / R的同时生成快速的代码。

借助Julia数据生态系统,多维数据加载非常快速。它并行执行聚合,联接和预处理操作。Julia包括各种数学库,数据处理工具以及用于通用计算的软件包。除此之外,与来自Python,R,C / Fortran,C ++和Java的库的集成非常容易。

为什么不选择Julia?

由于Julia不是一个完全成熟的工具,因此社区范围仍然很有限。在查找错误或故障时,有限的选项或解决方案可能会成为障碍。业内专家们非常希望,当Julia变得更加成熟时,能够与Python和R全面竞争。

MATLAB /Octave

A方案——MATLAB 

MATLAB是第一个用于数据科学的工具。我是在2017年开始学习数据科学的,当时我在Coursera上学习了吴恩达(Andrew Ng)的机器学习课程,他在课堂上使用了Octave。与此同时,我在本科课程中学习MATLAB,并在Courser课程中练习MATLAB。

我知道MATLAB是执行深刻的数学运算最好的编程语言。数据科学大量涉及到数学,这使得这项技术成为进行数学建模,图像处理和数据分析的强大工具。

为什么选择MATLAB?

它拥有一个庞大的数学函数库,用于线性代数,统计,傅立叶分析,滤波,优化,数值积分和求解常微分方程。MATLAB提供了用于可视化数据的内置图形和用于创建自定义绘图的工具。

为什么不选择MATLAB?

现在,数据科学家很少使用MATLAB,尽管他们说MATLAB对于数学和建模非常有用。随着R和Python在数据科学领域的问世,MATLAB逐渐衰落。鉴于高昂的许可费用,它目前仅在学术界流行。

您在数据科学中使用的语言在很大程度上取决于您正在解决的问题。如果您的问题需要复杂的数学计算,至少对于初始数据探索和初步结果而言,那么没有比MATLAB更好的起点了。

B方案——OCTAVE

它是MATLAB的主要替代方案。一般来说,这两种技术没有本质的区别,只是有一些小的的差别。与MATLAB一样,如果需要强大的算术计算,Octave可以用于数据量相对较小的项目中。

Java

Java可能是用于编程和业务开发的最古老的面向对象语言之一。Hive,Spark和Hadoop等大多数知名的大数据工具都是用Java编写的。Java有许多我们可能不知道的用于数据科学的库和工具,例如Weka,Java-ML,MLlib和Deeplearning4j。

为什么选择Java?

Java可能不会成为数据科学的一种显而易见的语言,但是由于诸如Hadoop之类的许多数据科学框架都运行在Java虚拟机(JVM)上,它仍是数据科学的顶级编程语言之一。

Hadoop是一种流行的数据科学框架,用于管理大数据应用程序的数据处理和存储。Hadoop具有一次处理无限任务的能力,因此它支持存储和处理大量数据。

总而言之,如果您想享受Hadoop框架的功能,Java是最好的数据科学编程语言之一。

Perl

Perl是高级编程语言,通用编程语言,并且是解释性的动态编程语言。由于Perl语言依赖于轻量级数组,因此Perl能够更有效地处理数据查询,而不需要程序员的过多处理。

为什么选择Perl?

由于它具有通用脚本语言的多功能性,因此作为动态类型化的脚本语言它与Python有很多共同点。Perl在诸如生物信息学,金融和统计分析等定量领域中得到了应用。

随着Perl 5的发布,处理大型数据集的能力比以前的版本要好得多。它正在用Perl 6实现“大数据精简版”。波音,西门子以及更多的财富500强企业都已经准备好在数据科学领域积极尝试Perl。

Perl通过协调大规模的数据插入和查询,以简单,可维护的架构映射或减少TB级的数据。Perl 6的计划是提供一种模块化,可插入的体系结构,并具有针对大数据管理的灵活性和定制性。

为什么不选择Perl?

Perl并不是一种仅靠学习就可以使您成为高效的数据科学家的语言。它的速度不够快,语法也不友好。由于它是一种相对不受欢迎的语言,因此社区对数据科学的支持较少。值得一提的是,“ Perl开发人员”社区正在变得越来越多。总体而言,目前并没有将Perl开发为数据科学语言的动力。

Haskell

Haskell是一种具有类型推断功能的通用静态类型纯函数式编程语言。

为什么选择Haskell?

Haskell具有强大的财务代码基础,可以轻松与Excel交互进行计算。这对编码数学概念很有用。一般来说,Haskell擅长抽象,因此,与其他任何数学或软件工具一样,数据科学也可以从Haskell的连贯抽象中受益。

Haskell也可以使用HaskellR直接对R中的值进行运算。

Haskell拥有DataHaskell,DataHaskell是一种利用Haskell编程语言来进行可靠且可复制的数据科学和机器学习开发的开源资源。Haskell的数据科学社区肯定会随着DataHaskell的发展而发展。

Target的首席AI科学家说:“ Haskell具有表现力,更快,更安全。Haskell传统上不用于数据科学,因此库的选择受到限制。Haskell与数学有着密切的关系,最终它的类型系统和数学特性对特定领域的业务代码的帮助会比其他任何东西都强大。”

为什么不选择Haskell?

Haskell具有作为数据科学语言的应用程序,但是,Haskell的数据科学知识还没有Python或R丰富。Haskell在数据科学功能方面并不强大。学习曲线本质上是困难且耗时的。

原文https://towardsdatascience.com/top-9-languages-for-data-science-in-2020-824239f930c

本文为 CSDN 翻译,转载请注明来源出处。

推荐阅读

  • 云计算,巨头们的背水一战

  • 整理了一份 Docker系统知识,从安装到熟练操作看这篇就够了 | 原力计划

  • 借助大数据进行社交媒体营销,企业们得这么玩!

  • 追忆童年,教你用Python画出儿时卡通人物

  • AI 终极问题:我们的大脑是一台超级计算机吗?

  • 公链的历史交叉口:PoS还能走多远?

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Swift 5 时代的机遇与挑战到底在哪里?

作者|刘镇夫(小鱼) 出品|阿里巴巴新零售淘系技术部 本文是知名 ios 开发者 NSHipster中文译者-刘镇夫(小鱼),在云栖大会上为大家带来的分享,本文主要介绍几点,第一、Swift 5 代表什么&#xff1…

Nacos 集群整合 Nginx 实现反向代理、负载均衡_03

文章目录一、Nginx 配置1. 下载安装nginx2. 配置nginx3. 启动nginx4. 测试验证5. 配置域名4.6. 域名验证一、Nginx 配置 1. 下载安装nginx https://gblfy.blog.csdn.net/article/details/119536779 2. 配置nginx # 进入nginx目录 cd /usr/local/nginx/conf# 编辑nginx.conf…

阿里云Kubernetes CSI实践—NAS动态存储卷使用

1. 前言 NAS存储盘能将nfs(网络文件系统)挂载到你的Pod中,阿里云Kubernetes CSI支持静态存储卷挂载和动态存储卷挂载2种方式, 在静态存储卷挂载的方式中,通常需要手动编辑和创建一个pv/pvc进行挂载,当需要…

怒肝 8 个月源码,我成为了 Spring 开源贡献者

作者 | cxuan 来源 | 程序员cxuan责编| 王晓曼前言我最近一直在写Spring的文章,而且仅仅是 Spring FrameWork 的文章 ,从最开始的官网入门到现在源码的深度分析。主要就是三个系列:官网入门系列,Spring官网读书笔记,这一系列的文章…

HTTPS配置过程

该文章借鉴于博主小东很不戳 先在自己项目中根目录下生成数字证书 生成命令如下:keytool -genkey -alias tomcathttps -keyalg RSA -keysize 2048 -keystore sang.p12 -validity 365 命令解释 • -genkey表示要创一个新的密钥。 • alias表示 keystore 的别名。…

汇报时,如何让老板快速抓住重点?—— 黄金三步法

阿里妹导读:对事物的归类分组是我们人类的天性,我们的大脑会自动将发现的所有事物以某种持续组织起来。但如何组织才能帮助我们解决工作和生活中出现的各种复杂问题?今天,我们请阿里高级技术专家张建飞分享他的黄金三步法。 我们…

Nacos 集群 Nginx MySql SpringBoot2.x 微服务_04

接上一篇: Nacos 集群整合 Nginx 实现反向代理、负载均衡_03 文章目录一、配置规则1. 域名登录nacos2. 测试验证二、SpringBoot2.x 微服务2.1. 依赖引入2.2. bootstrap.yaml配置2.3. 测试类三、测试验证3.1. 启动项目3.2. 验证一、配置规则 1. 域名登录nacos 使用…

Serverless 实战 —— 快速搭建 SpringBoot 应用

前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传。函数计算准备计算资源&am…

人才缺口40万,摆地摊也没有它挣钱,这个神仙职业今年太火了!

当你学习编程时,最先被困扰在哪一步?是不是很容易陷入在语法之类的细节而忽视基础概念?解决当前任务的最佳方法是什么?在多种编程语言之间来回切换,却感觉不到效率的提高?0 基础学习编程,最先入…

首次公开 | 淘系技术总监马鏖谈淘系用户增长

作者|马鏖 出品|阿里巴巴新零售淘系技术部 导读:近年来,关于用户流量的瓶颈让很多企业感到焦虑不安,互联网用户整体增速放缓,用户规模趋于饱和。同时,竞争个体成倍增长,流量资源争夺越发激烈,流…

JDK下载安装以及配置教程

截至2022年,JDK主流版本有JDK8跟JDK11 这里以JDK11为例 一、下载JDK 这里下载方法有两种 1.官网下载(需要注册) 网址:Java Downloads | Oracle 进入官网往下滑找到Java SE subscribers have more choices 根据提示框依次选择 弹出…

Tomcat10 端口修改 Linux 环境

文章目录1. 编辑文件2. 启动3. 验证1. 编辑文件 修改tomcat默认的端口,将默认端口8080修改为8090: cdapache-tomcat-10.0.10/conf/ vim server.xml 修改http协议端口 关键词:HTTP 修改前: 修改后: 2. 启动 cd ap…

月入过万的副业你要不要?不需要编程知识,不限男女,不限学历

01你知道做什么兼职最赚钱吗?你想拥有一份月薪过万的兼职工作吗?今天,我给你推荐的是看起来高大上,实则难度系数并不高的脚本创作!你知道兼职脚本有多赚钱吗?普通程序员每天拿出2小时的时间,每个…

高德在提升定位精度方面的探索和实践

2019杭州云栖大会上,高德地图技术团队向与会者分享了包括视觉与机器智能、路线规划、场景化/精细化定位时空数据应用、亿级流量架构演进等多个出行技术领域的热门话题。现场火爆,听众反响强烈。我们把其中的优秀演讲内容整理成文并陆续发布出来&#xff…

Nginx 反向代理

文章目录一、软件安装验证1. Linux安装nginx2. Tomcat10 下载和配置 Linux 环境3. 服务器部署二、软件安装验证2.1. 启动tomcat2.2. nginx配置2.3. 关键配置2.4. 启动nginx2.5. 测试验证一、软件安装验证 1. Linux安装nginx https://blog.csdn.net/weixin_40816738/article/d…

收益 or 挑战?Serverless 究竟给前端带来了什么

导读:前端开发者是最早享受到 “Serverless” 好处的群体,因为浏览器就是一个开箱即用、甚至无需为计算付费的环境!Serverless 把前端开发体验带入了后端,利用 FaaS 与 BaaS 打造一套开箱即用的后端开发环境。本文作者将从前端角度…

阿里云数据库四位小伙伴聚齐!共同开启生态合作新篇章!

随着用户的不断扩大,阿里云数据库能够帮助用户节省大量的基础运维工作,但是基于数据库业务侧的诊断、调优、护航等工作也是必不可少的。为了满足更多的市场需求,阿里云数据库团队发起数据库合作计划,招募具备优秀专业服务能力的伙…

一行代码引来的安全漏洞,就让我们丢失了整个服务器的控制权

来源 | 程序员石头责编| Carol封图 | CSDN 付费下载自视觉中国之前在某厂的某次项目开发中,项目组同学设计和实现了一个“引以为傲”,额,有点夸张,不过自认为还说得过去的 feature,结果临上线前被啪啪打脸,…

金融行业怎么用AI?蚂蚁金服是这么做的

伴随着金融科技的不断创新,人工智能技术已成为金融行业的重要驱动力。 在9月27日于杭州云栖小镇召开的云栖大会“金融智能”专场上,蚂蚁金服集团副总裁、AI首席科学家、达摩院金融智能负责人漆远博士做了开场演讲,向与会嘉宾分享了金融智能方…

SpringBoot 集成 MyBatisPlus 模板

<dependencies><!--对象、字符串等元素判断--><dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.9</version></dependency><!--json处理--><depend…