cassandra可视化工具_一位数据科学家的私房工具清单

08af90f1bae799076d60985b4242ec66.png

作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。

近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:

处理较大、较复杂的类excel数据

  • Pandas -处理tabular(类似Excel)数据的通用工具套件
  • SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。
  • PostgreSQL – 企业级数据库系统

处理空间、地理数据:

  • PostGIS – Postgres的地理空间数据类型扩展
  • Carto – 地理空间数据的商业数据挖掘工具
  • Mapbox – 商业地图绘制工具,同时也是一个web地图系统。
  • Leaflet – 基于网络资源和本地数据开发活动web地图的代码库
  • qGIS – 适用于几乎所有地理空间和地图绘制的图形化GIS工具

处理非常规数据:

  • RethinkDB – 处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。
  • MongoDB – 处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。
  • CouchDB – 与MongoDB有些类似但不尽相同。
  • Cassandra – 图谱和关系数据库

为大规模数据集创建性能代码:

  • Pandas – Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
  • Apache Spark – 一个通用的高性能数据处理系统
  • SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。
  • Cython – 使用用C编译器的Python编译器,用来提升Python性能。
  • PyOpenCL – 在图形显卡上进行数值计算和统计处理。

数据清洗工具

  • ODO – 在不同数据格式间进行转换的Python库。
  • OpenRefine – 拥有图形用户界面的数据发现和清洗工具
  • Pandas – 数据科学任务中用来处理tabular数据的通用Python工具集
  • Scrapy – Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。
  • BeautifulSoup – 与Scrapy类似但不尽相同
  • Scrubadub – 去除个人身份信息
  • Arrow – 帮你轻松驾驭日期和时间戳的Python库
  • DataCleaner – 剔除脏数据的Python库
  • Dora – 与DataCleaner功能类似的Python库。

数据可视化工具

  • Processing – 交互式开发交互式可视化内容. 推荐读本:Visualizing Data
  • D3 – 在web上开发可视化交互
  • C3 – 来自D3的图表.
  • Bokeh – 与D3类似, 但基于Python.
  • matplotlib – 最早的Python数据可视化工具集。
  • Leaflet – 一个为开发移动设备友好的互动地图的开源 JavaScript 库。
  • MapBox -详见地图工具集。
  • qGIS – 详见地图工具集。
  • VTK – 在医疗、

和物理研究领域常用的重型可视化工具包。

数据挖掘和机器学习工具

  • Weka – 一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书
  • SciKitLearn – 基于Python的机器学习和数据挖掘工具套件。
  • Orange – 另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。
  • TensorFlow – Google开源的多维度图谱数学建模工具。

分享、协作以及知识管理工具

  • Django -基于Python的web框架
  • Django REST Framework – 为Django网站创建 REST APIs
  • IRODS – 企业级数据存储和管理,包括元数据管理和基于规则的数据处理。
  • Cassandra (useful for metadata and relationship storage) – 一个存储和查询元数据经常用到的开源分布式数据管理系统
  • GitLab -GitHub的开源替代品,可搭建私人服务器。
  • ReciPy –
  • Prov – Python implementation of the W3C provenance model
  • Kanren (部署基于元数据和数据源信息的业务逻辑非常有用) – 一个描述性Python逻辑编程系统,非常适合科学元数据的查询和基于规则的处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dev C++,一个好玩的猜数字游戏

周末了,看了一点代码,发现有一个好玩的数字游戏,贡献给大家,个人觉得还是挺好玩的。说个题外话,之前写的文章,都是零散的,主要是时间的原因,最近事情有点杂,一说到这个事…

[BZOJ 2500] 幸福的道路

照例先贴题面(汪汪汪) 2500: 幸福的道路 Time Limit: 20 Sec Memory Limit: 256 MBSubmit: 368 Solved: 145[Submit][Status][Discuss]Description 小T与小L终于决定走在一起,他们不想浪费在一起的每一分每一秒,所以他们决定每天早上一同晨练来享受在一…

你手上的PCB怎么制作的?几张动图揭晓工厂生产流程

在PCB出现之前,电路是通过点到点的接线组成的。这种方法的可靠性很低,因为随着电路的老化,线路的破裂会导致线路节点的断路或者短路。绕线技术是电路技术的一个重大进步,这种方法通过将小口径线材绕在连接点的柱子上,提…

linux开发板作为蓝牙音箱,USB 蓝牙适配器在ARM 开发板下的使用

4、可能出现的问题和解决方案:4.1 编译dbus 时出现:1checking for accept4... yeschecking abstract socket namespace... nochecking for pkg-config... (cached) /usr/local/bin/pkg-configchecking pkg-config is at least version 0.9.0... yescheck…

细丝极恐的华为251事件

事情的来龙去脉我就不再详细描述了,我提几个问题点,觉得有点疑惑,也是自己对这个事件的看法。1、李洪元于2005年入职华为,2018年1月离职,在2016年11月21日向公司的投诉邮箱发了一份匿名邮件,至于发邮件的东…

mysql set语句_mysql--乱码解决(6)

1.字符集介绍mysql数据库字符集包括字符集(character)和校对规则(collation)两个概念,其中字符集是用来定义mysql数据字符串的存储方式,而校对规则则是定义比较字符串的方式。2.常见字符集3.解决中文乱码思想:保持linux、服务端、库、表、客户…

C 语言,你真的懂递归了吗?

什么是递归?要说到递归如果不说栈的话,我觉得有点不合适,递归特点就是不断的调用同一个函数,如果这个函数没有一个递归界限,那么就是死循环了,所以讨论递归,就必须要讨论递归的界限,…

github page hexo博客gitee_利用Github和hexo搭建个人免费博客

利用Github和hexo搭建个人免费博客详细过程:概述:详细的介绍了利用github和hexo搭建免费的博客,内容详细,浅显易懂,容易上手,大家一起进来看看吧!1、配置Github相关操作:​ ①新建一…

漫画:三种 “奇葩” 的排序算法

在算法的世界里,有许多高效率的排序算法,比如快速排序、归并排序、桶排序......它们大大提高了程序的性能。但是,也有一些比较奇葩的排序算法,它们既不能做到高效率,也没有很好的可读性。那它们存在的意义是什么呢&…

常用c语言小程序,c语言经典小程序汇总大全

网上有很多的人说编程有多么多么无聊,其实:不要管别人怎么说,别人说什么,做你自己喜欢做的事就好。坚持下来,你会发现编程的乐趣的。当然,如果你觉得学习编程语言很痛苦,坚持了一段时间后无果&a…

opencv 二值化_Python-OpenCV获取图像轮廓的图像处理方法

一、引言在《OpenCV阈值处理函数threshold处理32位彩色图像的案例》介绍了threshold 函数,但threshold 的图像阈值处理对于某些光照不均的图像,这种全局阈值分割的方法并不能得到好的效果。图像阈值化操作中,我们更关心的是从二值化图像中分离…

让你不再害怕指针.pdf

今天推荐一本书,是讲解指针的,C 语言理解指针应该算一个重点,也算是一个难点,这个pdf 文章总结非常好,推荐给大家。想获取书籍Pdf的同学,请在公众号后台回复 「指针」,希望这本书籍让你们不再害…

revit如何根据坐标进行画线_在工程设计中如何根据工艺阀门的结构与特点来进行设计呢?...

在工程设计的实践中发现,因为阀门的种类繁多,每种阀门都有自己的特点,工程设计人员,尤其年轻的设计者由于不太了解阀门的结构和特点往往选错阀门,造成设计失误。系统的了解阀门,对工程设计人员(不是阀门设计…

c语言中二维数组中产生随机数,C语言中是如何进行随机数生成的[多图]

C语言中是如何进行随机数生成的.C语言是编程人员经常会到的一款计算机编程语言,有的朋友想知道怎样使用C语言进行随机数生成,那么就快随小编一起来看看这篇C语言中是如何进行随机数生成的吧!其中不仅为大家介绍了生成随机数的函数,还提供了测试代码!同时为大家附带了随机数字生…

一文带你了解V4L2

1、什么是v4l2V4L2(Video4Linux的缩写)是Linux下关于视频采集相关设备的驱动框架,为驱动和应用程序提供了一套统一的接口规范。V4L2支持的设备十分广泛,但是其中只有很少一部分在本质上是真正的视频设备:•Video captu…

Linux 僵尸进程可以被杀死吗?

在 Unix 进程模型中,父进程和其所产生的子进程是异步运行的,所以如果子进程在结束后,会留下一些信息需要父进程使用 wait / waitpid 来接收。而如果父进程太忙了,没有调用 wait / waitpid 的话,子进程就会变成…

jstl 获取 javascript 定义的变量_前端开发大牛完整总结出了JavaScript 难点 +最新web前端开发教程...

1. 立即执行函数立即执行函数,即Immediately Invoked Function Expression (IIFE),正如它的名字,就是创建函数的同时立即执行。它没有绑定任何事件,也无需等待任何异步操作:立即执行函数function(){…}是一个匿名函数&…

MySQL 5.6.20-enterprise-commercial的参数文件位置问题

今天在折腾MySQL的参数文件时,突然发现MySQL 5.6.20-enterprise-commercial-advanced-log这个版本数据库的参数文件my.cnf的位置有点奇怪,如下所示: [rootDB-Server ~]# mysql --help | grep my.cnforder of preference, my.cnf, $MYSQL_TCP_…

最害怕的是,不知道想要什么

生活在现在的时代,你要是出去吹牛说你与世无争,你看破红尘,你就想开心上班啥也不图,别人要不以为你是一个傻子,要不就以为你是一个家财万贯的主,特别是现在,从2015年开始,房价像吃了…

c语言gcc汇编文件,[汇编]gcc生成汇编.s文件 $ gcc -Og -S sum.c /$ gcc -Og -S -masm=intel sum.c 与 反汇编 objdump...

目录- C语言源码文件:sum.c- gcc 生成的汇编语言文件 sum.sx86-64 AT&T 语法格式x86-64 Intel格式- 反汇编 objdump3.1 输出 AT&T格式 objdump -d sum3.2 输出 Intel格式 objdump -M intel -d sumC语言源码文件:sum.c加法:c a b#in…