cassandra可视化工具_一位数据科学家的私房工具清单

08af90f1bae799076d60985b4242ec66.png

作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。

近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:

处理较大、较复杂的类excel数据

  • Pandas -处理tabular(类似Excel)数据的通用工具套件
  • SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。
  • PostgreSQL – 企业级数据库系统

处理空间、地理数据:

  • PostGIS – Postgres的地理空间数据类型扩展
  • Carto – 地理空间数据的商业数据挖掘工具
  • Mapbox – 商业地图绘制工具,同时也是一个web地图系统。
  • Leaflet – 基于网络资源和本地数据开发活动web地图的代码库
  • qGIS – 适用于几乎所有地理空间和地图绘制的图形化GIS工具

处理非常规数据:

  • RethinkDB – 处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。
  • MongoDB – 处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。
  • CouchDB – 与MongoDB有些类似但不尽相同。
  • Cassandra – 图谱和关系数据库

为大规模数据集创建性能代码:

  • Pandas – Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
  • Apache Spark – 一个通用的高性能数据处理系统
  • SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。
  • Cython – 使用用C编译器的Python编译器,用来提升Python性能。
  • PyOpenCL – 在图形显卡上进行数值计算和统计处理。

数据清洗工具

  • ODO – 在不同数据格式间进行转换的Python库。
  • OpenRefine – 拥有图形用户界面的数据发现和清洗工具
  • Pandas – 数据科学任务中用来处理tabular数据的通用Python工具集
  • Scrapy – Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。
  • BeautifulSoup – 与Scrapy类似但不尽相同
  • Scrubadub – 去除个人身份信息
  • Arrow – 帮你轻松驾驭日期和时间戳的Python库
  • DataCleaner – 剔除脏数据的Python库
  • Dora – 与DataCleaner功能类似的Python库。

数据可视化工具

  • Processing – 交互式开发交互式可视化内容. 推荐读本:Visualizing Data
  • D3 – 在web上开发可视化交互
  • C3 – 来自D3的图表.
  • Bokeh – 与D3类似, 但基于Python.
  • matplotlib – 最早的Python数据可视化工具集。
  • Leaflet – 一个为开发移动设备友好的互动地图的开源 JavaScript 库。
  • MapBox -详见地图工具集。
  • qGIS – 详见地图工具集。
  • VTK – 在医疗、

和物理研究领域常用的重型可视化工具包。

数据挖掘和机器学习工具

  • Weka – 一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书
  • SciKitLearn – 基于Python的机器学习和数据挖掘工具套件。
  • Orange – 另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。
  • TensorFlow – Google开源的多维度图谱数学建模工具。

分享、协作以及知识管理工具

  • Django -基于Python的web框架
  • Django REST Framework – 为Django网站创建 REST APIs
  • IRODS – 企业级数据存储和管理,包括元数据管理和基于规则的数据处理。
  • Cassandra (useful for metadata and relationship storage) – 一个存储和查询元数据经常用到的开源分布式数据管理系统
  • GitLab -GitHub的开源替代品,可搭建私人服务器。
  • ReciPy –
  • Prov – Python implementation of the W3C provenance model
  • Kanren (部署基于元数据和数据源信息的业务逻辑非常有用) – 一个描述性Python逻辑编程系统,非常适合科学元数据的查询和基于规则的处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dev C++,一个好玩的猜数字游戏

周末了,看了一点代码,发现有一个好玩的数字游戏,贡献给大家,个人觉得还是挺好玩的。说个题外话,之前写的文章,都是零散的,主要是时间的原因,最近事情有点杂,一说到这个事…

[BZOJ 2500] 幸福的道路

照例先贴题面(汪汪汪) 2500: 幸福的道路 Time Limit: 20 Sec Memory Limit: 256 MBSubmit: 368 Solved: 145[Submit][Status][Discuss]Description 小T与小L终于决定走在一起,他们不想浪费在一起的每一分每一秒,所以他们决定每天早上一同晨练来享受在一…

c语言如何赋值星期到字母,C语言程序设计课程教案.doc

C语言程序设计课程教案《C语言程序设计》课程教案课题C语言概述课型新授课授课日期课时2教学目的1、了解C语言的特点;2、掌握C简单程序的结构;3、熟练掌握C程序的编辑、编译、链接和运行的过程。教学重点难点教学重点:C语言的特点与编程环境教…

python高并发架构_python高并发的解决方案

一.cdn加速 简单说就是把静态资源放到别人服务器上 全称:Content Delivery Network或Content Ddistribute Network,即内容分发网络 基本思路: 尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过…

你手上的PCB怎么制作的?几张动图揭晓工厂生产流程

在PCB出现之前,电路是通过点到点的接线组成的。这种方法的可靠性很低,因为随着电路的老化,线路的破裂会导致线路节点的断路或者短路。绕线技术是电路技术的一个重大进步,这种方法通过将小口径线材绕在连接点的柱子上,提…

ANR

出现类型: 1、按键或触摸事件在规定事件内未响应。 2、BroadcastReceiver在特定时间内未完成处理。 3、小概率service在特定时间内为完成处理。 常见的超时引发的ANR Activity: onCreate(), onResume(), onDestroy(), onKeyDown(), onClick()等,超时时间…

linux开发板作为蓝牙音箱,USB 蓝牙适配器在ARM 开发板下的使用

4、可能出现的问题和解决方案:4.1 编译dbus 时出现:1checking for accept4... yeschecking abstract socket namespace... nochecking for pkg-config... (cached) /usr/local/bin/pkg-configchecking pkg-config is at least version 0.9.0... yescheck…

细丝极恐的华为251事件

事情的来龙去脉我就不再详细描述了,我提几个问题点,觉得有点疑惑,也是自己对这个事件的看法。1、李洪元于2005年入职华为,2018年1月离职,在2016年11月21日向公司的投诉邮箱发了一份匿名邮件,至于发邮件的东…

mysql set语句_mysql--乱码解决(6)

1.字符集介绍mysql数据库字符集包括字符集(character)和校对规则(collation)两个概念,其中字符集是用来定义mysql数据字符串的存储方式,而校对规则则是定义比较字符串的方式。2.常见字符集3.解决中文乱码思想:保持linux、服务端、库、表、客户…

Android WebView常见问题及解决方案汇总【很全很实用】

http://www.cnblogs.com/olartan/p/5713013.html转载于:https://www.cnblogs.com/genggeng/p/7196484.html

c语言中字符 12是多少,c语言中字符串的讲解(DOC可编).doc

c语言中字符串的讲解(DOC可编).doc第一部分:字符串的概念---字符串:用双引号引起来的一串字符。在C语言,系统将自动的为字符串添加一个结束标志\0 ,该结束标志不作为字符串的实际长度,但作为结束标志在内存中占有1个字节的存储空间。例如: "abc&quo…

C 语言,你真的懂递归了吗?

什么是递归?要说到递归如果不说栈的话,我觉得有点不合适,递归特点就是不断的调用同一个函数,如果这个函数没有一个递归界限,那么就是死循环了,所以讨论递归,就必须要讨论递归的界限,…

github page hexo博客gitee_利用Github和hexo搭建个人免费博客

利用Github和hexo搭建个人免费博客详细过程:概述:详细的介绍了利用github和hexo搭建免费的博客,内容详细,浅显易懂,容易上手,大家一起进来看看吧!1、配置Github相关操作:​ ①新建一…

CURL常用命令

地址 http://www.cnblogs.com/gbyukg/p/3326825.html 转载于:https://www.cnblogs.com/jason886/p/7198825.html

漫画:三种 “奇葩” 的排序算法

在算法的世界里,有许多高效率的排序算法,比如快速排序、归并排序、桶排序......它们大大提高了程序的性能。但是,也有一些比较奇葩的排序算法,它们既不能做到高效率,也没有很好的可读性。那它们存在的意义是什么呢&…

常用c语言小程序,c语言经典小程序汇总大全

网上有很多的人说编程有多么多么无聊,其实:不要管别人怎么说,别人说什么,做你自己喜欢做的事就好。坚持下来,你会发现编程的乐趣的。当然,如果你觉得学习编程语言很痛苦,坚持了一段时间后无果&a…

opencv 二值化_Python-OpenCV获取图像轮廓的图像处理方法

一、引言在《OpenCV阈值处理函数threshold处理32位彩色图像的案例》介绍了threshold 函数,但threshold 的图像阈值处理对于某些光照不均的图像,这种全局阈值分割的方法并不能得到好的效果。图像阈值化操作中,我们更关心的是从二值化图像中分离…

让你不再害怕指针.pdf

今天推荐一本书,是讲解指针的,C 语言理解指针应该算一个重点,也算是一个难点,这个pdf 文章总结非常好,推荐给大家。想获取书籍Pdf的同学,请在公众号后台回复 「指针」,希望这本书籍让你们不再害…

【Python】模块学习之ConfigParser读写配置信息

前言 使用配置文件可以在不修改程序的情况下,做到对程序功能的定制。Python 使用自带的configParser模块可以很方便的读写配置文件的信息。 configParser 支持的方法 ConfigParser模块支持很多种读取数据的方法,最常用的是get方法,通过sectio…

revit如何根据坐标进行画线_在工程设计中如何根据工艺阀门的结构与特点来进行设计呢?...

在工程设计的实践中发现,因为阀门的种类繁多,每种阀门都有自己的特点,工程设计人员,尤其年轻的设计者由于不太了解阀门的结构和特点往往选错阀门,造成设计失误。系统的了解阀门,对工程设计人员(不是阀门设计…