如何使用5个Python库管理大数据?

来源 | medium

编译 | 武明利

责编 | Carol

出品 | CSDN云计算(ID:CSDNcloud)

如今,Python真是无处不在。尽管许多看门人争辩说,如果他们不使用比Python更难的语言编写代码,那么一个人是否真是软件开发人员,但它仍然无处不在。

Python被用于自动化,管理网站,分析数据和处理大数据。随着数据的增长,我们对其进行管理的方式越来越需要调整。我们不再局限于仅使用关系型数据库。这也意味着现在有更多与这些新系统进行交互的工具,例如Kafka,Hadoop(具体来说是HBase),Spark,BigQuery和Redshift(仅举几例)。

这些系统中的每一个都利用如分布式、柱状结构和流数据之类的概念来更快地向终端用户提供信息。对于更快、更新的信息需求将促使数据工程师和软件工程师利用这些工具。这就是为什么我们想要提供一些Python库的快速介绍来帮助你。

BigQuery

谷歌BigQuery是一个非常受欢迎的企业仓库,由谷歌云平台(GCP)和Bigtable组合而成。这个云服务可以很好地处理各种大小的数据,并在几秒钟内执行复杂的查询。

BigQuery是一个RESTful网络服务,它使开发人员能够结合谷歌云平台对大量数据集进行交互分析。可以看看下方另一个例子。

之前写过一篇文章里有说明如何连接到BigQuery,然后开始获取有关将与之交互的表和数据集的信息。在这种情况下,Medicare数据集是任何人都可以访问的开源数据集。

关于BigQuery的另一点是,它是在Bigtable上运行的。重要的是要了解该仓库不是事务型数据库。因此,不能将其视为在线交易处理(OLTP)数据库。它是专为大数据而设计的。所以它的工作与千万字节(PB)级的数据集的处理保持一致。

Redshift and Sometimes S3

接下来是亚马逊(Amazon)流行的Redshift和S3。AmazonS3本质上是一项存储服务,用于从互联网上的任何地方存储和检索大量数据。使用这项服务,你只需为实际使用的存储空间付费。另一方面,Redshift是一个管理完善的数据仓库,可以有效地处理千万字节(PB)级的数据。该服务使用SQL和BI工具可以更快地进行查询。

Amazon Redshift和S3作为一个强大的组合来处理数据:使用S3可以将大量数据上传Redshift仓库。用Python编程时,这个功能强大的工具对开发人员来说非常方便。

这是一个选择使用psycopg2的基本连接的脚本。我借用了Jaychoo代码。但是,这再次提供了有关如何连接并从Redshift获取数据的快速指南。

PySpark

让我们离开数据存储系统的世界,来研究有助于我们快速处理数据的工具。Apache Spark是一个非常流行的开源框架,可以执行大规模的分布式数据处理,它也可以用于机器学习。该集群计算框架主要侧重于简化分析。它与弹性分布式数据集(RDD)配合使用,并允许用户处理Spark集群的管理资源。

它通常与其他Apache产品(例如HBase)结合使用。Spark将快速处理数据,然后将其存储到其他数据存储系统上设置的表中。

有时候,安装PySpark可能是个挑战,因为它需要依赖项。你可以看到它运行在JVM之上,因此需要Java的底层基础结构才能运行。然而,在Docker盛行的时代,使用PySpark进行实验更加方便。

阿里巴巴使用PySpark来个性化网页和投放目标广告——正如许多其他大型数据驱动组织一样。

 

Kafka Python

Kafka是一个分布式发布-订阅消息传递系统,它允许用户在复制和分区主题中维护消息源。

这些主题基本上是从客户端接收数据并将其存储在分区中的日志。Kafka Python被设计为与Python接口集成的官方Java客户端。它最好与新的代理商一起使用,并向后兼容所有旧版本。使用KafkaPython编程同时需要引用使用者(KafkaConsumer)和引用生产者(KafkaProducer)。

在Kafka Python中,这两个方面并存。KafkaConsumer基本上是一个高级消息使用者,将用作官方Java客户端。

它要求代理商支持群组API。KafkaProducer是一个异步消息生成器,它的操作方式也非常类似于Java客户端。生产者可以跨线程使用而没有问题,而消费者则需要多线程处理。

Pydoop

让我们解决这个问题。Hadoop本身并不是一个数据存储系统。Hadoop实际上具几个组件,包括MapReduce和Hadoop分布式文件系统(HDFS)。因此,Pydoop在此列表中,但是你需要将Hadoop与其他层(例如Hive)配对,以便更轻松地处理数据。

Pydoop是Hadoop-Python界面,允许与HDFSAPI交互,并使用纯Python代码编写MapReduce工作。

该库允许开发人员无需了解Java即可访问重要的MapReduce功能,例如RecordReader和Partitioner。

对于大多数数据工程师而言,Pydoop本身可能有点太基本了。你们中的大多数人很可能会在Airbow中编写在这些系统之上运行的ETLs。但是,至少对你的工作有一个大致的了解还是很不错的。

从哪里开始呢?

未来几年,管理大数据只会变得越来越困难。由于日益剧增的网络能力——物联网(IoT),改进的计算等等——我们得到的数据将会如洪流般地继续增长。

因此,如果我们想要跟上步伐,,有必要了解一些可用于与这些系统进行交互的数据系统和库。

你有什么看法?欢迎评论区和我们讨论。


推荐阅读:10 个实用功能告诉你,谷歌云(Google Cloud)相对亚马逊云(AWS)有哪些优势?
我是如何用6个月,从0编程经验变成数据科学家的?
爱荷华大选 App 投票酿闹剧的反思:为什么我们在软件工程方面如此糟糕?
愿得一心人:硅谷亿万富豪们的婚姻怎样?有人白首相守七十年
一文告诉你,如何使用Python构建一个“谷歌搜索”系统 | 内附代码
区块链的阴暗面
真香,朕在看了!猛戳“阅读原文”,填写中国远程办公-调查问卷

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519239.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何把创建ECS(CreateInstance)作为触发器来触发函数计算

问题描述 函数计算虽然不支持直接集成到ECS的管控事件上,但是函数计算本身是支持日志服务作为触发器的。即可以配置日志服务中logstore里的增强日志作为触发器来触发函数计算服务中的函数,同时可以传递project 和 logstore的name以及beginCursor/endCur…

ORACLE添加字段、删除字段

文章目录1. 删除表2. 创建表3. 添加字段4. 删除指定字段5. 修改指定字段长度1. 删除表 DROP TABLE SYS_JOB;2. 创建表 -- CREATE TABLE CREATE TABLE SYS_JOB (JOB_ID NUMBER(30) NOT NULL,JOB_NAME VARCHAR2(30) NOT NULL ); ALTER TABLE SYS_JOB ADD CONSTRA…

像数据科学家一样思考:12步指南(中)

像数据科学家一样思考:12步指南(上)《像数据科学家一样思考》 7-工程产品 下一步是建立统计软件。如果统计是分析和从数据中得出结论的框架,那么软件就是将这个框架付诸行动的工具。数据科学家必须为任何项目做出许多软件选择。如…

2020云计算,是四强争霸还是赢家通吃?

来源 | 架构师技术联盟责编 | Carol出品 | CSDN云计算(ID:CSDNcloud)近日,谷歌母公司Alphabet首次公布了谷歌云计算业务的数据,这一举动将云计算行业重新推到了聚光灯下。众所周知,全球云市场竞争激烈&…

加载程序中数据库账号密码加密策略wallet_04

文章目录1. 切换到oracle用户2. 创建wallet目录3. 创建wallet 账户4. 查看创建的wallet5. 创建wallet目录6. 查看证书7. 把证书拷贝到客户端8. 在客户端的sqlnet.ora里添加9. 客户端的tnsnames.ora10. 测试登陆11. oracle环境变量oracle服务端创建wallet 1. 切换到oracle用户 …

利用丁香园数据生成疫情分布地图(R语言)| 博文精选

来源 | CSDN 博客作者 | 万里写入胸怀间责编 | Carol出品 | CSDN云计算(ID:CSDNcloud)疫情牵动大家,除了做好分内工作,管好自己不给社会添乱,也就是只能持续关注疫情了。现在各大门户平台都上线了疫情实时地…

php连接数据库性能测试,无需安装配置,多操作系统支持数据库及性能测试

iBoxDB是一个NoSQL数据库, 有SQLite的特性,但拥有更强大的Replication功能,支持更多的数据类型,自动完成ORMSQLite是全球知名度Top 10的数据库之一, 在文章 中对 SQLite 与 MySQL进行了一个事务中1万次插入测试, 测试的结果是"sqlite3用时仅0.4s,mysql用时2.2s"iBoxD…

ORACLE 添加和查看注释

文章目录一、表二、字段一、表 #1.给表加注释 COMMENT ON TABLE SYS_JOB IS 任务调度表;#2.查看表的COMMENT SELECT * FROM USER_TAB_COMMENTS WHERE TABLE_NAMETABLENAME; 例如: SELECT * FROM USER_TAB_COMMENTS WHERE TABLE_NAMESYS_JOB;二、字段 # 1.给字段加…

一次开发、多端分发,阿里巴巴发布AliOS车载小程序

4月16日上海国际车展首日,阿里巴巴小程序有了新动态:正在研发基于AliOS的车载小程序。 AliOS展出车载小程序、AI HUD、AI驾驶舱等最新技术 作为阿里巴巴小程序在车载场景的重要延伸,AliOS车载小程序和支付宝、高德等小程序一样,将…

基于TableStore的海量气象格点数据解决方案实战

前言 气象数据是一类典型的大数据,具有数据量大、时效性高、数据种类丰富等特点。气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量,每天产生的数据量常在几十TB到上百TB的规模,且在…

腾讯会议扩容背后:100万核计算资源全由自研服务器星星海支撑

疫情期间,远程会议及协同办公需求暴增。从1月29日开始到2月6日,腾讯会议每天都在进行资源扩容,日均扩容云主机接近1.5万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入。 值得一提的是,腾讯…

实时计算无线数据分析

本文为您介绍实时计算在无线数据分析中的应用。阿里云实时计算可以为无线App的数据分析场景实时化助力,帮助您做到实时化分析手机AP的各项指标,包括App版本分布情况、Crash检测和等。 阿里云移动数据分析 (Mobile Analytics,下面简称MAN) 是…

对话阿里云Alex Chen:下一代存储应如何面对云转型?

数字经济"乘云而上"。 十年前,阿里云开始自主研发云计算操作系统飞天之路,开启了中国云时代; 十年后,阿里云在中国市场份额超过2-8名总和,培育了整个中国云计算市场,数字经济在云上蓬勃发展。 …

写给大数据从业者:数据科学的5个陷阱与缺陷

来源 | AI 前线作者 | 陈炬,责编 | Carol出品 | CSDN云计算(ID:CSDNcloud)导读: 这篇分享主要总结了数据从业人员在实践中可能遇到的陷阱与缺陷。跟其他新起的行业一样,数据科学从业人员需要不停的去考虑现…

阿里云数据库自研产品亮相国际顶级会议ICDE 推动云原生数据库成为行业标准

4月9日,澳门当地时间下午4:00-5:30,阿里云在ICDE 2019举办了主题为“云时代的数据库”的专场分享研讨会。 本次专场研讨会由阿里巴巴集团副总裁、高级研究员,阿里云智能数据库产品事业部负责人李飞飞(花名:飞刀&#…

大神如何一招完美解决Hadoop集群无法正常关闭的问题!| 博文精选

来源 | CSDN 博客作者 | Alice菌,责编 | Carol出品 | CSDN云计算(ID:CSDNcloud)相信对于大部分的大数据初学者来说,一定遇见过Hadoop集群无法正常关闭的情况。有时候当我们更改了Hadoop内组件的配置文件后,…

现代IM系统中的消息系统架构 - 架构篇

前言 IM全称是『Instant Messaging』,中文名是即时通讯。在这个高度信息化的移动互联网时代,生活中IM类产品已经成为必备品,比较有名的如钉钉、微信、QQ等以IM为核心功能的产品。当然目前微信已经成长为一个生态型产品,但其核心功…

华南地区最大数据中心上线 阿里云河源数据中心正式开服

2月18日,阿里云在官网宣布,河源数据中心正式对外提供服务。这是华南地区规模最大的绿色数据中心,可容纳超过30万台服务器,作为深圳地域的新可用区为华南地区上百万企业客户提供领先的云计算、人工智能、物联网等服务。 据悉&#…

在阿里做了五年技术主管,我有话想说

阿里妹导读:在历史文章《如何成为优秀的技术主管?》中,阿里巴巴高级技术专家云狄从开发规范、开发流程、技术规划与管理三个角度,分享对技术 TL 的理解与思考。 今天的文章,他将继续深入探讨这一话题,从管理…