【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合

摘要: MaxCompute大家都不陌生,之前产品名称叫ODPS,之后随国际化而更名。从支持阿里集团内部99%数据业务到计算能力对外输出,帮助政府、互联网公司、金融等进行大数据项目服务,使得数据变现。很多开发者都会把MaxCompute和开源社区Hadoop、hive进行比较,此处不做过多评论,各有优势。

点击查看原文

MaxCompute大家都不陌生,之前产品名称叫ODPS,之后随国际化而更名。从支持阿里集团内部99%数据业务到计算能力对外输出,帮助政府、互联网公司、金融等进行大数据项目服务,使得数据变现。很多开发者都会把MaxCompute和开源社区Hadoop、hive进行比较,此处不做过多评论,各有优势。但是不得不说MaxCompute这几年在生态上向前走了一大步。

关于 MaxCompute2.0 对开源系统的支持与融合 的整体介绍及团队规划,详见文档。

最近,我也针对MaxCompute在生态融合上也进行了一些研究和拜读,因为现在资料还比较零散,就把自己在过程中遇到的好材料统一为大家梳理如下,包括SDK、JDBC等。
MaxCompute SDK
首先我们先来看SDK,想必很多有能力的互联网公司都有大量的个性化需求,都会对SDK/API有一些需求,比如小黄车这样的体量大的客户,就基于MaxCompute SDK做了大量的应用。那具体SDK包括Java、Python、R以及PHP(PHP为社区提供,并非阿里云官方出品,但都可以满足大部分需求)。

Java SDK:MaxCompute团队官方开发并维护,具体可以详见:官网文档 和 SDK Java DOC
Python SDK:MaxCompute团队官方开发并维护的PyODPS,具体可以详见:官网文档 和 云栖社区博客。

更大强大的功能,大家可以期待下团队将在北京云栖大会对外正式公测的python UDF,这将大大的提高python开发者对MaxCompute的开发效率和功能。
R SDK:RODPS也较大满足开发者使用R做数据分析的需求,具体安装及使用可以详见 云栖社区博文

PHP SDK:PHP SDK并非MaxCompute团队官方出品,由社区招募完成开发工作,具体有PHP需求的同学也可以参考PHP SDK文档,可以满足PHP开发的大部分需求。
Ruby SDK:同PHP SDK由开源爱好者贡献,具体详见:https://github.com/aliyun-beta/aliyun-odps-ruby-sdk

MaxCompute JDBC 2.2 发布说明
对接已有软件并提供标准JDBC编程接口,MaxCompute JDBC 2.2正式版已于2017年2月24日正式发布。
github地址:https://github.com/aliyun/aliyun-odps-jdbc/releases/tag/v2.2
V2.2详细说明:https://yq.aliyun.com/articles/72791
V2.0详细说明:https://yq.aliyun.com/articles/59443
通过Apache Zeppelin 快速实现数据可视化
借力QlikView玩转数据分析

Hive Proxy
提供Hive Thrift协议兼容接口,对接Hive社区已有的工具。Hive Proxy 部署在客户端,将 Hive 的 thrift 请求转换成 MaxCompute 的 Restful API 请求,可以用来直接对接诸如 Tableau、Qlik 这样不直接支持 JDBC 的 BI 工具,或者 HPL 这样的 Hive 组件,详见 博文。

示例1:复用Hive ODBC实现Tableau到MaxCompute的连通
示例2:复用Hive JDBC实现Beeline到MaxCompute的连通
具体详见:https://yq.aliyun.com/articles/61262

ETL tool-数据上云工具

Kettle:[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云
sqoop:MaxCompute有一款是基于社区sqoop 1.4.6版本开发的Sqoop,增加了对MaxCompute的支持,可以支持将数据从Mysql等关系数据库和MaxCompute的导入和导出,也支持从Hdfs/Hive导入数据到MaxCompute的表中。 具体用法可以参考:https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/odps-sqoop
OGG:主要适用于源库为Oracle,可以通过其采集实时更新数据到DataHub中。 通过OGG将数据采集至MaxCompute/基于OGG Datahub插件将Oracle数据同步上云
Fluentd:该插件遵守Fluentd输出插件开发规范,安装方便,可以很方便地将采集得到的数据写到DataHub。通过Fluentd将数据采集至MaxCompute
Flume:Flume插件下载并安装地址,基于Apache Flume Datahub插件将日志数据同步上云,点击进入
Logstash:Logstash是一种分布式日志收集框架,非常简洁强大,经常与ElasticSearch,Kibana配置,组成著名的ELK技术栈,非常适合用来做日志数据的分析。 通过Logstash将日志数据采集至MaxCompute。

关于Logstash将日志采集MaxCompute,然后做数据分析有详细step by step 文档,点击进入。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql event 变量_mysql 中event的用法

二、适用范围对于每隔一段时间就有固定需求的操作,如创建表,删除数据等操作,可以使用event来处理。例如:使用event在每月的1日凌晨1点自动创建下个月需要使用的三张表。三、使用权限开启event :(1)执行 SET GLOBAL eve…

第3篇:Flowable-IDM详述

接上一篇: 第2篇:Flowable启动 https://blog.csdn.net/weixin_40816738/article/details/102875324 文章目录一、Flowable-IDM功能二、Flowable-IDM登录地址三、Flowable-IDM登录用户和页面四、Flowable-IDM用户管理页面五、Flowable-IDM用户组管理页面六…

比“5G有多快”更重要的,是5G将带来哪些改变

戳蓝字“CSDN云计算”关注我们哦!“速度,其实是5G最无聊的应用。”北京邮电大学20岁的何同学,在他制作的一个火遍全网的视频中,用这句话结尾。5G,对我们普通人而言,是个熟悉又陌生的词。由于它是中美贸易战…

阿里云新推出 HiTSDB + IoT套件 物联网设备上云步入快车道

摘要: 阿里云针对物联网企业遇到的5大痛点,提供了HiTSDB IoT 套件的一体化解决方案,能够支持物联设备快速上云,高效设备管理,数据安全,低成本海量数据存储,实时掌握设备状态,快速发现…

阿里云 MVP技术直播——缪政辉教你如何搭建万能LNMP环境

摘要: 阿里云 MVP 缪政辉开直播咯!快把这个好消息告诉你身边热爱技术,喜欢云计算的同学! 缪政辉是谁? 网名妙正灰,真名和网名读法一致。阿里云第三季新晋MVP,电商在读大学生。云计算领域罕见的文…

第4篇:Flowable-Modeler详述之流程概述

接上一篇 第3篇:Flowable-IDM详述 https://blog.csdn.net/weixin_40816738/article/details/102885902 文章目录一、Flowable-Modeler功能1. 提供可视化编辑器2. 提供可视化参数配置3. 提供导入导出功能二、Flowable-Modeler界面之流程介绍三、Flowable-Modeler之创…

数据库mysql中贴换函数_关于一个自定义MYSQL函数,实现点击链接后,在数据库里改变数据的问题。...

展开全部嗯... 回答你这个问题比较纠62616964757a686964616fe4b893e5b19e31333332626161结, 因为看情况你已经完全把前端代码和后台代码混为一谈了.那么下面就容忍我废话一点吧, 我也只能这样回答你的问题了.#首先简述一下数据交互的原理:前台向服务器发出GET请求或POST请求来请…

MaxCompute - ODPS重装上阵 第四弹 - CTE,VALUES,SEMIJOIN

摘要: MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力…

Kubernetes端到端解决方案Part3:如何正确部署Kubernetes

戳蓝字“CSDN云计算”关注我们哦!在之前的文章中我们向您介绍了Kubernetes的入门挑战以及如何执行端到端的即服务解决方案。本篇文章,我们将继续探讨如何正确部署Kubernetes,并探索服务编排解决方案。01如何正确部署Kubernetes?在我们进一步…

浅谈PyODPS

摘要: 在我看来,PyODPS就是阿里云上的Python。值得注意的是,这里的定语“阿里云上的”一定不能精简掉,因为PyODPS不等于单机版的Python! 点此查看原文 目录 我眼中的PyODPS 安装和升级PyODPS版本 PyODPS的牛刀小试 …

第5篇:Flowable-Modeler详述之开发环境搭建

接上一篇: 第4篇:Flowable-Modeler详述之流程概述 https://blog.csdn.net/weixin_40816738/article/details/102886712 文章目录一、环境搭建1. 下载/安装jdk2. 安装mysql 5.73. 安装idea4. 配置maven4.1. 配置maven仓库4.2. mirrors中添加阿里服务器4.3…

mysql选中一行数据_获取table选中一行数据库

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里云数据库专家保驾护航,为用户…

【2018开年知识盛会】15位大咖直播分享,全方位解析NoSQL数据库

摘要: 2018年开年伊始,阿里云数据库团队将为大家带来一场别开生面的知识盛会,15位大咖汇聚云栖社区,带来18小时数据库干货分享! 点此查看原文 2018年开年伊始,阿里云数据库团队将为大家带来一场别开生面的知…

SUSE,为企业云原生打造多模平台

戳蓝字“CSDN云计算”关注我们哦!技术头条:干货、简洁、多维全面。更多云计算精华知识尽在眼前,get要点、solve难题,统统不在话下!如今,数字化转型已经成为大势所趋,没有完成数字化转型的企业将…

云端资源,“掌”握手中 ——关于 阿里云 App你不知道的五件事

摘要: 如果购买过阿里云的产品,亦或是关注着云计算的发展,那么你应该听说过阿里云官方推出的这款移动端应用 —— “阿里云 App”,它是云厂商中较早推出的移动端应用,功能较其他云厂商的移动端应用更为丰富。通过关注核…

php mysql5.7.110安装教程_MYSQL教程mysql5.7.19 winx64安装配置方法图文教程(win10)

《MYSQL教程mysql5.7.19 winx64安装配置方法图文教程(win10)》要点:本文介绍了MYSQL教程mysql5.7.19 winx64安装配置方法图文教程(win10),希望对您有用。如果有疑问,可以联系我们。mysql 5.7.19 winx64安装教程记录如下,分享给大家MYSQL数据库…

Mysql代码生成器转Oracle代码生成

Mysql代码生成转Oracle代码生成 文章目录1. 删除/替换数据2. 新增database_info表3. 插入默认数据库4. 修改数据库操作工具类(重点是查询sql)5. 修改生成(menu_sql.sql.btl)模板6. 表结构替换附上:修改后的Oracle执行sqldrop tables1. 删除/替…

提升普适性,阿里云官方SDK发布支持Go语言SDK

摘要: 日前,阿里云官方SDK发布支持新语言——Go 语言SDK,意味着90%以上产品可以随时生成并发布Go SDK,给Go语言的开发者使用。 此次阿里云发布支持Go SDK的新功能,可以让Go语言开发者更加便捷地使用SDK调用产品API来操…

Spring精华问答 | 为何使用Spring?

Spring框架是一个开源的Java平台,它提供了非常容易,非常迅速地开发健壮的Java应用程序的全面的基础设施支持。今天就让我们来看看关于Spring的精华问答吧。1Q:Spring的目标是什么?A:Spring官方主页(http://spring.io)有…

javaweb初体验

javaweb初体验 文章目录 javaweb初体验前言一、流程:1.创建Maven的父工程2.创建Maven,Webapp的子工程3.在pom.xml文件中添加依赖(父工程与子工程共用)4.写一个helloservlet类实现httpservlet接口,重写doget&#xff0c…