超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!)

开源大数据社区 & 阿里云 EMR 系列直播 第四期

主题:Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
讲师:棕泽,阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人
内容框架:

  • Databricks 数据洞察产品介绍
  • 功能介绍
  • 典型场景
  • 客户案例
  • 产品Demo

直播回放:扫描文章底部二维码加入钉群观看回放


一、Databricks 数据洞察产品介绍

1、 Databricks 公司简介
2、 什么是阿里云 Databricks 数据洞察产品

01\ Databricks 公司简介

640 (11).png

① ApacheSpark 创始公司,也是 Spark 的最大代码贡献者,Spark 技术生态背后的商业公司。

在2013年,由加州大学伯克利分校 AMPLab 的创始团队 ApacheSpark 的创建者所成立。

② 核心产品和技术,主导和推进 Spark 开源生态

ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform

③ 公司定位

  • Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据科学和人工智能方面的服务,一体化的 Lakehouse 架构
  • 开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品
  • 多云策略,与顶级云服务商合作,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化分析平台

④ 市场地位

  • 科技独角兽,行业标杆,领导Spark整体技术生态的走向及风向标
  • 2021年最受期待的科技上市公司

02\ Databricks 公司估值及融资历史

(来源 Databricks 官网)

① 2019年10月G轮,估值 $ 6.2 Billion

② 2021年2月初F轮,估值 $ 28 Billion

  • 本轮融资,三大云服务商 AWS、GCP、MSAzure 以及 Salesforce 都进行了跟投——足以看到云厂商对 Databricks 的发展的重视
  • 上市预期:计划 IPO 在2021年——多方预测 Databricks 上市之时其估值可能达到350亿美元,甚至是高达500亿美元

640.png

03\ Databricks 和阿里云联手打造的高品质 Spark 大数据分析平台

640 (1).png

  • Apache Spark 背后的商业公司,Spark 创始团队,美国科技独角兽
  • 在全球拥有5,000多个客户和450多个合作伙伴,品牌认知强
  • 2020年,在 Gartner 发布的数据科学和机器学习(DSML)平台魔力象限报告中,位于领导者象限

640 (2).png
640 (3).png

04\ Databricks + 阿里云 = Databricks 数据洞察

Dingtalk_20210524160041.jpg

产品核心:

  • 基于商业版 Spark 的全托管大数据分析& AI 平台
  • 内置商业版 Spark 引擎 Databricks Runtime ,在计算层面提供高效、稳定的保障
  • 与阿里云产品集成互通,提供数据安全、动态扩容、监控告警等企业级特性

产品引擎与服务:

  • 100% 兼容开源 Spark,经阿里云与 Databricks 联合研发性能优化
  • 提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务

640 (4).png

DDI 产品能力核心构件

640 (5).png

产品关键信息与优势

640 (6).png

二、DDI 产品功能介绍

1、整体架构
2、引擎能力
3、性能
4、功能
5、成本

01\ 阿里云 Databricks 数据洞察 (DDI) 架构

640 (7).png

02\ 引擎:企业级性能优化,提升计算引擎效率和数据读写效率

企业级高性能、稳定性、可靠性

640 (8).png

03\ 企业级 Databricks Runtime vs 社区版 Open Source Spark

640 (9).png

04\ 基于计算存储分离的架构,HDFS vs OSS 成本的对比

640 (10).png

05\ 基于 JindoFS 进行 OSS 访问优化加速,优化数据访问性能

640 (12).png

06\ 交互式分析 Notebook ,聚集数据

优化的 Apache Zeppelin

  • 多语言支持
  • Scala、Python、Spark SQL、R
  • 交互式分析
  • 数据可视化
  • 集成调度能力
  • 一站式开发平台
  • 多用户协作开发

640 (13).png

07\ 数据开发作业提交 & 工作流调度

  • 支持 jar 包提交作业及作业调度能力
  • 支持 Spark/Spark Streaming/Notebook
  • 不同作业类型工作流混合调度
  • 支持调度运维、审计日志、版本控制等

640 (14).png

08\ 丰富的数据源支持

640 (15).png

09\ 元数据管理

三种元数据选择的方式

640 (16).png

三、典型场景

1、客户存在的痛点问题及 DDI 如何解决
2、Lambda 架构到批流一体架构
3、Lakehouse 架构的演进
4、DDI 在阿里云中产品的组合

01\ 开源大数据平台客户普遍存在的痛点问题

640 (17).png

02\ Databricks 数据洞察在四大场景帮助客户提升生产效率

640 (18).png

03\ Delta Lake 的项目背景以及要解决的问题

640 (19).png

04\ 大数据发展进入 Lake House 时代

640 (20).png

05\ 使用 DDI 构建批流一体数仓,简化复杂架构

640 (21).png

delta_lake.png

06\ DDI 在阿里云产品中的组合

640 (22).png

07\ Databricks 数据洞察典型架构

DDI 与阿里云产品深度集成(典型场景)

数据获取

  • 接收实时产生的流式数据和外部云存储上批量数据。

数据 ETL

  • 持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障。

BI报表数据分析 & 交互式分析

  • 支持 Ad hoc 查询,Notebook 可视化分析,无缝对接多种BI分析工具。

AI数据探索

  • 支持机器学习,Mllib 等 Spark 生态 AI 场景。

上下游网络打通

  • 如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等。

四、典型场景客户案例介绍

1、基智科技(STEPONE)自建上云案例
2、工业制造头部公司数据分析案例

客户案例 01:基智科技(STEPONE)Databricks 上云迁移

本架构描述利用 Databricks 数据洞察 解决客户大数据计算问题:

  • 数据存储:自建 Hive数仓-》OSS (降低存储成本,同时做计算存储分离)
  • 大数据分析:自建 CDH -》Databricks 数据洞察(全托管 Spark ,高性能 Runtime 引擎,Notebook 交互式分析,工作流 DAG 调度, Python 库的安装方便等)
  • 元数据:自建 CDH -》RDS MySQL 自建元数据库或使用 DDI 统一元数据库
  • 数据迁移:使用 DistCp 或 JindoDistCp 将数据迁移到 OSS,数据结果同步继续使用Sqoop 定时任务

640 (23).png

客户成本收益分析

  • 全托管 Spark 集群免运维,节省人力成本(省1运维+ 1大数据,此外免去性能调优)
  • 相比自建机器资源多了3倍,此外算上 Databricks Runtime 相比开源 spark 来说(预估3倍),整体性能提升9倍
  • Notebook 交互式分析+ DAG 工作流调度,提升数据开发/分析体验
  • 技术方案统一,计算存储分离方案 OSS 存储节省客户存储成本,并为以后数据湖、多计算架构铺路
  • Delta Lake 解决了客户增量数据更新的问题

640 (24).png

客户案例 02:工业制造头部空调公司– 大数据分析方案架构

  • 数据收集/存储: 接收实时产生的流式数据和外部云存储上批量数据
  • 数据 ETL:持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障
  • BI数据分析&交互式分析: 支持查询,Notebook 可视化分析,无缝对接多种BI分析工具
  • 数据科学:支持机器学习/深度学习
  • ⽣态对接:如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等

640 (25).png

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513327.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Alluxio完成C轮5000万美元融资,新设中国区总部力拓国内市场

编辑 | 宋慧 出品 | CSDN云计算 头图 | 付费下载于 IC photo 11月17日,全球开源的云原生数据编排软件开发商Alluxio宣布完成5000万美元C轮融资,该轮融资由新投资方高瓴创投领投,战略投资方和原股东a16z, Seven Seas Partners,火…

关于架构师:角色、能力和挑战

简介: 成为一名架构师可能是很多开发者的技术追求之一。那么如何理解架构?架构师是一个什么样的角色,需要具备什么样的能力?在架构师的道路上,会面临哪些挑战?本文作者道延分享他对架构以及架构师的思考和相…

php 网站移动端自适应,HTML5 移动端自适应布局

场景:为适应各种大小的屏幕自适应布局我知道的两种方式1.使用媒体查询,下面制定了几种适应方式,例如第一个表示屏幕宽度在320px-360px之间的,html字体大小适配为13.65pxmedia only screen and (max-width: 360px) and (min-width:…

python avg_python闭包

本文分为如下几个部分什么是闭包闭包与装饰器闭包等价——偏函数闭包等价——类闭包等价——其他闭包用于捕获状态值闭包等价——协程三种方法实现动态均值什么是闭包闭包是携带着一些自由变量的函数。我们直接来看一个例子def fun_out(a):def fun_in(b):return a breturn fun…

云上技术 | 混合云管理平台多Region架构

简介: 随着现代化进程加速,企业业务规模和迭代速度也今非昔比,在已具备一定规模的中大型电力系统中,会面临着数字化升级的压力,包括复杂组织架构管理、计算资源弹性扩展、IT运维提效等需求。基于电力行业属性部署一朵专…

超值爆赞丨Java 程序员推荐的学习教程,刷爆了朋友圈...

文内福利,扫码免费领取Hello,各位锋迷们,我是小千。很多学习Java的小伙伴都在找的全套免费java视频教程,这里全都有,资料齐全,拿来吧你!零基础学Java的学习路线图是怎样的?&#xff…

cas server php下载,关于用CAS Server与Php、Jetty配置实现SSO#4

最早由Yale开发的CAS在目前开源SSO市场上占据了80%的份额。简单研究了一下,感觉CAS确实比较成熟,认证流程均可通过证书保证安全,也提供了对多种App服务器和开发环境的支持。比较感兴趣的是两个:Php和Jetty,前者较为常用…

阿里大数据云原生化实践,EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播 第六期 主题:EMR spark on ACK 产品演示及最佳实践 讲师:石磊,阿里云 EMR 团队技术专家 内容框架: 云原生化挑战及阿里实践Spark 容器化方案产品介绍和演示直播回放:扫描文…

剪映电脑版_七款手机剪辑app,效果堪比电脑软件

鉴于很多小伙伴因为没有电脑或者电脑配置低带不动pr或者AE的这类软件,但是又对剪辑有一定兴趣的人,可以先从手机上的剪辑做起,可以为以后的电脑办公打下很好的基础,亦或者有些人在电脑不方便用的情况下,想先用手机大致…

xposed 修改参数_【Android 原创】2020春节红包第三题Xposed框架Hook的应用

作者论坛账号:CrazyNut准备工具以及思路首先不了解Xposed框架Hook的可以看看大佬的基础教程 - 《教我兄弟学Android逆向12 编写xposed模块》本文不需要会看懂汇编代码,当你看完上面的文章,学会Xposed框架Hook的简单应用后。就算是从未接触过的…

Let‘s Fluent:更顺滑的MyBatis

简介: 只需瞅一眼Google Trends上全球Java界最热门的两款SQL映射框架近一年的对比数字,就不难了解其实力分布:在此领域,MyBatis早已占领东亚地区开发者市场,并以绝对优势稳居中国最抢手Java数据库访问框架之首。 作者 …

元宇宙会成为 IPv6 的拐点吗?

‍‍作者 | 马超,王丽丽,王一凡 责编 | 张红月出品 | CSDN(ID:CSDNnews)“如无必要,勿增实体”的奥卡姆剃刀原则,从IT人士的角度来看就是“只要能运行,就千万不要改”&#xf…

php网站加广告位,HotNews Pro主题文章内容上面添加广告位

使用的HotNew Pro主题后,文章内容上面没有广告位,但是有时需要在那个位置添加广告,就使用了一款叫Smart Ads广告管理插件,这个插件可以在文章内容上面和下面添加广告,直到昨天我删掉了Smart Ads这款插件,因…

电脑编程教学_东莞沙田mastercam编程学习怎么收费

东莞沙田mastercam编程学习怎么收费深圳卓越培训中心UG综合班主要课程:1,软件介绍,界面熟悉 ,快捷键,图层使用。2,草图使用,三维曲线绘制修改,草图线3D线互相转换。3,建模…

arduinowifi.send怎么获取响应_Vue3.0 响应式原理 (一)

前几天,回顾整理下关于vue2.0的响应式原理。温故而知新么,那么今天,整理了一下关于vue3.0的响应式原理,利用 JavaScript 来写的。本着尽可能的清晰易懂的原则,所以,可能会分几篇文章来发布。那现在开始上菜…

OceanBase首次阐述战略:继续坚持自研开放之路 开源300万行核心代码

简介: 在数据库OceanBase3.0峰会上,蚂蚁集团自主研发的分布式数据库OceanBase首次从技术、商业和生态三个维度对未来发展战略进行了系统性阐述。同时,OceanBase宣布正式开源,并成立OceanBase开源社区,社区官网同步上线…

amd核芯显卡控制面板自定义分辨率_主流显卡的一位猛将:蓝宝石Radeon RX 5500XT显卡首测...

一直以来主流级显卡总是处于一个较为尴尬的位置,原因是由于性能的限制,主流显卡经常位于不上不下的局面。上面和电竞级显卡有很大的性能差距,而往下又感受了日新月异的核显的压力。于是很多玩家宁可加钱购买电竞显卡也不愿意购买这些主流显卡…

阿里云研究员叔同:云原生是企业数字创新的最短路径

简介: 今天,数字化成为企业的核心竞争力,千行百业都在拥抱云计算,拥抱云原生。2020年我们认为是云原生的落地元年,那么2021年将是云原生加速推动企业数字创新的关键节点。 作者 | 叔同 来源 | 阿里技术公众号 今天&am…

计算 a+aa+aaa+aaaa+aaaaa+ 的和_海南A级景区,三亚市就有14个,你都去过吗

日前,海南省旅游资源规划开发质量评定委员会发布2020年第2号和2020年第3号公告,海南长影环球100奇幻乐园批准为国家4A级旅游景区,海南霸王岭国家森林公园和桂林洋国家热带农业公园批准为国家3A级旅游景区。具体公告如下:海南省旅游…

如何成为云原生时代的卓越架构师

简介: “软件开发需要面对本质困难和附属困难。云原生、DevOps大幅降低了附属困难,使得架构师可以全力聚焦于业务复杂性,而DDD恰是管理业务复杂性的有效方法。” 本文作者:张刚,阿里云云效资深技术专家,AL…