企业数据湖构建之旅

摘要:随着互联网的发展,数据的规模和类型都呈现一个爆炸性的增长,对于这么多类型的数据,如何进行有效的管理和存储,包括数据的分析,这是大家要面临的一个问题。在武汉云栖大会上,阿里云高级产品专家吴华剑做了名为“企业数据创新之旅-构建自己的数据湖”的精彩演讲。
阿里云存储产品系列

a97a8a02c47cb14f8aeb0673639c5c03cc7c3dc2 
随着互联网的发展,整个云存储数据量的规模呈爆炸性的增长,包括日志型、交易、应用等数据,而且数据类型也越来越丰富。面对这样的需求,阿里云存储推出了一系列的云数据库类型,包括块存储、文件存储、对象存储、OSS归档存储和表格存储等。对于传统企业上云,阿里云也推出了面向混合云的产品,比如混合云存储阵列、容灾备份一体机、备份服务、闪电立方等产品。阿里云有这么全面的产品家族,那是什么支撑着呢?其实是因为阿里云有自研的分布式存储系统:盘古高性能存储引擎。目前盘古的存储不仅支撑阿里云公有云上的存储产品,也是阿里巴巴集团内部,像天猫、淘宝、蚂蚁金服等各类服务存储的基石。针对于面向金融、人工智能、能源、制造业等各个场景的低延时到高吞吐的存储需求,阿里云都有相应的产品类型。
e7d84bed8028c684a5e75cba1e3b4a6f72891832 
在整个企业数据湖的构建过程当中,从数据的采集到数据存储再到分析和消费,其实是有分多个阶段的,在这多个阶段里面,阿里云推出了一系列的解决方案。例如在数据采集方面,阿里云可以支持应用程序数据、日志数据、基因数据、流失的数据等等。另外阿里云推出了阿里云日志存储服务,OSS也支持像开源日志导入的服务,同时针对IoT的数据也有像IoT、DataHub这样的数据采集的产品。在存储方面,阿里云推出了对象存储,可以支持海量的结构化和非结构化的数据存储,同时OSS也是Hadoop官方支持的默认存储类型,这也是中国唯一一家被Hadoop官方支持的存储产品,用户的Hadoop应用可以完全不改任何代码去处理OSS上的数据。同时阿里云的表格存储,能够非常好的支持像IoT这样的流失数据的存储。在整个数据湖构建的采集、存储、消费等整个流程,阿里云都提供了相应的解决方案,满足大家对数据湖的构建要求。
企业应用构建案例
阿里云存储其实不光是支持互联网音视频等普通数据的访问和读写,如今利用阿里云存储稳定、安全、可靠和高性能等的特点,结合阿里云丰富的机器学习平台、大数据、批量计算等产品以及阿里云与Hadoop官方的合作,阿里云存储可以进行离线分析、基因渲染等大规模数据的计算,满足不同场景的数据处理需求。现在已经应用到新能源、新媒体、包括点播、直播等应用场景。下面是两个企业应用构建的例子:
1.新媒体内容推荐系统
59921b0e48b58fd715682f371805dff2a0268bb5 
用户的访问日志,包括手机app、应用服务上收集的日志、新闻阅读的记录都可以导入到OSS上,满足海量存储的需求。同时Hadoop官方也支持OSS存储的应用,因此用户可以基于Hadoop生态的应用去搭建像离线分析的系统,并且可以利用机器学习进行用户兴趣的训练,训练完的模型数据也可以导入到OSS上面,形成数据处理的闭环,当用户用完整个架构系统之后,整个数据存储成本降低了50%以上。
2.批处理(在线视频日志)
0cd4a20dcd29ce67018477bf4232adafedf30ab9 
类似短视频的在线视频应用,如何保持竞争力呢?用户需要对终端用户访问的一些视频,做一些大数据的挖掘和分析,不断地去改进自己的产品设计。用户将日志数据上传到OSS上面之后,可以通过阿里云的Hadoop离线分析系统做分析,同时可以基于Hadoop应用去搭建集群,进行数据交互分析。由于用户每天产生的海量访问日志非常大,可能经过一段时间以后这个数据就没那么热了,用户不需要经常去分析和处理它,那用户可以通过OSS生命周期管理功能对数据进行自动归档。整个用户的数据采集、存储、消费和自动归档等流程都可以在OSS上处理。
云存储技术引擎
433d6496f95ad05cdc1889707b771107ced21ce3 
阿里云存储针对数据进行计算和分析,在近期又取得了巨大的进展。首先是阿里云对于文件系统家族,推出了CPFS并行文件系统,这个产品阿里云正在公测,而且有些做科研的客户正在使用这个产品。CPFS并行文件系统有一个非常明显的特点,它可以极大地提高阿里云单用户的吞吐。同时阿里云和战略合作伙伴Intel一起在Hadoop社区里面,针对Hadoop的应用访问OSS做了大量的优化。Hadoop在访问OSS的时候,阿里云在Hadoop的客户端进行了多线程预读的优化,同时在整个数据写入到OSS的时候,阿里云也进行了异步的性能提升。另外对于元数据的操作,阿里云也进行了大量的优化。当整个系统优化完之后,阿里云进行了一个TPC DS测试,阿里云测试了200G的数据集并与其他厂商进行对比,阿里云OSS的运行效率提升了15%左右,可以为用户节省15%的计算资源,不但提升了业务的效率,而且大大降低了成本。
ecdccf2933349b0d63c6a7eb0a879093045bda9f 
同时阿里云OSS在服务端也进行了大量的技术优化,最近阿里云会提供一个服务端预读的功能,阿里云面向像Hadoop的大数据分析、机器学习等场景会进行优化,会在近期上线,让大家使用。关于服务端优化,现在也已经有客户在使用,而且运行效率提升了35%以上,对客户的业务有很大的帮助。另外OSS select现在也开始公测,原来的数据存储到OSS之后,当读取数据的时候需要把整个数据都读取出来。比如搭一个spark应用的时候,需要把整个数据读取出来之后再去做一些分析和处理,现在可以使用OSS select功能,只要使用简单的SQL语句,就可以选取需要的内容,大大地减少运行的时间。阿里云也做了个基于OSS select的测试,整个运行时间从78秒减少到11秒,性能提升了600%。阿里云最近推出的DataLakeAnalytics产品,它可以支持对OSS上的产品做查询分析,将OSS上存储的CSV、TEXT、JSON和一些链式存储的数据,可以使用DataLakeAnalytics做查询分析,这个产品兼容标准SQL,包括JDBC、ODBC的标准,可以帮助大家快速去搭建一个查询、分析的平台,可以减少时间,提升研发效率。
以下是OSS select和DataLakeAnalytics的公测链接,大家可以扫描二维码去申请公测。
544684abc69dd51520f91f98d30581bc0a279ef7 


本文由云栖志愿小组黄小凡整理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/277900.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用AzureFunction开发最简单的Teams Bot

之前我有一篇文章讲了如何在azure function上开发最简单的outgoing webhook,收到一些反馈,建议我介绍一下如果在azure function上开发teams bot,那这篇文章就来讲一下如何用function来快速开发bot。 我们先创建一个azure function资源&#…

关于深度学习,这些知识点你需要了解一下

深度学习概述 o 受限玻尔兹曼机和深度信念网络 o Dropout o 处理不平衡的技巧 o SMOTE:合成少数过采样技术 o 神经网络中对成本敏感的学习 深度学习概述 在2006年之前,训练深度监督前馈神经网络总是失败的,其主要原因都是导致…

git add * 提示warning: LF will be replaced by CRLF in 解决办法

在使用git的时候,每次执行 $ git add * 都会提示这样一个警告消息: 虽然说没有什么影响吧。 不过就是觉得太碍眼了, 按照这样设置就没有问题了: git config core.autocrlf false 这样设置git的配置后在执行add操作就没有问题了。 奋斗的年纪你…

Dispatch Queue 之 Invoke 当前队列

 转载于:https://www.cnblogs.com/huahuahu/p/dispatch-queue-zhi-invoke-dang-qian-dui-lie.html

Teams数据统计 - 用户在线离线状态

前几天我在wechat的moments里看到以为朋友发了腾迅会议的对用户个人的年度数据统计,看上去很有大数据感。 实际上 Teams 也具备的类似的能力,只是它把这个能力开放给了开发人员,我们可以通过强大的 Graph API,获取大量的数据信息&…

我们是如何通过全球第一免费开源ERP Odoo做到项目100%交付

传统友商ERP的交付过程 一、先初步需求调研,后选型功能模块 传统友商ERP第一件事情先对客户方进行初步的调研,客户方无论说什么,友商听过算过,只关心你人数多少,有哪些人涉及到哪些模块,接着对模块进行所谓…

Teams数据统计 - 通话记录

上篇文章介绍了如何获取用户的在线状态,这篇文章我们记录介绍如何统计用户通话记录。 首先,Teams为了安全,它要求 app 要有 CallRecords.Read.All 权限。然后就可以通过这个api来获取 call record。 GET /communications/callRecords/{id}这…

解决JS浮点数(小数)计算加减乘除的BUG

2019独角兽企业重金招聘Python工程师标准>>> //浮点数减法运算function FloatSub(arg1,arg2){var r1,r2,m,n;try{r1arg1.toString().split(".")[1].length}catch(e){r10}try{r2arg2.toString().split(".")[1].length}catch(e){r20}mMath.pow(10…

Teams App 如何使用设备的能力

我们以前讲到过,Teams有很多中可以扩展的方面,其中有一种是Tab,开发者可以开发一个web page/app,然后以tab的方式嵌入到teams里面。 除了基本的功能,这种tab也可以使用teams客户端设备所带的一些能力,比如…

实验室3

实验3.1 1 #include<stdio.h>2 int main()3 { long int sum,i;4 sum0;5 for(i22;i<1003;i20){6 sumsumi;7 }8 printf("sum%ld",sum);9 return 0; 10 } 11 1 #include<stdio.h>2 int main()3 { 4 long int…

Teams App自定义

当我们开发的 app 被企业安装后&#xff0c;有些企业挺希望能做一些自定义&#xff0c;如果把app的图标改的更加符合企业风格一点&#xff0c;或者把app的名字改成让本企业员工更容易理解一些&#xff0c;或者把app界面的主题色改成个企业风格更加搭配一些&#xff0c;或者对于…

实验四:xl命令的常见子命令以及操作

实验名称&#xff1a; xl命令的常见子命令以及操作 实验环境&#xff1a; 这里我们需要正常安装一台虚拟机&#xff0c;如下图&#xff1a; 我们这里以一台busybox为例&#xff0c;来进行这些简单的常见的操作&#xff1b; 实验要求&#xff1a; 这里我们准备了5个常见操作&…

Teams App 扫描二维码

上篇文章我们讲了如何在app的manifest里设置设备的权限&#xff0c;这篇文章我们来实际操作开发一个可以扫描二维码的teams app。 首先&#xff0c;我们先到app studio里&#xff0c;创建一个teams app&#xff0c;然后创建tab&#xff0c;重要的一点是&#xff0c;我们确保ma…

关于我的知识星球服务

2019独角兽企业重金招聘Python工程师标准>>> 今天刚开通了我的知识星球-攻城师在路上&#xff0c;欢迎大家加入&#xff0c;目前前50名按最低费用收费50元一年&#xff0c;后面会根据人数情况调整。 希望通过这么一个圈子&#xff0c;让大家信息资源共享&#xff0c…

mysql8用户管理

查看当前登录用户&#xff1a; 创建用户&#xff1a; create user 用户名主机地址 identified with mysql_native_password by 密码; 修改密码&#xff1a; alter user 用户名主机地址 identified with mysql_native_password by 新密码; 原因是&#xff1a;在mysql 5.7.9版本以…

Teams App设备的地理位置能力

我们上一篇文章讲了如何在Teams app里扫描二维码&#xff0c;这篇文章我们来看一下如何获取当前设备的地理位置&#xff0c;并且在地图上显示地理位置。 首先&#xff0c;我们先到app studio里&#xff0c;创建一个teams app&#xff0c;然后创建tab&#xff0c;并且确保我们勾…

Teams App如何选择用户

当我们在开发app的时候&#xff0c;很多时候需要选择一个用户&#xff0c;比如我们开发一个审批的app&#xff0c;就要选择审批人&#xff0c;所以这个app就需要实现选择人的界面&#xff0c;而且需要获取完整的用户列表&#xff0c;但是要获取完整的用户列表又需要app拥有较高…

Python终端如何输出彩色字体

Python终端如何输出彩色字体 Python终端如何输出彩色字体 实现过程&#xff1a;终端的字符颜色是用转义序列控制的&#xff0c;是文本模式下的系统显示功能&#xff0c;和具体的语言无关。转义序列是以ESC开头,即用\033来完成&#xff08;ESC的ASCII码用十进制表示是27&#xf…

关于Elemet-ui组件Cascader中proper的配置问题

最近做一个地区的二级联动用上了Cascader组件&#xff0c;但是我的城市数据结构跟他 options的默认的结构不太一样&#xff1b; 默认的结构如下&#xff1a; 我的数据结构是&#xff1a; 先说我的解决办法&#xff1a; 一看我的数据结构跟他默认的数据结构不对劲&#xff0c;我…