如何使用云原生数据湖,助力线上教育行业逐步智能化

简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。

行业综述

线下教育行业因疫情受挫,线上教育却逆势增长
随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。
由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。
和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。

行业发展方向

在线教育向数据化发展,行业逐步智能化
教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天。如此海量的数据为行业的智能化发展提供了良好的土壤,推动了教学内容、课程营销、师资管理、质量评估等智能分析的发展。
7.png

面临的痛点

行业飞速发展,数据处理成难题
行业飞速发展,用户大量涌入,数据暴增,这就对企业在业务与数据多样性方向带来了挑战。
首先由于在线教育行业的特殊性,业务量会随着学校是否放假而产生波动,基本呈现“春秋高、寒暑低”的季节性规律。同时由于此次疫情事件,让整个行业重新认识到突发性业务的威力,因此如何更平滑地应对业务波动,对企业来说仍然是一个非常重要的挑战。
其次大量用户涌入平台,势必会带来大量的用户行为数据,数据的增加自然会带来存储成本的增长。但数据是有价值的,利用好数据,将会为企业带来更多的客户以及更高的转化。因此如何将这部分数据沉默成本与数据的价值相平衡,对企业来说也是一个巨大的挑战。
另外在线教育往往会涵盖多个细分领域,经常会包括学前教育、K12、语言类、职业类、高等教育等。教育机构往往会涉及到多应用、多教学场景,从而产生繁多的数据,因此如何应对多类型的数据存储,对于平台方来说也是一个不小的挑战。
8.png

教育行业数据湖解决方案

构建统一的在线教育数据湖,让数据的价值真正得到利用
基于以上问题,我们可以构建一个统一的在线教育数据湖。阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。
9.png
首先阿里云基于云存储构建的数据湖天然具有很好的弹性伸缩能力,特别是在阿里云的节点及规模优势基础之上,能够轻松应对业务指数级的扩容需求,平滑应对业务各类型波动及峰值。
其次,阿里云对象存储OSS支持标准、低频、归档三种存储类型,覆盖热、温、冷的数据场景,结合生命周期管理功能,可以自动实现对数据的冷热分层,很好实现对数据存储的成本的管理。
在此基础上,DLA提供的弹性计算能力,Serverless SQL(Presto)和Serverless Spark双计算引擎,快速搭建业务分析系统,并且帮助用户轻松应对波峰波谷的压力,最大限度降本增效。
最后在应对丰富的数据类型上,面向教学场景的教学资源数据、教学过程数据、教学评价数据、教学行为数据;面向结构化或非结构化数据;面向音视频数据、各应用数据、日志数据等,都可以通过基于OSS的数据湖沉淀,并进行统一的存储。
10.png

最佳实践

客户介绍:
该客户需要可发内容资讯APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的阅读更有价值,因此个性化推荐就成为其产品重要的核心能力。

遇到的问题:
1、随着业务多年的发展,存储数据量规模已经达到百PB左右,数据在产生阶段会有比较密集的访问,随着时间的增长,数据的访问会逐渐趋冷,多年累积的冷数据已经对集群容量产生了极大压力

2、客户原计划通过扩大集群规模,去支撑冷数据的持续增长,但随着数据规模持续增加,让集群扩容难度大幅度提升。另一方面,扩容的服务器的计算资源利用率较低,无法形成资源的充分利用

数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的功能,积累的冷数据被统一迁移到阿里云对象存储OSS,新产生的热数据保存在HDFS集群,热数据经过一段时间逐渐趋冷后,就会定期迁移到对象存储OSS进行冷处理

2、阿里云对象存储OSS对于Hadoop生态的支持特性,原有计算任务只需简单调整访问地址就可以按照原有方式运行,让计算任务能够平滑迁移到数据湖运行。对于存储到OSS冷数据,客户通过OSS Lifecycle机制,定期将一部分冷数据进一步深度转化为OSS归档类型,持续优化冷数据存储成本,达到降本增效

达到的效果
1、OSS提供业内最丰富的API接口,帮助客户将海量数据从其他从各个不同数据源轻松迁移到OSS
2、客户在OSS的基础上,还采用阿里云的日志服务,一站式解决日志采集、处理、查询、投递的各种难题,甚至还可以通过混合云存储阵列打通云上线下数据的一体化
3、数据湖消除了客户之前存在的数据孤岛现象,支持各种计算引擎的直接对接,存储与计算解耦合的架构,能够更容易使用弹性计算和serverless化的云服务,让数据分析和访问无处不在

 

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

caas k8s主控节点如何查询_k8s--04 部署harbor作为k8s镜像仓库

k8s实战部署harbor作为k8s镜像仓库1.实验目标部署k8s私有镜像仓库harbor把demo小项目需要的镜像上传到harbor上修改demo项目的资源配置清单,镜像地址修改为harbord的地址2.再node1上安装harbor[rootnode1 ~]# cd /opt/#上传harbor软件包[rootnode1 /opt]# rz -Erz w…

vue3中使用cookie

前端使用cookie 步骤一 编写方法cookie.ts //获取cookie、 const CooieTool {getCookie: (name: string) > {var arr, reg new RegExp("(^| )" name "([^;]*)(;|$)");if (arr document.cookie.match(reg))return (arr[2]);elsereturn null;},//设…

无人机、IoT 都危险?第五代网络威胁有哪些特点

从无序中寻找踪迹,从眼前事探索未来。2021 年正值黄金十年新开端,CSDN 以中立技术社区专业、客观的角度,深度探讨中国前沿 IT 技术演进,推出年度重磅企划栏目——「拟合」,通过对话企业技术高管大咖,跟踪报…

持续定义SaaS模式云数据仓库+Serverless

导读:今天主要和大家交流的是网易在数据湖 Iceberg 的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据湖 Iceberg 的探索以及实践之路。 主要内容包括: 数据仓库平台建设的痛点数据湖 Iceberg 的核心原理数据湖 Iceberg 社…

循序渐进db2 第3版_「图书推荐」焊接工程师手册第3版

机械工业出版社陈祝年 陈茂爱 著内容介绍《焊接工程师手册》(第3版)是焊接专业的综合性工具书,基本涵盖了焊接专业的技术内容。本版在保留第2版精华和特色的基础上添加了先进的工艺技术内容。全书共9篇58章。第1篇汇集了焊接工程师最常用而又不易记忆的符号、公式和…

阿里云推出业内首个云原生企业级数据湖解决方案:将在今年双11大规模应用

简介: 数据湖高峰论坛在京召开,阿里云宣布推出业内首个云原生企业级数据湖解决方案,提供EB级数据存储、分析能力,可一站式实现湖存储、湖加速、湖管理、湖计算,帮助企业对数据深入挖掘与分析,洞察其中蕴含的…

Serverless对研发效能的变革和创新

对企业而言,Serverless 架构有着巨大的应用潜力。随着云产品的完善,产品的集成和被集成能力的加强,软件交付流程自动化能力的提高,我们相信在 Serverless 架构下,企业的敏捷性有 10 倍提升的潜力。本次分享我主要分为以…

c3p0 服务启动获取连接超时_微服务架构中的熔断、降级

微服务架构中熔断和降级是保证服务高可用的一项重要功能点,微服务区别于一体化项目的最大区别也再于熔断和降级,很多微服务项目的开发人员对熔断的理解就是当服务不可用的时候,为了让整体服务可以正常运行,需要让后续的请求直接返…

重塑APM标杆,博睿数据战略升级助力企业数字化转型

(博睿数据发布仪式) 2021年5月26日,由博睿数据举办的“服务可达 达者为先博睿数据2021年战略升级发布巡展”北京站,在北京金茂威斯汀大饭店圆满举行!本次战略升级发布巡展不仅揭开了“数据链DNA”的神秘面纱&#xff…

持续定义SaaS模式云数据仓库+数据银行

简介: 本文将介绍SaaS模式云数据仓库MaxCompute,如何助力数据银行SaaS模式云战略和一体化数据开放场景介绍。 一、云数据仓库 本章节介绍云数据仓库带来的价值及解决方案。 MaxCompute:SaaS模式企业级云数据仓库的应用场景包括广告场景-用…

2020-10-28

Kubernetes的门户-Ingress 目前Kubernetes(K8s)已经真正地占领了容器编排市场,是默认的云无关计算抽象,越来越多的企业开始将服务构建在K8s集群上。在K8s中,组件通过Service对外暴露服务,常见的包括NodePo…

530并行日:用超算更省心

科技兴,则民族兴;科技强,则国家强。 从“神舟”飞天、“蛟龙”入海、“天眼”遥看宇宙,到“嫦娥”奔月、“天问”探火、“量子”惊叹世界,这些世人瞩目的科技成就背后,是一代又一代的中国科技工作者前赴后继…

Flink SQL 1.11 on Zeppelin 平台化实践

简介: 鉴于有很多企业都无法配备专门的团队来解决 Flink SQL 平台化的问题,那么到底有没有一个开源的、开箱即用的、功能相对完善的组件呢?答案就是本文的主角——Apache Zeppelin。 作者:LittleMagic 大数据领域 SQL 化开发的风…

控件设置相对位置_惊人的Divi转换控件!

Divi的变换控件释放了许多新的设计可能你可以使用一系列新设计选项来执行惊人的设计,而到目前为止,只有在诸如Photoshop之类的图形设计程序中才可以这样操作。Divi引入了一项全新功能,该功能允许在Divi Builder中进行惊人的徒手设计&#xff…

第三代英特尔至强可扩展处理器,英特尔数据中心的“芯法宝”

作者 | 宋 慧 出品 | CSDN云计算 头图 | 付费下载于东方IC 距离英特尔发布第三代至强可扩展处理器Ice Lake的全系列产品,已经过去一个多月了。全新一代的至强处理器除了核数增加、性能提升与架构升级以外,还首次将SGX英特尔软件防护扩展技术&#xff08…

谈谈我对零售云在云原生总结与思考

简介: 云原生是零售云的最重要的技术底座,云原生是什么,会走向哪里,在零售2B交付的场景上该如何应用,怎么能够结合帮助建设零售云系列产品体系,值得我们的思考和探索,也将有效指导我们接下来几年…

oracle查看编码

select * from nls_database_parameters where parameter NLS_CHARACTERSET;

类选择器遍历赋值_利用反射实现配置表数据到类对象数据的转换

在游戏开发中,配置表是不可少的。通常我们将一个类,做成一个配置表,将配置表每列的索引都和类的字段名严格对应起来。先实例化一个类的对象,然后通过反射来遍历类中的字段,通过field.SetValue()给类的对象赋值。但是配…

人工智能如何提升大数据存储与管理效率?

简介: 通过使用AI数据存储,供应商和企业可以将存储管理提升到一个新的水平。而且,存储管理员可以找到他们目前正在努力管理的指标的解决方案。 随着大数据的大量来源以及企业可用数据量的增加,存储容量规划已成为存储管理员的问题…

wildfly10 (JBoss)如何部署SSL证书

文章目录1. 证书下载2. 证书配置2. 效果验证项目用的wildfly-10.1.0.Final。需要用到SSL证书,把部署过程记录下来,以供参考。1. 证书下载 本文的证书申请都来自阿里云。 1.首先把你的域名做好解析。 2.从阿里云上下载申请的SSL证书,类型选择…