简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。
行业综述
全民娱乐时代,网络互娱市场持续保持高速增长
随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。
随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。
尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。
行业发展方向
流量红利消失,用户增长陷入瓶颈
但是到了2020年,流量红利的时代已经过去许久,虽然内容还是主要的内核,但是内容同质化严重,用户逐渐进入疲劳期。同时由于整体市场格局的明朗化,各家企业之间的竞争与压力也逐渐变大。
流量红利的消失,企业增长放缓,企业整体拉新成本变高,留存客户难度变大。同时由于国家对于内容审核的条件逐渐收紧与明细化,单靠人工已经无法应对大规模的内容审核,只能通过机器,依赖技术来达到监管合规的要求,但如此操作势必会增加企业的运营成本,造成更大资源的投入。
面临的痛点
大数据驱动行业发展,但如何利用好数据成难题
相信大家都会有过这种体验,在我们浏览某些短视频网站时,若是随手点赞或评论了某几个相同类型的视频后,之后你刷到该类型视频的次数会大大增加。其实这就是企业通过大数据来推测并匹配我们的兴趣爱好,针对每个不同个体的用户,为其定制个性化的内容推荐。
在大数据的驱动下,企业可以精确地对相关用户进行筛选,为其定制个性化的内容推荐,但是在大数据系统构建的时候,很多企业又遇到各种各样的技术挑战。
由于数据源采集的方式和存储方式的不同,往往会形成数据孤岛的现象,同一用户的数据可能会有好几种表现和存储的方式,如果企业要将这部分的数据进行分析,就需要将数据进行转换并在多个数据孤岛之间反复拷贝。
同时由于互联网具备高时效性与高度开放性,可能会出现大量用户在某个时间段内同时涌入某个软件,尤其是一些社会性的热点出现时,对于企业的服务器将会是一个巨大的考验。按照传统的处理方法,企业往往需要预留大量的空间来应对不同时期的流量,但是该种模式还是太过于缺乏灵活性,大多数服务器空间在非热点时期只能白白闲置,极易引起IT资源的浪费增加企业运营成本。
数据湖解决方案
阿里云数据湖解决方案打破数据孤岛,全面提升资源利用率
数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。
数据湖的存储基座OSS提供了高可用性和可靠性保障,端到端的解决了海量数据的存储、管理问题。直接对接多种数据输入源,数据可以按照最原始形态直接写入到OSS,无须在终端做任何处理,减轻终端设备负载。OSS提供的互联网直接访问特性,极大简化数据传输的通路,无须经过各种代理,就可以实现数据的直接存取。
数据湖采用存储与计算解耦合架构,让计算、存储资源具备更好的扩展性,极大降低运维管理难度、提升资源利用率。
无论是点播、直播录制、日志分析、资讯分发等典型的互娱场景,采用数据湖方案,相关数据都可以按照统一方式存储在OSS,并通过阿里云的计算引擎,比如EMR 、Max Compute等产品与对象存储OSS结合,直接对存储的数据进行处理,处理后的结果数据有可以持久化存储到数据湖中,再比如DLA提供的Serverless 化的SQL(Presto)和Serverless 化的Spark引擎,提供job级别的弹性计算能力,用户成本零浪费,帮助用户集中精力专注于业务实现逻辑,快速实现数据变现。
阿里云数据湖解决方案,帮助企业释放最大的数据价值,让大数据的沉淀、存储、处理、分析更加简便快捷,帮助企业快速完成现有业务的迭代升级与重构,让企业在行业占有一席之地。
最佳案例实践
客户介绍:
该客户需要可发内容资讯APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的阅读更有价值,因此个性化推荐就成为其产品重要的核心能力。
遇到的问题:
1、随着业务多年的发展,存储数据量规模已经达到百PB左右,数据在产生阶段会有比较密集的访问,随着时间的增长,数据的访问会逐渐趋冷,多年累积的冷数据已经对集群容量产生了极大压力
2、客户原计划通过扩大集群规模,去支撑冷数据的持续增长,但随着数据规模持续增加,让集群扩容难度大幅度提升。另一方面,扩容的服务器的计算资源利用率较低,无法形成资源的充分利用。
数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的功能,积累的冷数据被统一迁移到阿里云对象存储OSS,新产生的热数据保存在HDFS集群,热数据经过一段时间逐渐趋冷后,就会定期迁移到对象存储OSS进行冷处理
2、阿里云对象存储OSS对于Hadoop生态的支持特性,原有计算任务只需简单调整访问地址就可以按照原有方式运行,让计算任务能够平滑迁移到数据湖运行。对于存储到OSS冷数据,客户通过OSS Lifecycle机制,定期将一部分冷数据进一步深度转化为OSS归档类型,持续优化冷数据存储成本,达到降本增效的效果
达到的效果
1、OSS提供业内最丰富的API接口,帮助客户将海量数据从其他从各个不同数据源轻松迁移到OSS
2、客户在OSS的基础上,还采用阿里云的日志服务,一站式解决日志采集、处理、查询、投递的各种难题,甚至还可以通过混合云存储阵列打通云上线下数据的一体化
3、数据湖消除了客户之前存在的数据孤岛现象,支持各种计算引擎的直接对接,存储与计算解耦合的架构,能够更容易使用弹性计算和serverless化的云服务,让数据分析和访问无处不在
原文链接
本文为阿里云原创内容,未经允许不得转载。