云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

简介: 数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。

行业综述

全民娱乐时代,网络互娱市场持续保持高速增长
随着互联网的普及以及技术的发展,互联网娱乐行业的发展也日渐成熟。从早期单一门户网站,到个人博客的流行,再到视频网站的壮大。以及这两年层出不穷的短视频、直播、资讯平台等,网络娱乐行业的发展也正在从内容为王,开始往大数据驱动内容创新与推广的方向进行发展。
随着生活条件的变好,人们进入了娱乐即生活,生活即娱乐的时代。如同互联网时代到来引爆信息爆炸一样,互联网娱乐的兴起和发展同样有爆发力。据统计,截至2019年6月,我国网络直播用户规模达4.33亿,较2018年底增长3646万。而网络视频的用户更是达到7.59亿,较2018年底增长3391万。
尤其是在15年前后,随着4G的普及以及智能机的大众化,互联网娱乐行业迎来了一次流量红利时期,在这个时期,各种资讯、视频、直播、社交等软件如雨后春笋般冒出,大量的用户开始涌入。在当时只要是有稍微优质的内容输出,就能为作者或是整个平台带来巨大的流量。

行业发展方向

流量红利消失,用户增长陷入瓶颈
但是到了2020年,流量红利的时代已经过去许久,虽然内容还是主要的内核,但是内容同质化严重,用户逐渐进入疲劳期。同时由于整体市场格局的明朗化,各家企业之间的竞争与压力也逐渐变大。
4.png
流量红利的消失,企业增长放缓,企业整体拉新成本变高,留存客户难度变大。同时由于国家对于内容审核的条件逐渐收紧与明细化,单靠人工已经无法应对大规模的内容审核,只能通过机器,依赖技术来达到监管合规的要求,但如此操作势必会增加企业的运营成本,造成更大资源的投入。

面临的痛点

大数据驱动行业发展,但如何利用好数据成难题
相信大家都会有过这种体验,在我们浏览某些短视频网站时,若是随手点赞或评论了某几个相同类型的视频后,之后你刷到该类型视频的次数会大大增加。其实这就是企业通过大数据来推测并匹配我们的兴趣爱好,针对每个不同个体的用户,为其定制个性化的内容推荐。
5.png
在大数据的驱动下,企业可以精确地对相关用户进行筛选,为其定制个性化的内容推荐,但是在大数据系统构建的时候,很多企业又遇到各种各样的技术挑战。
由于数据源采集的方式和存储方式的不同,往往会形成数据孤岛的现象,同一用户的数据可能会有好几种表现和存储的方式,如果企业要将这部分的数据进行分析,就需要将数据进行转换并在多个数据孤岛之间反复拷贝。
同时由于互联网具备高时效性与高度开放性,可能会出现大量用户在某个时间段内同时涌入某个软件,尤其是一些社会性的热点出现时,对于企业的服务器将会是一个巨大的考验。按照传统的处理方法,企业往往需要预留大量的空间来应对不同时期的流量,但是该种模式还是太过于缺乏灵活性,大多数服务器空间在非热点时期只能白白闲置,极易引起IT资源的浪费增加企业运营成本。

数据湖解决方案

阿里云数据湖解决方案打破数据孤岛,全面提升资源利用率
6.png
数据湖是以集中、统一方式存储各种类型数据,数据湖可以与多种计算引擎直接对接,我们使用OSS作为数据湖底座,数据统一存储在OSS中,有效消除了数据孤岛现象,多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析,避免数据在不同引擎中反复复制,减少了不必要的资源损耗。
数据湖的存储基座OSS提供了高可用性和可靠性保障,端到端的解决了海量数据的存储、管理问题。直接对接多种数据输入源,数据可以按照最原始形态直接写入到OSS,无须在终端做任何处理,减轻终端设备负载。OSS提供的互联网直接访问特性,极大简化数据传输的通路,无须经过各种代理,就可以实现数据的直接存取。
数据湖采用存储与计算解耦合架构,让计算、存储资源具备更好的扩展性,极大降低运维管理难度、提升资源利用率。
无论是点播、直播录制、日志分析、资讯分发等典型的互娱场景,采用数据湖方案,相关数据都可以按照统一方式存储在OSS,并通过阿里云的计算引擎,比如EMR 、Max Compute等产品与对象存储OSS结合,直接对存储的数据进行处理,处理后的结果数据有可以持久化存储到数据湖中,再比如DLA提供的Serverless 化的SQL(Presto)和Serverless 化的Spark引擎,提供job级别的弹性计算能力,用户成本零浪费,帮助用户集中精力专注于业务实现逻辑,快速实现数据变现。
阿里云数据湖解决方案,帮助企业释放最大的数据价值,让大数据的沉淀、存储、处理、分析更加简便快捷,帮助企业快速完成现有业务的迭代升级与重构,让企业在行业占有一席之地。

最佳案例实践

客户介绍:
该客户需要可发内容资讯APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的阅读更有价值,因此个性化推荐就成为其产品重要的核心能力。

遇到的问题:
1、随着业务多年的发展,存储数据量规模已经达到百PB左右,数据在产生阶段会有比较密集的访问,随着时间的增长,数据的访问会逐渐趋冷,多年累积的冷数据已经对集群容量产生了极大压力
2、客户原计划通过扩大集群规模,去支撑冷数据的持续增长,但随着数据规模持续增加,让集群扩容难度大幅度提升。另一方面,扩容的服务器的计算资源利用率较低,无法形成资源的充分利用。

数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的功能,积累的冷数据被统一迁移到阿里云对象存储OSS,新产生的热数据保存在HDFS集群,热数据经过一段时间逐渐趋冷后,就会定期迁移到对象存储OSS进行冷处理
2、阿里云对象存储OSS对于Hadoop生态的支持特性,原有计算任务只需简单调整访问地址就可以按照原有方式运行,让计算任务能够平滑迁移到数据湖运行。对于存储到OSS冷数据,客户通过OSS Lifecycle机制,定期将一部分冷数据进一步深度转化为OSS归档类型,持续优化冷数据存储成本,达到降本增效的效果

达到的效果
1、OSS提供业内最丰富的API接口,帮助客户将海量数据从其他从各个不同数据源轻松迁移到OSS
2、客户在OSS的基础上,还采用阿里云的日志服务,一站式解决日志采集、处理、查询、投递的各种难题,甚至还可以通过混合云存储阵列打通云上线下数据的一体化
3、数据湖消除了客户之前存在的数据孤岛现象,支持各种计算引擎的直接对接,存储与计算解耦合的架构,能够更容易使用弹性计算和serverless化的云服务,让数据分析和访问无处不在

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514824.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三角形已知边长求高公式_五年级数学:“长方形、正方形、三角形、平行四边形、梯形” 知识重点、难点全解析,附习题!...

张老师 - 5年级(多品小学教育)里辛镇中心小学谭老师和冰溪镇县后山小学谭老师需要的这份学习资料现在分享。本资料已制作电子版下载码是:5odc7n2i多边形的面积知识点1公式长方形:周长(长宽)2 ;字母公式:C(ab)2 面积长宽&am…

阿里技术文档:Redis+Spring全家桶+Dubbo精选+高性能+高并发

最近花了很长的时间去搜罗整理Java核心技术好文,我把每个Java核心技术的优选文章都整理成了一个又一个的文档。今天就把这些东西分享给老铁们,也能为老铁们省去不少麻烦,想学什么技能了,遇到哪方面的问题了 直接打开文档学一学就好…

持续定义Saas模式云数据仓库+BI

云数据仓库概述 今天和大家一起探讨一下我们Saas模式下云数据仓库加上商业智能BI能有什么新的东西出来。我们先来看一下云数据仓库的一些概述。预测到2025年, 全球数据增长至175ZB, 中国数据量增长至48.6ZB。数据量暴涨这个前提下,我们看一下…

多项式拟合lm_R语言多项式回归

含有x和y这两个变量的线性回归是所有回归分析中最常见的一种;而且,在描述它们关系的时候,也是最有效、最容易假设的一种模型。然而,有些时候,它的实际情况下某些潜在的关系是非常复杂的,不是二元分析所能解…

AI和大数据下,前端技术将如何发展?

简介: 2010年前后,各种大数据应用进入爆发期。如果说之前的Web应用更多地是在“产生”数据,那在2010年之后,如何更好地“展现”数据则被提上了新的高度,很多前端技术也随之打开了新的篇章。本文作者结合自己的实践&…

漫话云计算,这次加了点儿剧情

“云计算”这个词相信大家都非常熟悉作为目前最热门的科技概念之一它频繁地出现媒体的报道中专家们也经常将它挂在嘴边为它摇旗呐喊那么,究竟什么是云计算呢?它到底有什么用?相比传统计算,它有什么特别之处?今天这篇漫…

阿里云数据湖解决方案全面满足数据需求,帮助企业释放数据价值

简介: 基于阿里云对象存储OSS构建的数据湖解决方案,可以全面满足数据的存储、离线分析、交互查询等各种业务诉求,帮助企业释放数据的价值 1、行业综述 游戏市场需求旺盛,行业景气度持续提升 2020年突如其来的疫情,使…

微服务学习专栏

文章目录一、 Springboot 开源项目推荐1. SmartAdmin2. SPTools3. el-admin4. RuoYi-Vue5. mall6. OA系统开源一、 Springboot 开源项目推荐 1. SmartAdmin 项目地址:https://gitee.com/lab1024/smart-admin 2. SPTools 项目地址:https://gitee.com/52…

云原生时代,应用架构将如何演进?

简介: 如何借助云原生技术来提升交付速度?云原生时代背景下,研发的关注点又会有哪些转变?阿里云高级技术专家许晓斌通过本文分享从 IaaS 上云时代到 PaaS 上云时代的应用架构演进方向,以及云原生技术与应用架构演进的关…

Serverless 对研发效能的变革和创新

简介: 对企业而言,Serverless 架构有着巨大的应用潜力。随着云产品的完善,产品的集成和被集成能力的加强,软件交付流程自动化能力的提高,我们相信在 Serverless 架构下,企业的敏捷性有 10 倍提升的潜力。 作…

查看mysql服务的可视化_Prometheus 监控Mysql服务器及Grafana可视化

Prometheus 监控Mysql服务器及Grafana可视化、mysql_exporter:用于收集MySQL性能信息。使用版本mysqld_exporter 0.11.0官方地址使用文档:https://github.com/prometheus/mysqld_exporter图标模板:https://grafana.com/dashboards/7362下载地…

SprinBoot 集成 Flowable/Activiti工作流引擎

文章目录一、 Flowable工作流引擎1. flow2. flowable3. cims4. RuoYi-flowable5. springboot-flowable-modeler6. flowable-diagram二、Activiti 工作流引擎2.1. RuoYi-Vue-Process2.2. RuoYi-Process2.3. ruoyi-vue-activiti2.4. activiti7-workflow2.5. JeeSite4 JFlow2.6. a…

持续定义Saas模式云数据仓库+实时分析

简介: 从实时分析的价值、场景和数据流程,以及用户对平台能力要求展开,讲述云数据仓库MaxCompute的产品能力优势 ,面对实时分析场景的能力演进要求。进而以实时分析典型场景的全数据流程处理、建模和分析的最佳实践,讲…

超 8 成软件存已知高危开源漏洞,奇安信发布《2021 中国软件供应链安全分析报告》

编辑 | 宋 慧 出品 | CSDN云计算 头图 | 付费下载于东方IC 2020年底,SolarWinds 遭受的大规模网络攻击,使得美国和多国政府在内的 18000 机构被影响。几乎每个月,软件供应链都在遭受黑客攻击。 而从软件端看,“检测发现&#xf…

前后端分离 常用工具汇总

文章目录一、数据框架1. vue2. react二、UI框架2.1. element2.2. element-plus2.3. Ant Design Vue2.4. Ant Design of React2.5. Bootstrap三、工具3.1. Fast Mock3.2. Easy Mock3.3. Mock语法/案例一、数据框架 1. vue https://cn.vuejs.org/ 2. react https://react.do…

Fluid 0.3 新版本正式发布:实现云原生场景通用化数据加速

简介: 为了解决大数据、AI 等数据密集型应用在云原生计算存储分离场景下,存在的数据**访问延时高、联合分析难、多维管理杂**等痛点问题,南京大学 PASALab、阿里巴巴、Alluxio 在 2020 年 9 月份联合发起了开源项目 Fluid。近期我们更新了0.3…

mysql 主从 跳过_mysql主从同步如何跳过错误

mysql主从同步跳过错误的方法:1、跳过指定数量的事务,代码为【mysql>SET GLOBAL SQL_SLAVE_SKIP..】;2、修改mysql的配置文件,通过【slave_skip_errors】参数来跳所有错误。本教程操作环境:windows7系统、mysql 5.6…

模拟驾驶能力输出,赋能客户提升稳定性信心

简介: 模拟驾驶能力输出,赋能客户提升稳定性信心 1.背景 我们技术服务团队经常会遇到这样的状况,随时随地收到紧急电话,开始紧张地排查问题,处理故障以及恢复服务。硬盘故障、网络不通、大量不到终态、水位高、流量激…

微服务如何拆分,能解决哪些问题?

作者 | 修冶来源 | 阿里巴巴中间件头图 | 下载于ICphoto微服务在最近几年大受欢迎,很多公司的研发人员都在考虑微服务架构,同时,随着 Docker 容器技术和自动化运维等相关技术发展,微服务变得更容易管理,这给了微服务架…

Tair持久存储系列技术解读

简介: 阿里云数据库重磅发布自研Tair持久存储系列的产品打破了传统Redis中的数据只能在易失性存储上进行读写的刻板印象,针对客户不同业务阶段的数据存储要求与服务成本考量,全新实现了持久性更强、成本更低的KV数据库。 Redis做为当今主流的…