那些年,我在阿里当数据开发

前言:
-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 (文末扫描二维码或点此加入)

-阿里云数据中台官网 https://dp.alibaba.com/index

(作者:数据从业者 )

我是阿里数据部门的一名数据技术专家,现在主要在对外部客户的一些数据中台项目中,做技术以及产品的支持。
我原来在阿里内部其实做了5年的数据开发,现在在做一些外部项目的时候,经常会和一些生态合作伙伴公司一起去交付项目,在这些合作伙伴的数据开发中,不管是新人还是老人,都能看到我曾经的一些影子,所以我想借助这篇文章,讲述一下我在阿里当数据开发的一些经历 ,希望在个人发展上对他们有一点帮助。

我是13年加入阿里的,在进阿里前,原来是做银行的数据仓库建设,用的是TERADATA的LSDM那套3NF建模的方法,技术也主要围绕TERADATA和后来的GREENPLUM为主,所以进到阿里后,会有一个在业务和技术上适应的过程。
首先是技术上,我进到阿里后,那时候阿里正处于底层的数据处理平台更换的阶段,从GREENPLUM替换到HADOOP平台,因此我进入部门后,首先对HADOOP大数据平台并不是很熟悉,因为那时候银行里面都还没有开始用HADOOP平台,所以一开始对HADOOP这套计算架构就非常的不适应,比如为什么跑个SQL这么慢,执行个SQL还要打开网页运行(因为我们原来用的是在云端),这是一个慢慢熟悉和适应的过程。

另外一方面是业务方面的适应,需要从原来熟悉的银行业务,过度到互联网业务。业务变了,对应的数据也都发生了很大的变化,我到了ICBU后,被分配到负责流量和广告相关的业务,会接触到大量的日志数据,比如页面浏览,点击,曝光,还有P4P点击广告相关的日志,面对这么多非结构化的日志数据,我一开始都不清楚为什么需要这些日志的数据, 但是通过后面不断对互联网业务的熟悉,才知道流量分析对网站的重要性,这个阶段我也熟悉了很多流量相关的业务知识,比如SEM,PPC,SEO,联盟等等。

这个阶段除了提高新的技术和业务能力外,主要的工作就是不断的接需求做报表。团队里面有专门的数据PD,他们的职责就是"接活",每天接业务方的需求,然后通过需求沟通和分析,每个月排定我们数据开发的资源,所以时间长了以后你就会觉得你就仅仅是一个资源,个人价值无法得到体现。

所以后来我们进行了改革,就是让数据开发自己到前面,接业务的需求,然后自己沟通和分析,数据PD就都去做PD应该做的数据产品设计。说实话,这是一个很好的让开发成长的措施,因为做数据的,要想真正了解数据,你首先要了解对应的业务,不然你开发出来的数据,就只是那几张硬生生的报表。也正因为这个阶段,我学会了一些如何和业务“谈”需求的方法,比如WBRD,问需求方十个问题,像需求基于什么样的业务背景,业务的痛点是什么,指标中的模糊词汇如何定义,等等,将这些都问题清楚,你才能知道你为了什么而开发这个需求,而且你才能知道哪些需求该重点优先去排自己的时间做,这就是去做正确的事情。

另外这阶段也学到了一些数据分析的方法,因为我做出来的报表需要直接面向我的最终用户的,原来是开发好后,就丢给数据PD,所以现在业务方会直接来找我说,某某,你这个数据不对啊,这个时候,我才知道业务原来是这样分析数据的,因为我所在的是流量线,我也知道了原来流量是如何做相应的数据监控,才能及时的发现问题,排查问题,定位原因以及解决和预防问题。

所以,这是一个“往前迈一步”的阶段,这个阶段让我学会了需求分析和数据分析的一些方法,让我觉得个人的价值还是有一定的体现的,有时候被业务方点赞和认可,自己心里还是很暗爽的~~~

后来,阿里进行了登月项目,这个大家很多人都知道,就是将阿里所有部门的数据平台都迁移到ODPS,然后统一使用ONEDATA建模方法论去进行建模工作。但是我后面的工作重心并不是在ONEDATA建模上,而是在ODPS资源优化上。因为自从登月以后,ODPS的计算和存储是使用量不断提高,出于降本增效的目的,当时的CTO就成立了专门的数据管理委员会,并且基于统一的数据资产管理平台,进行全集团的数据治理。参加过我们培训的人应该知道,主要的治理也是包括计算和存储两方面,对应的有计算健康分和存储健康分,如果达不到一定分数的人到时候就不能使用ODPS,所以那时候,我接到的副业就是,做为接口人,帮助整个B2B的同学一起进行优化。

image.png

所以,这一阶段,我的工作就是组织全BU的人,学习ODPS的优化方法,包括一些后端和算法部门会使用到ODPS的同学,将一个个有问题,比如消耗资源TOP的几个SQL,抓出来教他们进行优化,但是你要教他们首先你得会一套有体系的优化方法,这个首先还得依赖我们阿里强大的产品能力,一些优化的方法论其实都体现在产品上,通过对数据管理平台中优化方法的学习和沉淀,那段时间我几乎每天都在和这些问题SQL打交道。而且后来我还接了整个数据开发部门慢报表的治理的工作,就是看部门哪个报表慢,哪个报表30天没人访问了,该下的下,该优化的优化。所以也正因为这个阶段的刻意训练吧,我熟悉了ODPS的底层的一些原理,以及处理MYSQL,ADB一些慢SQL的方法,以及针对不同的分析场景需要采用什么样的数据存储,是MYSQL还是ADB。

所以,假如你是一名合格的数据开发人员,你开发出来的报表查询时间不能低于3秒,开发的ODPS任务不能出现像数据倾斜,或者分区裁剪失效等问题,而且你要知道具体优化的方法。

接着后来做完这些工作后,我又往前走了一步,就是和团队的产品PD,一起搞了一些数据产品,比如一些应用计算的组件平台,还有核心指标库,以及一些业务的数据门户。因为你做到后来你会发现,正在能带来价值的还是产品,而且一方面你可以将你的一些方法论沉淀在产品上。这个阶段也从产品PD那里学了一些产品设计的方法,至少用AXURE画个产品的DEMO应该没问题吧。

另外这个阶段我也懂得了一个方法,就是你要学习一个技术,或者一个事情吧,你可以先从它对应的产品学起,因为产品往往是业界对应的方法论的沉淀,你可以通过产品,很快地掌握这件事情的方法,就比如我们的DATAPHIN产品,如果你要学习数据中台相应的方法论,你可以通过DATAPHIN产品学,包括数据建模,数据资产,数据质量等等方法论,都会在产品中体现。

image.png

至于后来为什么我开始支持对外的项目,是因为我看到了更多的社会价值,通过阿里云,我们输出原来阿里沉淀的一些数据中台建设的方法论,可以帮助外部的企业进行数字化转型,我觉得我更倾向于选择支持外部。

写在最后,我觉得大家都是在将自己的能力最大化,价值最大化的过程中前进,所以有时候“往前迈一步”,可能会有更好的风景。

 

数据中台是企业数智化的新基建,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。目前正通过阿里云数据中台解决方案对外输出,包括零售、金融、互联网、政务等领域,其中核心产品有:

  • Dataphin,一站式、智能化的数据构建及管理平台;
  • Quick BI,随时随地 智能决策;
  • Quick Audience,全方位洞察、全域营销、智能增长;
  • Quick A+, 跨多端全域应用体验分析及洞察的一站式数据化运营平台;

官方站点:
数据中台官网 https://dp.alibaba.com
数据中台钉钉群二维码2.jpg

 

原文链接

本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515448.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

太白金星:我很关心分布式 Quorum NWR

来源 | 悟空聊架构责编 | 寇雪芹头图 | 下载于视觉中国先来看一段神秘的对话:太白金星:听闻老君最近在练神丹妙药,可否与我一讲?太上老君:老白啊,我最近在练六颗丹药:两颗延年丹、两颗健步丹、两…

mPaaS小程序技术架构深度解析

⚅ 点击观看《mPaaS 小程序新品发布会》回放 > > 随着小程序技术的愈发成熟,不同平台的优势和典型使用场景各有侧重,同时越来越多的开发者可以结合自身的业务特色,通过小程序作为业务载体,形成单一平台或多平台的协同关系。…

从javaScript数据类型开始了解垃圾回收机制

一、 javaScript数据类型 javaScript 数据类型分为:基本数据类型、引用数据类型 基本数据类型 分类:Number、String、Boolean、Null、Undefined、Symbol。 存储地址:栈。 引用数据类型 分类:Object、Array、Function。 存储地…

直播中那几秒延时到底来自哪?

7月16日,亚太内容分发大会上,阿里云高级产品运营专家俞翔受邀出席,并分享了基于CDN网络构建超低延时直播的场景实践。以下为演讲原文。 近几年,直播带货已经逐渐走进大众视野。在今年上半年受疫情原因影响,直播营销市…

三探云原生全景图,这次聊聊运行时层

在《俯瞰云原生,这便是供应层》我们介绍了云原生全景图的最底层:供应层,本文将带大家了解运行时层,这一层包含了容器在云原生环境中运行所需的一切。作者 | Catherine Paganini,Jason Morgan来源 | K8sMeetup社区头图 …

SpringCloud应用在Kubernetes上的最佳实践—开发部署

作者 | 孤弋 阿里云高级技术专家,负责 EDAS 的开发和用户体验优化工作。 导读:在上一篇文章《SpringCloud 应用在 Kubernetes 上的云上实践 - 开发篇》中讲到可以通过两个工具,轻松地将一个 SpringCloud 应用从初始化到本地运行。本篇文章&a…

解决谷歌浏览器 google chrome 安装插件报错:Download interrupted,不支持 .crx 文件下载

最近给 新的 macBook Pro 2020 笔记本的 chrome 浏览器安装 react developer tools 时(翻墙情况下),安装总是不成功,有一个弹框提示:Download interrupted。 一开始我以为是第三方插件出了问题,于是我去安…

低代码,让人人都可以是开发者

作者:流水不争先 来源| 技术领导力(ID:jishulingdaoli)头图 | 下载于视觉中国今年2月23日,外国低代码平台提供商Creatio宣布获得6800万美元融资;2月22日,国内SaaS软件厂商黑湖智造宣布完成C轮近5亿元人民币融资。国内外…

秒懂云通信:选云通信到底哪家强?

原文链接 本文为云栖社区原创内容,未经允许不得转载。

H5 中 IOS 系统如何获取浏览器真正的内核

当我们使用 navigator.userAgent 获取 当前浏览器的用户代理,一般通过正则表达式 就可获取到对应的浏览器内核。但是 问题:在ios系统下,无论我们下载什么浏览器(chrome、火狐…),其内核都是safari。 原因…

有效的云安全态势始于三个步骤

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 公共云的采用如今持续增长,到今年年底,预计将有83%的企业工作负载都在云平台中。云计算增加的灵活性和…

妥了!微服务治理的困难,用 Serverless 来解决

作者 | 王科怀(行松)来源 | Serverless头图 | 下载于视觉中国微服务治理面临的挑战在业务初期,因人手有限,想要快速开发并上线产品,很多团队使用单体的架构来开发。但是随着公司的发展,会不断往系统里面添加…

建网站应该选择自己建站还是在线建站?

一、什么是网站? 网上关于网站的定义很多,在此就不想重复了,简而言之网站就是创建者使用技术手段搭建,从而让访客可以通过域名访问并进行互动的互联网页面组合。 通常网站由四个部分组成: 1、域名: 也就…

SVG图片以 https 链接的方式展示在页面上,并且可继承父类的颜色大小(类似阿里巴巴iconfont)

一、背景与问题 1. 背景 在前端的项目开发过程中,我们经常使用到 字体图标库(iconfont),以 ant dezign 为例。 如果在遇到图标库不存在的图标时,我们往往采用自定义图标的方式: 引入自定义的svg图&…

云原生高可用技术体系构建

伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级也在飞速增长,给互联网业务的技术架构带来了严峻的挑战,原来的“一体机数据库”的方式已经不适用于当前的主流业务,越来越来的业务开始…

容器技术在企业落地的最佳实践

作者 | 易立 阿里云资深技术专家 导读:近年来,容器技术及相关应用得到了国内外越来越多的关注度。在国外,容器技术已经形成了较成熟的生态圈;而在国内,金融企业、互联网企业、IT 企业积极投入容器技术的应用。本文将重…

上手 Docker 容器,不应该是个问题

来源 | 无敌码农责编 | 寇雪芹头图 | 下载于视觉中国在微服务时代,服务数量及规模越来越大,服务的部署及运维的模式如果仍然采用传统方式就会大大增加运维成本。所以微服务时代的运维方式一定是Devops模式,通过构建自动化运维发布平台来打通产…

vue+node前后端分离接口调用(初学者)

一、node编写接口 (设定你已使用Nodeexpress搭建好了项目,可参照我的上一篇博客) 我们就在users.js下进行接口编写 router.get(/getUserInfo,function(req,res,next){var user new User();//解析路由参数var params URL.parse(req.url, tr…

一款App基于mPaaS小程序如何进行改造?

这篇故事围绕着一款 App 基于 mPaaS 小程序进行改造娓娓展开。 作为国内校园服务场景最丰富的平台,笑联 App 已覆盖国内 130 所高校,服务近百万高校学生。 截止目前,笑联 App 内的 12 个业务模块目前已顺利实现小程序化。不仅获得媲美原生应用…