如何评估一项技术是否值得长期投入

“每个人的时间都是有限的,在有限的时间里选择一项值得投入的技术会变得尤为重要。”

笔者从 2008 年开始工作到现在也有 12 个年头了,一路走来都在和数据打交道,做过很多大数据底层框架内核的开发(Hadoop,Pig,Hive,Tez,Spark),也做过多年上层数据计算框架(Livy, Zeppelin)以及数据应用开发,包括数据处理,数据分析以及机器学习。现在是 Apache Member 以及多个 Apache 项目的 PMC 。2018 年加入阿里巴巴实时计算团队专注在 Flink 的研发。

今天我想结合自己过去的职业经历来聊聊如何评估一项技术是否值得学习。我一直在大数据这个圈子,从最初的 Hadoop 到后来的 Hadoop 生态项目 Pig,Hive,Tez,然后又到新一代的计算引擎 Spark ,再到最近在做的 Flink ,大数据计算引擎贯穿我的整个职业生涯。我个人来说是比较幸运的,在每个阶段都在做比较火的技术,当时更多的是凭着自己的兴趣和直觉在选择技术类型。现在回过头来看我觉得需要从下面 3 个大的纬度来评估一项技术是否值得学习。

1、技术深度
2、生态广度
3、进化能力

lALPD26eLJ3HX3vNAoPNA2A_864_643_png_720x720q90g

技术深度

技术深度是指这项技术的根基是否扎实,护城河是否够宽够深,是否很容易被其他技术所替代。通俗的来说就是这项技术是否解决了其他技术所不能解决的有重要价值的问题。这里有两个要点:

1、这个问题没有人能解,是这项技术首先解决了这个问题。
2、解决这个问题能够带来重大价值。

拿我职业生涯开始阶段学习的 Hadoop 为例。当时 Hadoop 刚出来的时候是一项革命性的技术,因为当时除了 Google 宣称自己内部有一套 GFS 和 MapReduce 系统外,业界其他公司都没有一套完整的海量数据解决方案。而随着互联网技术的发展,数据量与日俱增,处理海量数据的能力迫在眉睫。Hadoop 的诞生正好解决了这一燃眉之急。

随着技术的发展, Hadoop 的处理海量数据能力的优势慢慢被人习惯,相反 Hadoop 存在的缺陷被人不断诟病(性能差,MapReduce 编写复杂等等)。而这时候Spark应运而生,解决了 Hadoop MapReduce 计算引擎的顽疾。Spark 远超过 Hadoop 的计算性能以及极其优雅简单的 API 迎合了当时用户的需求,受到了广大大数据工程师的热捧。

现在我在阿里巴巴从事的是关于 Flink 的研发工作,主要原因是我看到了工业界对实时性的需求以及 Flink 在实时计算这个领域的霸主地位。之前大数据遇到的最大挑战在于数据规模大(所以大家会称之为“大数据”),经过工业界多年的努力和实践,规模大这个问题基本已经解决了。接下来几年,更大的挑战在于速度,也就是实时性。而大数据的实时性并不是指简单的传输数据或者处理数据的实时性,而是从端到端的实时,任何一个步骤速度慢了,就影响整个大数据系统的实时性。

在 Flink 看来, Everything is stream 。Flink 的以 Stream 为核心的架构是业界独一无二的,由此而产生的性能优越,高扩展性,端到端 Exactly Once 等特性,更是使得 Flink 在流计算领域是当之无愧的王者。

目前主流的流计算引擎有 3 个:Flink、Storm 和 SparkStreaming 。

lALPD2sQrfkA34DNAeHNA2A_864_481_png_720x720q90g

注:Spark Streaming 只能选择搜索字词,理论上这样的对比是不严谨的。但作为趋势,我们更关注的是其变化曲线,实际影响应该不大。

从上面的 Google trends 曲线可以看出,Flink 处在一个快速增长期, Storm 的热度在逐年下降,而 Spark Streaming 几乎进入了平台期。这就证明了 Flink 在流计算领域的根基之深,目前来看还没有谁可以超越 Flink 在流计算领域的霸主地位。

生态广度

一项技术只有技术深度是不够的,因为一项技术只能专注于做好一件事情,如果要解决实际生活中的复杂问题,必定要和其他技术整合联动,这就要求这项技术具有足够宽的生态广度。生态的广度有 2 个纬度可以衡量:

1、上下游生态。上下游生态指从数据流的角度来说的数据上下游。
2、垂直领域生态。垂直领域生态是指某个细分领域或者应用场景的整合。

lALPD2sQrfkA34TNAg3NA1o_858_525_png_720x720q90g

当 Hadoop 刚出来的时候只有 2 个基本的组件:HDFS 和 MapReduce ,分别解决了海量存储和分布式计算的问题。但随着发展,需要解决的问题越来越复杂,HDFS 和 MapReduce 已经不能很方便的解决一些复杂问题,这时候 Hadoop 的其他生态项目应运而生,比如 Pig,Hive,HBase 等等从垂直领域生态这个角度解决了 Hadoop 不容易或者不能解决的问题。

Spark 亦是如此,一开始的 Spark 是要替换原来的 MapReduce 计算引擎,后来 Spark 发展了各种语言接口,各种上层框架,比如 Spark SQL,Spark Structured Streaming,MLlib,GraphX 等等,大大丰富了 Spark 的使用场景,扩展了Spark的垂直领域生态。Spark 对各种 Data Source 的支持,更是让 Spark 这个计算引擎和存储结成了联盟,建立了强大的上下游生态系统,为端到端的解决方案奠定了基础。

我现在做的 Flink 项目的生态仍然处于起步阶段,当时我加入阿里巴巴正不仅仅是看到了 Flink 作为流计算引擎的霸主地位,更是因为看到了 Flink 生态的机会。大家如果从我的职业生涯来看,会发现些许变化,我在从一开始专注于大数据的核心框架层慢慢在往周边生态项目发展。一个主要的原因是我对整个大数据行业的判断:大数据上半场战斗集中在底层框架,目前已经接近尾声,未来的底层大数据生态圈中将不再有那么多的新的技术和框架,每个细分领域都将优胜劣汰,走向成熟,更加集中化。下半场战斗的重点讲从底层走向上层,走向生态。之前的大数据创新更偏向于 IAAS 和 PAAS ,未来你将看到更多 SAAS 类型的大数据产品和创新。

lADPD3lGqIwa34nNATrNA2A_864_314_jpg_720x720q90g

每次谈到大数据的生态,我都拿出上面这张图。这张图基本上把你日常需要处理的大数据场景都包括进来。从最左边的数据生产者,到数据收集,数据处理,然后再到数据应用(BI + AI)。你会发现 Flink 可以应用在每一个步骤。不仅涉及到大数据,也涉及到 AI ,但是 Flink 的强项在于流计算处理,在其他领域的生态仍在起步阶段,我个人正在做的工作就是完善 Flink 在上面这张图上端到端的能力。

进化能力

一项技术如果技术深度和生态广度都没有问题,那么至少说明这项技术在当下是值得学习的。但是投资一项技术还需要从时间这个纬度上考量。你肯定不希望自己学习的技术很快就被淘汰,每年都要去学习一项新技术。所以一项值得投资学习的技术必定需要具有持久的进化能力。

我最初学的 Hadoop 到现在已经 10 多年了,现在仍然被广泛使用着。虽然现在有很多公有云厂商在抢占 Hadoop 的市场,但你不得不承认如果一家公司要成立一个大数据部门,第一件事恐怕就是建一个 Hadoop 集群吧。当我们现在谈论 Hadoop 的时候,他已经不是当初的 Hadoop 了,他更多的是 Hadoop 生态圈的统称。大家有空可以看看 Cloudera CPO Arun 的这篇文章,我对其中的观点非常认同。

Spark 项目就更不用多说了。Spark 经过 14,15 年爆发,现在已经进入平稳期。但是 Spark 仍在进化,仍在拥抱变化。Spark on K8s 就是 Spark 拥抱云原生的最好佐证。现在 Spark 社区炙手可热的Delta,MLFlow 更是 Spark 的强大的进化能力的佐证。现在的 Spark 也不仅仅是当年要取代 MapReduce 的那个 Spark ,更多是一个适用于多种场景的通用计算引擎。

我从 18 年加入阿里巴巴到现在差不多 1 年半时间,在这一年半的时间了,我正好见证了 Flink 的进化能力。

首先 Flink 经过几个大版本的发布,融入了 Blink 的大部分功能,将 Flink SQL 的能力提升了一大截。

其次 Flink 对 K8s 的支持,对 Python 的支持,对 AI 的支持都在向人们证明这Flink自身强大的进化能力。

小 Tips

除了以上的 3 大维度,在这里我还想分享下我在评估一项新技术时候的一些小技巧。

1、利用 Google trends 。Google trends 能很好的反映一项技术的发展势头,上面提到的趋势图很好的比较了 3 大流计算引擎 Flink , Spark Streaming 和 Storm ,我们不难得出结论:Flink 是流计算领域的王者。

2、查看 GitHub 上的awesome。一项技术受欢迎的一个指标是 GitHub 上的 awesome list,你可以看看这个 awesome list 的 GitHub star 数。此外你可以抽一个周末的时间看看这个 awesome list 上的内容,因为上面基本上是关于这项技术的精华内容,通过这些内容你大致可以判断出这项技术的价值。

3、看看技术网站上是否有一些技术布道者为这项技术背书(我个人经常会看medium.com)。技术圈里通常有这样一群人,他们对技术很执着,也很有品位。如果一项技术真的很好,那么就会有技术布道者无偿的为这项技术背书,分享如何这项技术的使用心得。

总结

每个人的时间都是有限的,在有限的时间里选择一项值得投入的技术会变得尤为重要。

以上是我对如何评估一项技术是否值得学习的一些思考,也算是对我自己事业生涯在技术选型方面的一个小小的总结和回顾,希望我的这些思考能对大家的职业生涯有所帮助。

作者信息:章剑锋(简锋),开源界老兵,Github ID:@zjffdu,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。有幸很早就接触了大数据和开源,希望可以在开源领域为大数据和数据科学做点贡献。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

绝了,项目内部源码资源被爆出!网友:请收下我的膝盖!

你好,程序员。多少个清晨,你让阳光肆无忌惮地穿透你精心搭配的格子衬衫;多少个白天,你在疯狂体会需求和 bug ;多少个午夜,你任凭无法止步的代码,收割着你的头发在忙碌焦虑中自我否定变成了常态&…

dubbo-go 中如何实现路由策略功能

可在控制面对服务的路由进行精细控制,是一个成熟 RPC 系统必备的能力之一。作为一个逐步走向成熟的 RPC 系统,Apache/dubbo-go(以下简称 dubbo-go )的最新版本 v1.4 中已经实现了 Condition Router 和 Health Instance First Rout…

独家对话谢宝友:做一款类似于 Linux 的国产操作系统 | 人物志

作者 | 郑丽媛来源 | CSDN(ID:CSDNnews)从国外操作系统的长期垄断到中国自主研发操作系统数十年的起落浮沉,技术自主创新独立已成为国产基础软件的主要突破口。近几年间,随着物联网时代的到来,以 Linux 为主…

RebatesMe:返利网站DDOS防护

公司介绍 上海途美网络科技有限公司旗下的RebatesMe海淘返利网是一家新兴的专注海淘和海淘返利信息的服务性网站。RebatesMe海淘返利网合作的美国商家接近1000家,包括eBay、亚马逊、沃尔玛、健安喜等等美国线上销售综合商品的商家,为全球用户提供高比例…

言图科技:GPU服务器选型

公司简介 言图科技总部位于武汉光谷,致力于人工智能领域的自然语言处理、图像处理基础算法、软件、平台与设备研发。目前,公司拥有成熟的自然语言处理基础软件集、语义理解工具集、知识图谱工具集、智能陪练机器人、聊天机器人、情感与专注度分析工具、…

H5 微信公众号 授权登录 前后端分离篇(前后端联调_03)

文章目录1. 获取code2. 返回报文解析3. 源码1. 获取code 前端请求微信获取code 回调信息 https://open.weixin.qq.com/connect/oauth2/authorize?appidwxd1f5b7f23b72428a&redirect_urihttp%3A%2F%2F192.168.43.122%3A80&response_typecode&scopesnsapi_userin…

集群e家:O2O电商服务平台上云

公司简介 陕西集群物联网服务管理股份有限公司旗下的“集群e家”是专注于社区商圈O2O服务的平台,为社区(乡村)家庭提供创新的家庭消费服务及消费体验。集群e家智慧生活是以社区(乡村)为中心,以“互联网”的…

大数据给教育带来怎样的可能?

来源 | 人民数字 Fintech责编 | 晋兆雨头图 | CSDN下载自视觉中国当下,数据成为教学改进最为显著的指标。学生的成绩不好是由于周围环境而分心了吗?期末考试不及格是学生请了太多病假的缘故吗?这些以往不太好回答的问题,如今通过大…

才博教育:AI口语学习平台上云

公司简介 北京才博教育科技有限公司自主开发了一套基于AI技术的口语学习工具,服务与英语教育机构。这套口语学习工具旨在于解决英语培训机构在传统英语教学中存在的会看、会写、不会说的问题,基于自主研发的AI人工智能技术,清晰的分辨学习者…

H5 微信公众号 授权登录 前后端分离篇(资料准备+前端01)

实现微信公众号授权登录,很简单,但是注意的地方要细心,小伙伴们跟着我的思路一起实现吧! 文章目录一、帐号申请1. 正式账号2. 测试帐号二、微信文档2.1. 文档主页2.2. 授权流程2.3. 授权回调三、前端部分3.1. 登录校验3.2. code获…

SQL分页查询方案的性能对比

作者 | 中国农业银行 吴海存责编 | 晋兆雨头图 | CSDN下载自视觉中国导读本文主要介绍了基于ROWNUM、主键列/非空唯一性列、分析函数、OFFSET-FETCH NEXT机制的几种SQL分页查询方案的性能对比。分页查询可分为逻辑分页和物理分页两种。逻辑分页是应用代码级别实现的分页&#x…

阿里云HBase增强版全文索引功能技术解析

新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请参考链接 阿里云HBase增强版(Lindorm)简介 阿里云数据库HBase增强版,是基于阿里集团内部使用的Lindorm产品研发的、完全兼容HBase的云…

ECMAScript 2015~2020 语法全解析

ECMAScript 2015~2020 语法全解析 ( ES6 ~ ES11 ).快速上手 > es.xiecheng.live

架构师技术文档:Redis+Nginx+Dubbo+Spring+架构师精选视频

最近花了很长的时间去搜罗整理Java核心技术好文,我把每个Java核心技术的优选文章都整理成了一个又一个的文档。今天就把这些东西分享给老铁们,也能为老铁们省去不少麻烦,想学什么技能了,遇到哪方面的问题了 直接打开文档学一学就好…

大分区表高并发性能提升100倍?阿里云 RDS PostgreSQL 12 解读

1. 问题 阿里云某客户发现自己使用读写分离实例,master的cpu特别高,而读写分离中承担读流量的slave节点却相对空闲。用户CPU打满后,访问到主节点的的线上服务受到了较大影响。 1.1 读写分离原理 Redis读写分离实例的原理是:key…

vue vant Area组件使用详解

文章目录1. 下载areaList.js2. 组件注册3. 封装组件4. 使用组件5. 效果图6. 项目源码1. 下载areaList.js 见文章末尾 2. 组件注册 main.js引入并注册(一般与Popup一起使用) 全局注册 //全局导入所有组件 import Vant from vant; import vant/lib/index.css;Vue.use(Vant)局…

微软KV Store Faster如何巧妙实现1.6亿ops

作者:叶提 Faster实现主要分为三部分: Epoch Protection框架,实现并发系统下全局修改,延迟同步到所有线程,简化并发设计。faster线程在大多时候不需要同步,完全独立执行。 支持高并发的无锁hash 索引&…

当飞猪遇上 Serverless | 云原生 Talk

来源 | 阿里巴巴中间件责编 | 晋兆雨头图 | CSDN付费下载于视觉中国前言2019 年 3 月,我们跟随着集团的步伐,将 Serverless FaaS 引入到飞猪,并取得了一定的阶段性成果:这一年,我们参与共建了 Node FaaS 研发平台和稳定…

vue ui 面板创建项目安装 axios 时,浏览器卡死的解决办法

目录 踩坑记1. 问题场景2. 解决办法踩坑记 Vue UI 可视化面板创建新项目,当安装完插件,再安装 axios 依赖时,点击 “ 安装 axios ” 按钮居然毫无响应,此时浏览器卡死、cmd 终端无法关闭,更杯具的是,CPU 占用率 100%,也无法关机或重启电脑 😂 。 1. 问题场景 2. 解决…

EdgeRoutine技术专家教你把JS代码跑到CDN边缘

4月27日CDN云课堂中,阿里云智能技术专家洪晓龙在线分享《阿里云CDN轻量编程环境》,对EdgeRoutine的背景、功能、案例实践介绍并在线进行上手操作演示,希望更多用户能够使用CDN轻量编程环境服务自主编程、快速落地实际线上业务。本文为直播分享…