如何提高一个研发团队的“代码速度”?

摘要: 蚂蚁金服国际事业群技术风险部研究员南门,将和大家聊聊Code Velocity,希望能在团队效率问题方面,为你带来一些启发。

什么是代码速度(Code Velocity)?

Code Velocity的定义是:一段代码变更,从git里的commit time,到在生产环境里运行,中间经过了多少时间。换句话说,代码从写完开始,多快能到达生产环境。

举个例子,C公司的一个团队,他们今天的code velocity一般在是2-4周左右:

他们的一个典型的迭代周期是4周⁽¹⁾:第一周系分测分,第二、三周coding、testing、修bug,第三周末或第四周初合并回master、部署集成测试环境、跑回归、上预发、上生产环境。在这样的迭代节奏和“分支开发、主干发布” ⁽²⁾ 的模式里,从commit time到进生产环境,平均是2周左右。

他们还有一些比较长周期的项目。例如,有几个项目是四月中上旬拉的分支,一直到五月下旬才合回master,六月初发布上线。从四月上旬到五月下旬,这几个项目分支里的代码没有合回master过。这几个项目的code velocity就比较长,平均是4周左右。

为什么要度量和提高Code Velocity?

Code velocity体现的是一个研发团队快速响应业务需求的能力。

以上文C公司这个团队今天的快速响应、交付的能力水平,在两周一次发布窗口的节奏里,大部分时候可能已经够了,但一旦遇到各种意外,就捉襟见肘了,例如:临时封网,需求变更,项目因故延期等。

快速响应、快速交付的能力要有一定的“储备”,这就好像足球运动员要有体能储备:要想赢下加时赛,就要有踢两个加时赛的体能。研发团队要能在两周一次发布窗口的节奏里游刃有余,就要有一周一发甚至一周两发的能力。况且,可以预见在不远的将来,两周一次的发布窗口也嫌太久了,业务压力会倒逼一周一发成为常态。那时候,这个团队就要有“天天发”的能力,才能游刃有余。

研发团队的code velocity和他们拿到的业务结果之间的关系,就像饭店上菜时间长短和生意火不火之间的关系一样,两者是相关的,但不是强因果关系:

有些饭店上菜挺快的,但生意不火。不能就因此说“上菜时间长短”不重要。
有些饭店,上菜很慢,但生意也还是很火。也不能因此就说“上菜时间长短”不重要。

一家饭店要火,还要看地段、装潢、菜单、原料、厨子、服务员、宣传等。

除了快速响应业务需求以外,提高code velocity还能帮助开发和测试同学降低项目并发、减少上下文切换、提高幸福感。在两周一次发布窗口的节奏下,很多时候研发同学把一个需求写完、测完,要等其他需求,等集成环境测试,再回来搞一波,然后到了生产环境发布再回来搞一波。事情是不连续的,开发测试其实是被打断的。Code velocity提高了以后,开发测试有连续性,写完了测完了的代码就发走了,研发同学也不用身上同时背着一串项目了。

 

image

为什么Code Velocity快不起来?

仔细想想,一段代码从git commit到生产环境,这个过程中时间大部分是花在等待上的:等着和其他代码一起发布上线。之所以会要把很多代码合到一起,每两周发一次,是出于cost vs. benefit的权衡:

每次常规发布,不管payload(即发布的代码量)有多大,有些固定工作是逃不掉的:

首先,由于采取了“分支开发、主干发布”的模式,代码要从各个项目分支和迭代分支合并回master,要解决冲突,确保合并时没有漏代码。

然后,要对master里的代码跑一次全量的回归:准备环境、部署代码和配置、执行回归测试用例、分析结果。这个过程做一遍,短则半天一天,长则两三天甚至更长。如果发现问题,需要修bug,这个过程还要再重复。

与此同时,有些团队还要写发布计划,详细列出发布的步骤:要改哪些配置,各个系统的发布顺序是什么,回滚的步骤是什么,等等。发布计;划写好了还要评审。

最后,要走一遍发布流程:先上预发,上去以后QA要做预发验证;上生产环境,按照发布计划一步步做,蓝绿切流的过程中要让各个系统的owner确认OK,再继续蓝绿切流。整个发布过程需要很多人的协同。

在某些项目中,把代码拆成小块分多次发布会增加开发的难度和工作量。

例如,X系统的API增加了一个新参数,要求Y系统在调用这个API的时候必须要传这个参数。如果两个系统上的代码变更一起发(而且是蓝绿发布),就比较简单。但如果把这个工作拆解成小块,开发工作就变复杂了:X的API新增的这个参数必须先做成optional的,等Y那边的代码改好发上线了以后,再把X的这个新参数改成required。

另外,在有些实际项目中,实际情况比上面举的这个例子更复杂,并不是那么容易一眼就能看出来怎么拆解的。

如何提高Code Velocity?

要提高code velocity,就要对上面提到的这些原因对症下药,提升四个关键能力:

能频繁地把代码合回master
非常强大的跑回归的能力
一键部署乃至无人值守发布的能力
把大项目拆成小项目做的能力

提高code velocity,要实现质的飞跃,第一个能力“能频繁的把代码合回master”是关键抓手。把这个能力建设好了,提升code velocity的四个关键能力中的三个就具备了,因为“能频繁地把代码合回master”有三个前置条件:

实行了代码门禁
有非常强大的跑回归的能力(即上面四个关键能力的第二个)
把大项目拆成小项目做的能力(即上面四个关键能力的第四个)

代码门禁(Gated Checkin)

代码门禁能够确保每一个进入主分支⁽³⁾的commit都达到了一定的质量标准,例如:编译必须通过,单元测试和接口测试必须通过,新代码的覆盖率不能低于某个水平,静态代码扫描必须通过,等等。其实今天很多公司已经有post-checkin的CI在跑这些检查项了。代码门禁看似平淡无奇,无非就是把这些检查项从post-checkin挪到了pre-checkin。但别小看这一挪,它的效果,不亚于把“当月业绩决定本月提成”改成“当月业绩决定下月提成”的效果。

代码门禁是很典型的“测试左移”的做法,和我们对质量的基本规律的认知也是一致的:问题发现得越早,修复起来代价越小。实施了代码门禁后,能确保主分支常年处于良好状态。代码门禁实施起来也很容易,很多开源和商用的CI/CD平台都支持,例如GitLab+Jenkins。

只要做得好,代码门禁是不会降低工程师的日常效率的。“做得好”的标准是:

执行时间:一般能接受的是10-20分钟,95%的情况下不应超过30分钟,否则体感就不好了。

False negative率:也就是说,代码门禁如果失败,有多少比例是因为代码(包括测试用例代码)本身的确有问题,有多少是因为代码门禁的infrastructure的问题(比如,底层机器的资源和稳定性)。一般来说,要把false negative率控制在5%以下。False negative率如果达到20%-30%(也就是说,五次失败里面就有一次失败是跟提交的代码变更无关的),团队里面就会开始怨声载道了。

非常强大的跑回归的能力

有了强大的回归能力,就能在代码频繁的合并回master的情况下,仍然保持master分支处于可发布状态或者接近可发布的状态,有了强大的回归能力,我们甚至可以把一小部分的回归放到代码门禁里面去跑,那将会进一步有助于保持master分支处于可发布状态。

回归能力的强大体现在以下几方面:

无人值守:准备环境、部署代码和配置、执行测试、拿回结果,整个过程都必须没有任何人的参与。

频次:跑回归不嫌多,最理想的是每次CI都跑回归,那样发现问题更早、定位问题更精确。

覆盖率:主要是业务覆盖率⁽⁴⁾。

稳定性:很高的通过率,很低的噪音率,结果非常repeatable。

执行时间:也许6小时和4小时看上去没有什么大差别,其实是有本质区别的。如果回归跑一遍要6小时,那么“改代码-跑回归-看结果”这个过程一天只能干两轮;但如果回归一遍只要4小时,那么这个过程一天就能干三轮。如果能再缩短到2小时,一天就能干六七轮。

这几方面的回归能力相互之间是相辅相成的,能够形成正循环,产生“飞轮效应”:

回归的运行,只有真正做到了无人值守,才有可能长期高频次运行。

高频次的运行,可以充分暴露各种稳定性问题,提高回归的稳定性。

缩短执行时间,一方面可以缩短“反馈弧”,加速各种稳定性问题的修复,另一方面可以提高测试环境的“周转率”,在不增加硬件成本的前提下实现更高频次的回归。

提高了稳定性,可以缩短用于分析回归结果的时间。如果一个有5,000个用例的回归用例集只有90%的通过率,那每次跑完回归有500个失败的用例需要分析
⁽ ⁵⁾。但如果通过率有99%,那就只有50个用例需要分析了。

强大的回归能力的背后需要的支撑能力是:

优质的测试环境:要在预算允许的范围内,确保测试环境的稳定和资源充沛,这样才能支撑起回归的稳定性和高频次执行。

配置代码化(configuration-as-code)的能力。今天常见的web-based centralized配置变更管理模式不足以支持高频词、高并发的回归运行模式。实现了配置代码化,才能实现快速的环境部署,以及在不同的环境之间用不同的配置跑回归。配置代码化并不是简单地把配置写在config文件里面,和代码一起打包发布。配置代码化是对这种config文件做法的否定之否定:配置可以在git里面修改;配置也可以在配置管理系统里面直接修改,变更会回沉到git里面。部署的时候,部署工具会把git里面的配置值以增量的方式推到配置管理系统里面。

把大项目拆成小项目做的能力

如前所述,把代码拆成小块分多次发布,的确是会增加开发的工作量的。有不少开发同学不理解为什么要这样做。增加了这些工作量,能让我们的研发模式更加敏捷。这个代价是值得付出的,这些额外的时间是值得花的。

大项目拆成小项目做的一些常见套路包括:

分两部走:先向下兼容,再去掉兼容性。这就是前文举的那个例子:X系统的API增加了一个新参数,要求Y系统在调用这个API的时候必须要传这个参数。拆成小项目的拆解方法是:首先,X的API新增的这个参数做成optional的,把X发布上线。然后等Y那边的代码改好发上线了以后,再把X的这个新参数改成required,再发布一次X。或者,也可以用一个feature flag来控制这个新参数是否required。

Feature flag:有了feature flag,新功能的代码写了一半也没关系,可以把feature flag关掉,就算代码发上线了也不会被执行到。有时候,有些新功能所需要的代码变更是改动在老代码里面的。这样的代码变更无法用feature flag来屏蔽。但这也没关系,因为我们有强大的回归能力,能尽我们所能确信这些的代码变更至少不会break老功能、不会在发上线后造成故障。Anyway, 哪怕不是为了把大项目拆成小项目,feature flag也是需要的。Feature flag、白名单等都是很常见的continuous delivery手段。

Capability probing:很多新功能涉及整条链路上各个系统的改造。现在往往上游系统的发布依赖于下游系统的发布。解耦这种依赖关系的一种方法是让每个系统都通过一个统一的API接口来暴露自己当前的能力。这样,上游系统可以判断下游系统当前是否支持某个新功能所需要的能力Foo(例如,某种支付渠道),根据结果走不同的code path。

按域独立发布也是一种很成熟的拆分的方法。按域独立发布,实现域和域之间的解耦,能减少每次发布的系统的数量,降低发布风险,增加发布的灵活度。

大项目拆成小项目,还需要有比较强的需求拆分的能力:能够把一个全链路级别的需求文档拆分成域级别、系统级别的需求,这样每个域、每个系统可以“分而治之”。

 

image

Code Velocity和质量、线上稳定性的关系

从上面的分析可以看出来,提高code velocity并不是以牺牲质量为代价的。上面这些提高code velocity的手段,并没有cut corner,并没有降低质量标准,并没有比今天少执行任何测试。即便是频繁的把代码合回master,即便是把大项目拆成小项目做,该运行的各种验证和测试还是继续运行。而且,为了要提高code velocity,实行了代码门禁,建设了强大的跑回归的能力,反而是对质量有提高作用的。

提高code velocity也并不会降低线上稳定性。把大项目拆成小项目做、更加频繁的发布小块代码,能够降低单次发布的风险;发布中如果出了问题,因为payload小,排查和回滚也更方便。另外,在投入资源提高code velocity的同时,我们不会降低对故障发现能力、止血能力、应急能力、监控核对等能力的投入。提高code velocity不会导致线上技术风险防控体系变弱。

将来

如果一个团队的“能频繁的把代码合回master”的能力做得足够好了,就可以完全抛弃项目分支和迭代分支,每一个commit都直接checkin进master,而且master分支每天都有若干个可以发布的版本⁽⁶⁾,每个版本都可以用一个不同的release分支来保存。这就是所谓的“主干开发、分支发布”(Trunk-based Development)模式了。

到那时候,就有做到“天天发”的能力了。那时候,代码从commit到上线可能平均只需要两三天时间。那时候,因为有了“天天发”的能力,甚至连紧急发布都不怎么需要了。

如果你希望加入蚂蚁金服国际事业群,可以随时与我们直接联系。Java开发、测试开发、SRE工程师和工具开发等岗位虚位以待,有兴趣的童鞋可发简历至:
intl_hire_account@service.alipay.com

【注】
1.一般会有两个为期四周的迭代并行,每个迭代有自己的目标发布窗口。发布窗口一般是每两周一次。
2.“分支开发、主干发布”的开发模式来自于A successful Git branching model。但这种模式在实践中是有不少问题的(参见A succesful Git branching model considered harmful)。更好的模式是“主干开发、分支发布”(aka. Trunk-based Development)
3.主分支可以是master,也可以是项目分支或者迭代分支。
4.单元测试和接口测试看代码覆盖率,回归测试看业务覆盖率。这在行业内的一部分开发和测试之间已经形成共识了。
5.当然,我们可以用技术的手段使得分析500个失败的用例变得更容易。但这并不应该成为我们不去提高通过率的理由。
6.版本:对于“大库模式”(monolithic repo)来说就是一个commit,对于“小库模式”来说就是每个repo的一个commit构成的一个“截面”。

原文链接 

本文为云栖社区原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521283.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多机器人路径规划的代码_知荐 | 地平线机器人算法工程师总结六大路径规划算法...

来源 | 知乎知圈 | 进“高精度地图社群”,请加微信15221054164,备注地图目录1 自主机器人近距离操作运动规划体系1.1 单个自主机器人的规划体系1.2 多自主机器人协同规划体系2 路径规划研究2.1 图搜索法2.1.1 可视图法2.1.2 Dijkstra算法2.1.3 A*算法2.2…

Kafka 监控 Kafka Eagle 图形化版本

文章目录一、Kafka Eagle 下载、编译流程1. Kafka Eagle下载2. 解压Kafka Eagle3. 进入解压的目录4. 编译项目5. 添加编译环境6. 运行脚本编译项目二、Kafka Eagle 正式配置流程2.1. 进入编译获得web目录2.2. 将编译后的tar解压到/app目录2.3. 在/app目录下面查看2.4. 配置文件…

一份关于如何为回归任务选择机器学习算法指南

摘要: 本文总结了一些针对于回归问题的机器学习方法,辩证地分析了其各自的优缺点,读者可以根据具体问题选择合适的机器学习算法以完成相应的任务。 当遇到任何类型的机器学习(ML)问题时,可能会有许多不同的…

博文强识|支付宝 App 是如何建设移动 DevOps 的?

作者 | 阿里云云栖社区转自 | CSDN企业博客责编 | 阿秃微软 MSDN 上的一篇文章有这样一段话:“移动应用的理想环境需要满足两个条件,一是可以确切知道客户脑海中立即浮现的需求,二是为了满足这些需求而编写的代码可以立即传递给这…

第一个将Palette Mode引入VVC(H.266),阿里云在JVET会议上引起关注

从应用需求出发,帮助标准组织制定出更贴近云端业务需求的标准 视频压缩标准是一个重要且深具挑战的研究方向。从过去的存储到当前的网络带宽,视频标准每一代的更新进步对科技应用都有很大的影响。但同时随着几十年来的发展,视频压缩标准的效…

kafka集群下载、启动、部署、测试

文章目录一、kafka基础操作1. kafka下载2. 解压3. 重命名4. 在kafka目录下创建 data 数据文件夹5. 修改配置文件6. 配置kafka环境变量7. 刷新环境变量,使之生效二、kafka集群操作2.1. 分发配置好的基础安装包2.2. 登录ly-02服务器,修改配置文件2.3. 登录…

零基础学python难_0基础学python有多难

相对于其他编程语言来说,Python并不是很难,入门简单,容易上手,对于零基础的人来说,入门Python是不难的,但是想要学精学通,则要花费一定的时间和精力。Python是主流的编程语言,应用性…

修改HBase的rowkey设计把应用的QPS从5W提升到50W

摘要: 正确设计Hbase的rowkey可以让你的应用飞起来,前提是你需要了解一些Hbase的存储机制。 UTT是Aliexpress的营销消息运营平台,运营希望促销活动时APP消息推送的QPS达到34W。 UTT刚接入APP消息推送时,QPS只能达到5W&#xff0…

BDTC 2019 | 15场分论坛,10分钟速览,5折票优惠,烧脑模式开启

2019中国大数据技术大会(BDTC)5折优惠票限时抢购啦,学生票仅售599元!扫描上图二维码或登录官网(https://t.csdnimg.cn/KSTh)了解更多最新大会详情。近日,在组委会公布大会部分重磅讲师和前沿议题…

我需要一个高并发的架构,我的系统要改造成微服务吗

摘要: 最近大家都在谈微服务,随着越来越多的在线业务需要提供更大并发的scale-up 和 scale out能力,微服务确实提供了比较好分布式服务的解决方案。 阿里云高级解决方案架构师 杨旭 世界最大混合云的总架构师,4年前,开…

python工作目录_Python目录的基本操作

一、任务描述 本实验任务主要对Python目录进行一些基本操作,通过完成本实验任务,要求学生熟练掌握Python目录的基本操作,并对Python目录的基本操作进行整理并填写工作任务报告。 二、任务目标 1、掌握Python目录的操作 三、任务环境 Ubuntu16…

【建议收藏】数据中心服务器基础知识大全

戳蓝字“CSDN云计算”关注我们哦!作者 | Hardy责编 | 阿秃服务器对每个从事IT工作的人来说并不陌生,但是服务器所涉及的各种知识细节,并非大家都十分清楚,为了让大家深入了解服务器的关键知识点,笔者特意抽时间总结了…

一文了解阿里云CDN HTTP2.0

摘要: 本文由阿里视频云高级技术专家空见撰写,主要介绍HTTP2.0的历史、特性、如何使用和使用之后的性能对比验证。 背景介绍 要了解HTTP2.0,先了解一下HTTP超文本传输协议的历史(HyperText Transfer Protocol)&#…

VMVare 虚拟机使用桥接模式

VMVare 虚拟机使用桥接模式,和物理机使用同一个物理网卡,和物理主机使用同一个段的ip。 文章目录1. VMware 编辑 > 虚拟网络编辑器2. 更改配置3. 编辑名称为VMnet0 的网络4. 编辑虚拟机的网络适配器5. 编辑虚拟机的网络适配器6. 再启动虚拟机1. VMwar…

阿里云基于NVM的持久化高性能Redis数据库

摘要: 背景 Redis作为一款简洁、高效的开源K/V数据库,可以被用于内存缓存、持久化存储等不同场景,大量服务于各类互联网应用。同时也提供了丰富的功能配置,客户可以根据各自业务需求,在读写性能、缓存容量、数据可靠性…

rgss加密文件解包器_Unity AssetBundle高效加密案例分享

这是侑虎科技第585篇文章,感谢作者江鱼供稿。欢迎转发分享,未经作者授权请勿转载。如果您有任何独到的见解或者发现也欢迎联系我们,一起探讨。(QQ群:793972859)作者主页:https://www.zhihu.com/…

阿里云DTS大幅降价,低至400元即可获得实现秒级延迟的数据传输服务

为了释放更多技术红利,进一步普惠广大客户和开发者,阿里云7月上旬宣布数据传输服务(Data Transmission Service,简称DTS) 数据同步功能降价,最高降价幅度高达40%。中国大陆,最低单价低至400元/月,跨境专线同步&#xf…

【又是一波重点】深度解析服务器科普知识 | CSDN博文精选

戳蓝字“CSDN云计算”关注我们哦!作者 | Hardy晗狄转自 | CSDN博客责编 | 阿秃服务器是网络数据的节点和枢纽,是一种高性能计算机,存储、处理网络上80%的数据、信息,负责为网络中的多个客户端用户同时提供信…

Linux下启动/关闭Oracle服务和 oracle监听启动/关闭/查看状态

文章目录一、Linux下启动Oracle 二步曲1)启动监听2)启动数据库实例二、Linux下启动Oracle 实战操作2.1. 登录服务器,切换到oracle用户,或者以oracle用户登录2.2. 打开监听服务2.3. 以SYS用户身份登录Oracle2.4. 通过startup命令启…

【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景

在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测。HDR-BD采用业界领先的数据双向实时复制技术&a…