形式化验证工具TLA+:程序员视角的入门之道

简介: 女娲是飞天分布式系统中提供分布式协同的基础服务,支撑着阿里云的计算、网络、存储等几乎所有云产品。在女娲分布式协同服务中,一致性引擎是核心基础模块,支持了Paxos,Raft,EPaxos等多种一致性协议,根据业务需求支撑不同业务状态机。如何保证一致性库的正确性是一个很大挑战,我们引入了TLA+、Jepsen等工具保证一致性库的正确性。本文即从程序员视角介绍形式化验证工具TLA+。

image.png

作者 | 祥光
来源 | 阿里技术公众号

一 引言

女娲是飞天分布式系统中提供分布式协同的基础服务,支撑着阿里云的计算、网络、存储等几乎所有云产品。在女娲分布式协同服务中,一致性引擎是核心基础模块,支持了Paxos,Raft,EPaxos等多种一致性协议,根据业务需求支撑不同业务状态机。如何保证一致性库的正确性是一个很大挑战,我们引入了TLA+、Jepsen等工具保证一致性库的正确性。本文即从程序员视角介绍形式化验证工具TLA+。

从理论上证明一个程序或者算法的正确性往往是困难的,工程中一般使用测试来发现问题,但再多的测试也无法保证覆盖到了所有的行为,那些没覆盖到的行为就成为潜在的隐患,一旦在线上再暴露出来,往往会带来不可预期的结果。形式化验证正是为了解决这样的问题,它使用计算机强大的计算能力,暴力的搜索所有可能的行为,检查是否满足事先设定的属性,任何不符合预期的行为都能被发现,从根本上保证算法的正确性。

二 TLA+简介

TLA+(Temporal Logic of Actions) 是Leslie Lamport开发的一门形式化验证语言,用于程序的设计、建模、文档和验证等,特别是并发系统和分布式系统。TLA+的设计初衷是用简单的数学理论和公式精准地对系统进行描述。TLA+及其相关工具有助于消除程序中很难找到、纠错成本高的基本错误。

使用TLA+对程序进行形式化验证,首先要用TLA+对程序进行描述,这样的描述称为规范(Specification)。有了Specification以后就可以使用TLC模型检查器来运行它,运行的过程会遍历所有可能的行为,检查Specification中设定的属性,发现非预期的行为。

TLA+基于数学,使用的是数学思维,与任何编程语言都不相似。为了降低TLA+的门槛,Lamport又开发了PlusCal语言,PlusCal与编程语言类似,可以很方便的描述程序逻辑,并且借用TLA+提供的工具可以直接将PlusCal翻译成TLA+。大多数工程师会发现PlusCal是开始使用TLA+的最简单方法,但简单带来的代价就是PlusCal不具备TLA+的一些功能,有时不能像TLA+那样构造复杂的模型,因此PlusCal还不能取代TLA+。先使用PlusCal编程语言完成基本的逻辑,然后进一步基于生成的TLA+代码再修改,可以简化TLA+的开发。

三 TLA+应用

TLA+在学术界和工业界都有着广泛的应用。TLA+ Examples给出了一些使用TLA+验证过的分布式算法和并发算法。在分布式算法和并发算法的研究领域,提出一个新的算法或者改进一个现有的算法,TLA+验证基本是标配。很多分布式算法论文在非形式化的论证介绍之外, 会附带TLA+的Specification来证明自己的算法是经过形式化验证的。对TLA+比较熟悉的业内人士来说,直接看TLA+的Specification甚至比看大段的论文理解的更快,对于论文的语言描述没有看明白,或者觉得有歧义的时候,查看TLA+的Specification对照着理解,有时候是阅读论文的一把利器,甚至有时候一些算法细节只能在TLA+的Specification里看到。由于Specification是逻辑严密滴水不漏的,可以更好的作为实现的指导。

Lamport的TLA+主页上列出了一些TLA+在工业界的应用。以Amazon为例,Amazon AWS的一些系统的核心算法就使用了TLA+来做形式化验证,如表1列出了TLA+给AWS的一些系统找出的问题,其中涵盖了一些非常核心的组件,这些核心组件的问题一旦在线上暴露,造成的损失将是不可估量的。正是如此,现在分布式云服务的核心算法使用TLA+来对设计做验证已经成为行业标准了,所以作为云服务的从业者或者对此感兴趣的同学,熟悉TLA+绝对是不可或缺的加分项。

image.png

表1:TLA+给AWS的系统找出的问题

四 TLA+入门

在VS Code中安装TLA+插件就可以开始使用TLA+了。这里先以一个简单的示例入门TLA+。

考虑一个单比特位的时钟,由于只有一个比特位,只能取值0或者1,其行为只有如下两种情况:

0 -> 1 -> 0 -> 1 -> 0 -> ...
1 -> 0 -> 1 -> 0 -> 1 -> ...

我们如何用TLA+来描述这个时钟呢?为了更容易入门,先用更方便工程师入门的PlusCal来描述:

image.png

图1:单比特时钟的PlusCal描述

图1是单比特时钟的PlusCal描述,相信具有编程功底的同学都能轻易看懂。这段PlusCal代码可以直接使用TLA+提供的工具翻译成TLA+代码:

image.png

图2:单比特时钟的TLA+描述

有了上面的PlusCal的基础,理解这一段TLA+也不难,重点在于Spec的理解。Spec定义了系统的行为,如图3描述了单比特时钟的行为,Init将clock初始化为0或1,Tick让clock在0和1之间来回跳转,Stutter让clock保持不变。TLA+运行的过程其实就是在图上做遍历。

image.png

图3:单比特时钟的行为

要让这段TLA+跑起来,上述TLA+代码需保存至clock.tla文件,此外还需要编写一个如图4所示的clock.cfg文件,clock.cfg文件内容很简单,它注明要运行的Specification是哪个,要检查的Invariant是哪个。

image.png

图4:clock.cfg文件内容

有了这两个文件,就可以用TLC来运行了,运行结束后得到如图5所示的结果,图中展示了一些统计信息。

image.png

图5:运行结果

五 TLA+原理

为了理解TLA+的运行原理,弄清楚它是怎么遍历的,我们可以在运行的时候加上一些参数,让TLC输出状态图。比如我们运行图6所示的一段TLA+代码,图7是运行所需要的cfg文件。这个例子试图找出用面值为1、2和5的钱组合出19块钱的所有组合方式。

image.png

图6:money.tla

image.png

图7:money.cfg

运行结束后可以得到如图8所示的状态图,图中的顶点为状态,共20种状态,money=0为初始状态,money=19为终止状态,图中的边为动作,共4种动作:Add(1)、Add(2)、Add(5)和Terminating。

image.png

图8:状态图

TLA+的运行是完全串行的,运行的的过程即在状态图上做图的遍历,每遍历到一个状态,就检查一下当前状态是否满足事先设定的不变式,满足则继续遍历,不满足则立即报错。TLA+会尝试所有的遍历路径,不错过任何一种行为。我们知道图的遍历方式有深度优先和广度优先两种,TLA+默认广度优先遍历,也可配置成深度优先模式或者随机行为模式,深度优先模式需要给定一个最大深度。

现在我们知道了TLA+的原理实际上就是状态图的遍历并检查的过程,这样的过程看似简单,却能覆盖到算法所有的路径,不漏掉任何一种行为。实际我们经常使用TLA+检查算法的Safety和Liveness属性。

六 TLA+并发

到这里相信读者对TLA+的原理已经有了初步的了解,但细心的读者可能心中还有一个很大的疑问:TLA+运行过程是完全串行的,那么串行运行的TLA+如何模拟并发算法或者分布式算法呢?

对于串行算法来说,算法中的动作是Totally Ordered,本身就是一个串行的状态机,很容易构造状态图。但并发算法或者分布式算法中的动作是Partially Ordered,不是一个串行的状态机,如何构造出状态图呢?

如果并发算法或者分布式算法中的动作也能变成Totally Ordered,则也可以看作是一个串行的状态机,构造出状态图。

实际上Lamport大师一早就研究了这个问题,在他被引用的最多的论文《Time, Clocks and the Ordering of Events in a Distributed System》中给出了为分布式系统中的事件定序的方法。简单的说就是在保证具有Partially Ordered关系的事件的顺序的前提下,将剩下的无序的事件人为定一个顺序,可以将所有事件排一个序变为Totally Ordered,并且这种定序不会破坏因果关系。

事实上TLA+大放异彩的地方正是在并发算法和分布式算法领域,因为在这些领域算法的行为多种多样,容易疏漏,因此需要TLA+全面检查算法的所有路径,不漏掉任何一种行为。

七 总结

TLA+使用计算机强大的算力搜索算法所有可能的行为,以发现非预期的行为。随着计算机算力的提升,以及软件和硬件系统越来越复杂,TLA+将越来越受到重视,越来越成为工程师的必备技能。

最后如果读者对TLA+感兴趣,这里推荐一本TLA+的入门书籍《Practical TLA+》,比较适合入门,并且网上有免费的电子版可以直接下载。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512179.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

性能突出的 Redis 是咋使用 epoll 的?

作者 | 闪客来源 | 低并发编程我是个 redis 服务,我马上就要启动了因为我的主人正在控制台输入:./redis-server宏观上看下我的流程突然,主人按下了回车键,不得了了。shell 程序把我的程序加载到了内存,开始执行我的 ma…

阿里云重磅发布业务中台产品 BizWorks,中台发展进入下一个阶段

简介: 业务中台产品BizWorks重磅发布,这可以看作是阿里云在 “做厚中台” 战略上继 “云钉一体”之后的又一个新动作! 10 月 19 日,2021 云栖大会正式开幕,连续举办多年的云栖大会俨然已经成为了国内科技产业展示前沿…

java32位怎么用eclipse_无法在Windows 7 32位上打开eclipse

我正在使用Eclipse Indigo(eclipse-jee-indigo-SR2-win32) . 当我双击eclipse.exe时,会出现以下对话框:日志文件的内容如下:!SESSION 2013-05-27 17:55:26.853 -----------------------------------------------eclipse.buildIdM20120208-080…

云栖发布|企业级互联网架构全新升级 ,助力数字创新

简介: 云原生产品家族全面升级,让业务技术团队有了更多选择,通过简单、丰富、开放和低成本的 PaaS 服务,帮助企业客户更简单、更高效的进行在云上创新,搭建更符合业务需要和团队情况的技术体系。 作者|白玙…

当类的泛型相关时,如何在两个泛型类之间创建类似子类型的关系呢

作者 | 阿Q来源 | 阿Q说代码事情是这样的:对话中的截图如下:看了阿Q的解释,你是否也和“马小跳”一样存在疑问呢?请往👇看我们都知道在java中,只要是类型兼容,就可以将一种类型的对象分配给另一…

java 垃圾回收 新生代_Java垃圾回收

一、概述Java垃圾回收器实现内存的自动分配和回收,这两个操作都发生在Java堆上(还包括方法区,即永久代)。垃圾回收操作不是实时的发生(对象死亡不会立即释放),当内存消耗完或者是达到某一指标(threshold,使用内存占总内存的比列,比…

一图看懂云栖大会「云原生」发布

简介: 云原生产品全新升级 原文链接 本文为阿里云原创内容,未经允许不得转载。

明明还有大量内存,为啥报错“无法分配内存”?

作者 | 张彦飞allen来源 | 开发内功修炼近日小伙伴和我说了线上服务器出现一个诡异的问题,执行任何命令都是报错“fork:无法分配内存”。这个问题最近出现的,前几次重启后解决的,但是每隔 2-3 天就会出现一次。# service docker stop -bash f…

先行一步,7大技术创新和突破,阿里云把 Serverless 领域的这些难题都给解了

简介: 函数计算 FC 首创 GPU 实例、业内首发实例级别可观测和调试、率先提供端云联调和多环境部署能力、GB 级别镜像启动时间优化至秒级、VPC 网络建连优化至200ms,Serverless 应用引擎 SAE 支持微服务框架无缝迁移、无需容器化改造、业内首创混合弹性策…

基于Delta lake、Hudi格式的湖仓一体方案

简介: Delta Lake 和 Hudi 是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行 BI 等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务产生即时的洞察。MaxCompute…

如何新建java内部类_java内部类-1(内部类的定义)

小胖从官网出发,研究下为什么我们需要些内部类,内部类的区别和联系。思考三个问题:(1)为什么需要内部类?静态内部类和非静态内部类有什么区别;(2)为什么内部类可以无条件访问外部类成员;(3)为什么jdk1.8之前…

stack vs heap:栈区分配内存快还是堆区分配内存快 ?

作者 | 码农的荒岛求生来源 | 码农的荒岛求生有伙伴问到底是从栈上分配内存快还是从堆上分配内存快,这是个比较基础的问题,今天就来聊一聊。栈区的内存申请与释放毫无疑问,显然从栈上分配内存更快,因为从栈上分配内存仅仅就是栈指…

CDP 平台简介

简介: EDC 建立在 Cloudera Data Platform(CDP) 之上,该产品结合了 Cloudera Enterprise Data Hub 和 Hortonworks Data Platform Enterprise 的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。这种统一的发行是一个可扩展且可…

400倍加速, PolarDB HTAP实时数据分析技术解密

简介: PolarDB MySQL是因云而生的一个数据库系统, 除了云上OLTP场景,大量客户也对PolarDB提出了实时数据分析的性能需求。对此PolarDB技术团队提出了In-Memory Column Index(IMCI)的技术方案,在复杂分析查询场景获得的数百倍的加速…

建立数字化、学习型人事平台,HR 与业务终于不再「隔空对话」

本篇文章暨 CSDN《中国 101 计划》系列数字化转型场景之一。 《中国 101 计划——探索企业数字化发展新生态》为 CSDN 联合《新程序员》、GitCode.net 开源代码仓共同策划推出的系列活动,寻访一百零一个数字化转型场景,聚合呈现并开通评选通道&#xff…

OpenYurt 深度解读|开启边缘设备的云原生管理能力

简介: 北京时间 9 月 27 号,OpenYurt 发布 v0.5.0 版本。新发布版本中首次提出 kubernetes-native非侵入、可扩展的边缘设备管理标准,使 Kubernetes 业务负载模型和 IOT 设备管理模型无缝融合。 作者|贾燚星(VMware), 何淋波(阿里…

Cloudera Manager 术语和架构

简介: 本文介绍了Cloudera Manager 的常见术语和架构 Cloudera Manager 术语 为了有效地使用Cloudera Manager,您应该首先了解其术语。 术语之间的关系如下所示,其定义如下: 有时,术语服务和角色用于同时指代类型和…

冬奥网络安全卫士被表彰突出贡献,探寻冬奥背后的安全竞技

奥运史上首次公开招募白帽子担任“冬奥网络安全卫士”。 据统计,从冬奥会开始到冬残奥会闭幕式结束,奇安信共检测日志数量累积超1850亿,日均检测日志超37亿,累计发现修复漏洞约5800个,发现恶意样本54个,排查…

打破 Serverless 落地边界,阿里云 SAE 发布 5 大新特性

简介: SAE 的 5 大新特性、4 大最佳实践,打破了 Serverless 落地的边界,让 All on Serverless 成为可能. 微服务场景,开源自建真的最快最省最稳的?复杂性真的会成为 Kubernetes 的“致命伤”吗?企业应用容…

java线程一定是thread_深入理解Java多线程(multiThread)

多线程的基本概念一个java程序启动后,默认只有一个主线程(Main Thread)。如果我们要使用主线程同时执行某一件事,那么该怎么操作呢?例如,在一个窗口中,同时画两排圆,一排在10像素的高度,一排在5…