【静态分析】静态分析笔记04 - 数据流分析(理论)

参考:

【课程笔记】南大软件分析课程4——数据流分析基础(课时5/6) - 简书

---------------------------------------------------------------------------

1. 迭代算法

本质:常见的数据流迭代算法,目的是通过迭代计算,最终得到一个稳定的不变的解。

(1)理论

定义1:给定有 k 个节点(基本块)的 CFG,迭代算法就是在每次迭代时,更新每个节点 n 的OUT[n]。

定义2:设数据流分析的值域是 V,可定义一个 k - 元组,作为集合(记为)的一个元素,表示每次迭代后 k 个节点的值。

定义3:每一次迭代可看作是映射到新的,通过 转换规则 和 控制流 来映射,记作函数

迭代算法本质:通过不断迭代,直到相邻两次迭代的 k - 元组值一样,算法结束。

(2)图示

不动点:当Xi = F(Xi)时,就是不动点。

问题

  • 迭代算法是否一定会停止(到达不动点)?
  • 迭代算法如果会终止,会得到几个解(几个不动点)?
  • 迭代几次会得到解(到达不动点)?

2. 偏序(Partial Order)

定义:给定偏序集(P, ),是集合 P 上的二元关系,若满足以下性质则为偏序集:

  • xP, xx(自反性 Reflexivity)
  • x,yP, xyyxx=y(对称性 Antisymmetry)
  • x,yP, xyyzxz(传递性 Transitivity)

例子

  • P 是整数集,表示,是偏序集;若表示 <,则显然不是偏序集。
  • P 是英文单词集合,表示子串关系,是偏序集(可以存在两个元素不具有偏序关系,不可比性)。

3. 上下界(Upper and Lower Bounds)

(1)定义

定义:给定偏序集(P, ),且有 P 的子集 S ⊆ P:

  • xS, xu, 其中 uP,则 u 是子集 S 的上界 (注意,u并不一定属于S集
  • xS, lx, 其中 lP,则 l 是 S 的下界

最小上界:least upper bound(lub 或者称为 join),用 ⊔S 表示。

定义:对于子集 S 的任何一个上界 u,均有 ⊔S⊑u。

最大下界:greatest lower bound(glb 或者称为 meet),用 ⊓S 表示。

定义:对于子集 S 的任何一个下界 l,均有 l⊑⊓S。

(2)示例

若 S 只包含两个元素 a、b(S = {a, b}),那么上确界可以表示为 a⊔b,下确界可以表示为 a⊓b。

(3)特性

并非每个偏序集都有上下确界。

如果存在上下确界,则是唯一的。(利用传递性和反证法即可证明)

4. 格(Lattice),(半格)Semilattice,全格,格点积(Complete and Product Lattice)

都是基于上下确界来定义的。

(1)格

定义:给定一个偏序集 (P, ⊑),∀a, b∈P,如果存在 a⊔b 和 a⊓b,那么就称该偏序集为格。(偏序集中的任意两个元素构成的集合均存在最小上界和最大下界,那么该偏序集就是格)

例子

  • (S, ⊑) 中 S 是整数子集,⊑是,(S, ⊑)是格;
  • (S, ⊑) 中 S 是英文单词集,⊑表示子串关系,(S, ⊑)不是格,因为单词 pin 和 sin 就没有上确界;
  • (S, ⊑) 中 S 是 {a, b, c} 的幂集,⊑表示子集,(S, ⊑)是格。

(2)半格

定义:给定一个偏序集 (P, ⊑),∀a, b∈P:
当且仅当 a⊔b 存在(上确界),该偏序集叫做 join semilatice;

当且仅当 a⊓b 存在(下确界),该偏序集叫做 meet semilatice。

(3)全格

定义:对于格 (S, ⊑) 的任意子集 S,⊔S 上确界和 ⊓S 下确界都存在,则为全格(complete lattice)。

例子

  • P 是整数集,⊑是,P 不是全格,因为 P 的子集正整数集没有上确界。
  • (S, ⊑) 中 S 是 {a, b, c} 的幂集,⊑表示子集,(S, ⊑) 是全格。

性质

1. 有穷的格点必然是全格。

2. 全格一定有穷吗? 不一定,如实数界 [0, 1]。

(4)格点积

5. 数据流分析框架 via Lattice

数据流分析框架 (D, L, F) :

  • D — 方向
  • L — 格点(值域 V)
  • F — 转换规则 VV。

数据流分析可以看做是迭代算法格点利用转换规则meet/join 操作

6. 单调性与不动点定理(Monotonicity and Fixed Point Theorem)

目标问题:迭代算法一定会停止(到达不动点)吗?

(1)单调性

定义:函数f: L → L,满足 ∀x, y∈L,x⊑y ⇒ f(x)⊑f(y),则为单调的。

(2)不动点理论

定义:给定一个完全格 (L, ⊑),如果f: L → L是单调的,并且L有限,

那么我们能得到最小不动点,通过迭代:直到找到最小的一个不动点;

同理,我们能得到最大不动点,通过迭代:直到找到最大的一个不动点。

7. 迭代算法转化为不动点理论

问题:我们如何在理论上证明迭代算法有解有最优解何时到达不动点

那就是将迭代算法转化为不动点理论。因为不动点理论已经证明了,单调、有限的完全格,存在不动点,且从 ⊤ 开始能找到最大不动点,从 ⊥ 开始能找到最小不动点。

目标:证明迭代算法是一个完全格 (L, ⊑),是有限的,单调的。

(1)证明迭代算法是一个完全格

根据第5小节,迭代算法每个节点(基本块)的值域相当于一个 lattice,每次迭代的 k 个基本块的值域就是一个 k - 元组。k - 元组可看作格点积。根据格点积性质:若中每一个 lattice 都是完全(有限)的,则也是完全(有限)的。

(2)L是有限的

迭代算法中,值域是 0/1,是有限的,则 lattice 有限,则也有限。

(3)F是单调的

函数F:BB 中 转换函数 fi:L → L 与 BB 分支之间的控制流 影响(汇聚是join ⊔ / meet ⊓ 操作,分叉是拷贝操作)。

  1. 转换函数:BB 的 gen、kill 是固定的,值域一旦变成 1,就不会变回 0,显然单调。
  2. join/meet 操作:L × L → L 。证明:∀x, y, z∈L,且有 x⊑y 需要证明 x⊔z⊑y⊔z。

总结:迭代算法是完全 lattice,且是有限、单调的,所以一定有解、有最优解。

(4)算法何时到达不动点?

定义lattice 高度 — 从 lattice 的 top 到 bottom 之间最长的路径。

最坏情况迭代次数:设有 n 个块,每次迭代只有 1 个 BB 的 OUT/IN 值的其中 1 位发生变化,则最多迭 (n × h) 次。(可以看成每个块的值在上图向上爬,每个块要爬 h 次)

8. 从 lattice 的角度看 may/must 分析

说明:may 和 must 分析算法都是从不安全到安全(是否安全取决于 safe-aprroximate 过程),从准确到不准确。

(1)may分析

以 Reaching Definitions 分析为例:

  • 开始,表示所有定义都不可达,是不安全的结果(因为这个分析的应用目的是为了查错,查看变量是否需要初始化,并对每个值为 1 的 definition 进行初始化表示不需要对任何变量进行初始化,这是不安全的,可能导致未初始化错误)。

  • 表示需要对每个变量都进行初始化,非常安全!但是这句话没有用,我都要初始化的话还做这个分析干嘛?

  • Truth:表明最准确的验证结果,假设 {a, c} 是 truth,那么包括其以上的都是 safe 的,以下的都是 unsafe。

,得到的最小不动点最准确,离Truth最近。上面还有多个不动点,越往上越不准。

(2)must分析

以 available expressions 分析为例:

  • 开始,表示所有表达式可用。如果用在表达式计算优化中,那么有很多已经被重定义的表达式也被优化了(实际上不能被优化),那么该优化就是错误的,不安全
  • 表示没有表达式可用,都不需要优化,很安全!但没有用。
  • ,就是从不安全到安全,存在一个 Truth,代表准确的结果。
  • ,达到一个最大不动点,离 truth 最近的最优解。

迭代算法转化到 lattice 上,may/must 分析分别初始化为最小值和最大值,最后求最小上界/最大下界。

9. 分配性(Distributivity)和MOP

目的:MOP(meet-over-all-paths)衡量迭代算法的精度。

(1)概念

定义:分别得出每条路径的 OUT,最终将所有路径的 OUT 一起来进行 join/meet 操作,本质求这些值的最小上界 / 最大下界。

路径 P = 在 cfg 图上从 entry 到基本块 si 的一条路径(P = Entry → s1 → s2 → ... → si )。

路径 P 上的转移函数 Fp:该路径上所有语句的转移函数的组合fs1,fs2,... ,fsi-1。

MOP准确性:有些路径原本不会被执行而被计算,所以不准确;若路径包含循环,或者路径爆炸,所以实操性不高,只能作为理论的一种衡量方式。

(2)MOP vs 迭代算法

证明

  1. 根据最小上界的定义,有 x⊑x⊔y 和 y⊑x⊔y。

  2. 由于转换函数是单调的,则有 F(x)⊑F(x⊔y) 和 F(y)⊑F(x⊔y),所以 F(x⊔y) 就是 F(x) 和 F(y) 的上界。

  3. 根据定义,F(x)⊔F(y) 是 F(x) 和 F(y) 的最小上界。

  4. 所以 F(x)⊔F(y)⊑F(xy)。

结论:所以,MOP更准确。若 F 满足分配律,则迭代算法和 MOP 精确度一样 F(xy) = F(x)⊔F(y)。一般,对于控制流的 join/meet,是进行集合的交或并操作,满足分配律。

10. 常量传播 (constant propagation)

问题描述:在程序点 p 处的变量 x,判断 x 是否一定指向常量值。

类别must分析

表示:CFG 每个节点的 OUT 是 pair(x, v)的集合,表示变量 x 是否指向常数 v。

(1)数据流分析框架(D, L, F)

(1)D:forward

(2)L:lattice

变量值域:所有实数。

meet 操作

  • NAC ⊓ v = NAC(非常量)
  • UNDEF ⊓ v = v(未初始化的变量不是我们分析的目标)
  • c ⊓ v = ?
    • c ⊓ c = c
    • c1 ⊓ c2 = NAC

不满足分配律

(2)F 转换函数

OUT[s] = gen U (IN[s] - {(x, _)})

对所有的赋值语句进行分析(不是赋值语句则不管,用 val(x) 表示 x 指向的值):

(3)性质

不满足分配律

可以发现,MOP更准确。

11. Worklist算法

本质:对迭代算法进行优化,采用队列来存储需要处理的基本块,减少大量的冗余的计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/814726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实时智能应答3D数字人搭建2

先看效果&#xff1a; 3d数字人讲黑洞 根据艾媒咨询数据&#xff0c;2021年&#xff0c;中国虚拟人核心产业规模达到62.2亿元&#xff0c;带动市场规模达到1074.9亿元&#xff1b;2025年&#xff0c;这一数据预计将达到480.6亿元与6402.7亿元&#xff0c;同比增长迅猛。数字人可…

C++(3) —— 核心编程

一、内存区分模型 1.1 程序运行前 #include<iostream> using namespace std;// 全局变量 int g_a 10; int g_b 20;// const修饰的全局变量&#xff0c;全局常量 const int c_g_a 10; const int c_g_b 20;int main() {// 全局区// 全局变量、静态变量、常量// 创建普通…

一个巧用委托解决的问题(C#)

个人觉得是委托应用的一个很好的例子&#xff0c;故做一下分享&#xff0c;希望能帮助到您&#xff0c;内容比较简单&#xff0c;大佬可以跳过。我是做桌面医疗软件开发的&#xff0c;前段时间在做一个需求。在签发检验项目医嘱时&#xff0c;调用第三方接口&#xff0c;然后带…

GPT演变:从GPT到ChatGPT

Transformer 论文 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder… https://arxiv.o…

Java基础常见知识点面试总结

文章目录 1. 变量、数据类型转换、运算符1.1 变量1.2 数据类型转换1.2.1强转的注意事项 1.3 进制的转换1.4 位运算符1.5 运算符1.6 三元运算符 2. 流程控制2.1 键盘录入_Scanner2.2 Random随机数2.3 switch(选择语句)2.4 分支语句2.5 循环语句 3. 数组3.1 数组的定义3.2 数组操…

乐趣Python——文件与数据:挥别乱糟糟的桌面

各位朋友们&#xff0c;今天我们要开启一场非凡的冒险——进入文件操作的世界&#xff01;你知道吗&#xff0c;在你的电脑里&#xff0c;有一个叫做“文件系统”的迷宫&#xff0c;里面藏着各种各样的文件和文件夹&#xff0c;它们就像是迷宫中的宝藏。但有时候&#xff0c;这…

wpf下如何实现超低延迟的RTMP或RTSP播放

技术背景 我们在做Windows平台RTMP和RTSP播放模块对接的时候&#xff0c;有开发者需要在wpf下调用&#xff0c;如果要在wpf下使用&#xff0c;只需要参考C#的对接demo即可&#xff0c;唯一不同的是&#xff0c;视频流数据显示的话&#xff0c;要么通过控件模式&#xff0c;要么…

SpringMVC(一)【入门】

前言 学完了大数据基本组件&#xff0c;SpringMVC 也得了解了解&#xff0c;为的是之后 SpringBoot 能够快速掌握。SpringMVC 可能在大数据工作中用的不多&#xff0c;但是 SSM 毕竟是现在就业必知必会的东西了。SpringBoot 在数仓开发可能会经常用到&#xff0c;所以不废话学吧…

Mapmost Alpha:开启三维城市场景创作新纪元

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…

2024年4月8日腾讯云故障复盘及情况说明

2024年4月8日15点23分&#xff0c;腾讯云团队收到告警信息&#xff0c;云API服务处于异常状态&#xff1b;随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。 经过故障定位发现&#xff0c;客户登录不上控制台正是由云API异常所导致。云…

面试必备:3个技巧提升表达能力,轻松拿Offer!

在职场竞争中&#xff0c;面试是求职者迈向成功的重要一步。想要在众多竞争者中脱颖而出&#xff0c;获得面试官的青睐并拿下心仪岗位的offer&#xff0c;良好的表达能力不可或缺。今天&#xff0c;我们就一起探讨如何在面试中有效提升自己的表达能力&#xff0c;为成功铺路。 …

C语言如何生成随机数以及设置随机数的范围

一、随机数的生成 1.rand()函数 C语言提供了⼀个函数叫 rand&#xff0c;这函数是可以生成随机数的&#xff0c;函数原型如下所示&#xff1a; int rand (void); rand函数会返回⼀个伪随机数&#xff0c;这个随机数的范围是在0~RAND_MAX之间&#xff0c;这个RAND_MAX的大小是依…

c语言中声明的问题【求个关注!】

文章目录 1 变量的声明与定义&#xff08;1&#xff09;定义与声明的区别&#xff1a;&#xff08;2&#xff09;为什么要区分定义与声明&#xff1f;&#xff08;3&#xff09;extern是什么 ?&#xff08;4&#xff09;举例&#xff1a; 2 函数的声明&#xff1a;函数声明的格…

使用Docker定时备份数据

文章目录 一、Docker镜像制作二、MySQL数据备份三、Minio数据备份四、数据跨服务器传输五、Nginx日志分割六、Docker启动七、Docker备份日志 一、Docker镜像制作 镜像制作目录 mc下载地址 - rsyncd.conf # https://download.samba.org/pub/rsync/rsyncd.conf.5port 873 uid …

Qt控件---布局管理类

文章目录 QVBoxLayout&#xff08;垂直布局&#xff09;QHBoxLayout&#xff08;水平布局&#xff09;QGridLayout&#xff08;网格布局&#xff09;拉伸 QFormLayout&#xff08;表单布局&#xff09;QSpacerItem&#xff08;空白&#xff09; QVBoxLayout&#xff08;垂直布局…

Apache Doris 基于 Job Scheduler 实现秒级触发任务调度能力

作者&#xff5c;SelectDB 技术团队 在数据管理愈加精细化的需求背景下&#xff0c;定时调度在其中扮演着重要的角色。它通常被应用于以下场景&#xff1a; 定期数据更新&#xff0c;如周期性数据导入和 ETL 操作&#xff0c;减少人工干预&#xff0c;提高数据处理的效率和准…

【王道数据结构笔记】顺序表的静态分配代码分析

&#x1f388;个人主页&#xff1a;豌豆射手^ &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f917;收录专栏&#xff1a;数据结构 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共同学习、交流进…

2024-04-08

作业要求&#xff1a; 1> 思维导图 2>使用手动连接&#xff0c;将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中&#xff0c;在自定义的槽函数中调用关闭函数 将登录按钮使用qt4版本的连接到自定义的槽函数中&#xff0c;在槽函数中判断ui界面上输入的账号是否…

攻防世界05view_source

鼠标右键无法查看源代码&#xff0c;但是可以直接F12进行查看 但是没有办法复制&#xff0c;可以在地址前面加上view-source 这时候就可以复制了 知识点1&#xff1a;view-source协议-查看源码 view-source是一种协议&#xff0c;早期基本上每个浏览器都支持这个协议。后来Mi…

C语言基础(四)

C语言基础 一维数组数组初始化全部初始化部分初始化数组的默认值冒泡排序 字符数组 二维数组初始化行数是否可省略列数是否可以省略部分初始化 访问二维字符数组 函数分类库函数自定义函数调用自定义函数函数声明 一维数组 概念&#xff1a;一组数据类型相同的元素的集合 <…